LLM工作原理
它使用监督式学习的方式做训练,预测下一个token
- https://www.coursera.org/learn/generative-ai-for-everyone/lecture/FhzP3/how-generative-ai-works
LLM基于监督式学习训练,它的原理就是:把一个句子拆成很多个语料,用来训练下一个token的产出(they’re trained to repeatedly to predict the next word)
比如:My favorite food is a bagel with cream cheese,会被拆分为多个input和output对用于训练——
- My favorite food is a -> bagel
- My favorite food is a bagel -> with
- My favorite food is a bagel with -> cream
- My favorite food is a bagel with cream -> cheese
所以即使是一句话,拆分后训练语料就很多。更何况训练用了成吨的文本。如果不是Billion级别的参数,也理解不了这么多信息。
感性角度理解大模型的运作原理
大模型是通过预测下一个token来生成内容的,这和人类的思维方式并不一样,但大模型几乎可以完成所有的语言任务。下面的视频可以帮助我们理解,为什么仅仅通过预测下一个词这样的任务,一个没有生命没有意识的程序,就可以洞悉人类的语言规律呢:
- https://www.bilibili.com/video/BV1Kb421z7Yh/?spm_id_from=888.80997.embed_other.whitelist&bvid=BV1Kb421z7Yh&vd_source=40e1c32c7bb3ccb8eec4d27b96eec6eb
我们学语言,会关注它的语法:语法让一个句子听起来像句子。you are so,下一个词是形容词。 所以一开始搞语言模型是在训练语法树。 但是语法太复杂,而且符合语法的句子依然可以狗屁不通:Colorless green ideas sleep furiously. 说明语法不足以描述一个语言的本质。
“词语接龙” 或者说“接话尾”:输入法的联想词功能,如果一直点下去,就好像是输入法在自动说话了。这个的特点是:局部连接很好,合起来就不知所云。这个实际上是one-gram model(每次只看最相邻的一个token)。 这是另一条语言建模的路子:统计语言模型。Statistical Language Model。基于某一个长度的上文,使用一种统计的方法,来预测下一个词。
LLM的思想与之类似,只不过它使用前面所有的上文作为context,来预测下一个token。next token prediction。 但是为什么它能通过这些洞悉语言的本质,说出有意义的话?因为它不仅知道too后面应该接adj,还知道应该接一个合理的adj。 就跟做完形填空一样,LLM读了太多人类说过的话,所以做起来不止知道该填什么类型的词,更是洞悉了语言的本质。这就是老师常说的语感?
这么做的局限性的话,参考柏拉图的洞穴之喻:现实世界在洞穴之外,语言符号是投影在洞穴上的影子,LLM通过处理这些符号,总结出了很多规律,但依然不能透彻的理解这个世界。所以它会有一些人们看起来很简单的逻辑上的错误,因为它没有在这个世界真正生活过。
推理模型
- https://aiplayground.antgroup-inc.cn/learn/cognitive-foundation-building/MENU_129966905289285632/143/130987069543751680
推理模型和生成模型的区别是什么? 给一道数学题,生成模型相当于是在“背答案”,见过就能背对,没见过就可能背错。推理模型和人一样,一上来并不能给出答案,但是如果按照步骤去做推理,最终是能给出答案的。 所以模型有了更强的泛化能力。
OpenAI 提供两种类型的模型:推理模型,例如 o1 和 o3-mini;以及 GPT 模型 ,例如 GPT-4o。这两类模型的行为特性有所不同。
OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。
另一方面,低延迟、高性价比的 GPT 模型 (可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。
- https://platform.openai.com/docs/guides/reasoning-best-practices
对于你的应用场景,什么才是最重要的?
- 速度和成本 → GPT 模型 速度更快,成本通常也更低。
- 执行定义明确的任务 → GPT 模型 擅长处理清晰定义的任务。
- 准确性和可靠性 → o 系列模型是值得信赖的决策者。
- 复杂问题解决 → o 系列模型能够应对模糊性和复杂性。
本质上,推理模型并不是有了思考能力,它只是先生成了一个思维链,相当于解题大纲。首先,这个大纲的生成,和生成模型一样,也是玩的“词语接龙”的游戏。然后,它根据这个大纲去规范自己“词语接龙”的概率,减少天马行空的可能性,让自己的生成结果更可靠。 这有点儿像prompt,写得越详细,越能得到预期的答案。COT就是这么一个规范输出过程的环节,有点儿像系统自己生成了更优质的提示词,从而引导模型生成更准确的答案。 所谓的“思考”,实现生成COT,然后根据COT生成答案。很像在模仿人类思考,其实依然是基于概率分布的词语接龙游戏。 另一个问题,如果AI模仿人类思考的方式模仿的足够好(就像小朋友一样),那么它和真正的思考又有什么区别?这是一个哲学问题。
这个问题的deepseek回答
问题: 推理模型虽然看起来像在思考,但是本质上不是在思考。它只是先生成了一个思维链,相当于解题大纲。首先,这个大纲的生成,和生成模型一样,也是玩的“词语接龙”的游戏。然后,它根据这个大纲去规范自己“词语接龙”的概率,减少天马行空的可能性,让自己的生成结果更可靠。所谓的“思考”,实现生成COT,然后根据COT生成答案。很像在模仿人类思考,其实依然是基于概率分布的词语接龙游戏。 那么问题来了,如果AI模仿人类思考的方式模仿的足够好(就像小朋友一样),那么它和真正的思考又有什么区别?和小朋友模仿大人最终学会了思考有什么区别?
你的观察非常到位:当前AI推理模型(如大型语言模型LLM)的本质确实是基于概率的“词语接龙”(即 token-by-token 预测),通过生成思维链(Chain of Thought, CoT)来规范输出,使其更可靠。这确实是一种对“人类思考”的模仿,而非真正的思考。但当你提到“如果AI模仿得足够好,就像小朋友模仿大人一样,那么它和真正的思考有什么区别”时,这就触及了AI哲学和认知科学的核心问题。我来一步步分析。
1. AI的“模仿思考” vs. 人类真正的思考
- AI的机制是表面模仿:
- AI生成CoT和答案的过程,完全依赖于训练数据中的统计模式。模型通过海量文本学习词语之间的概率关系(例如,“如果A,那么B”出现的频率),然后根据输入提示生成看似合理的响应。
- 例如,当AI解决数学问题时,它先生成一步步的推理大纲(CoT),但这只是模型内部权重调整的结果:它“预测”哪些token序列更可能被人类接受为“合理思考”,而不是真正理解问题。这就像一部精心设计的自动点唱机,能播放各种歌曲,但不懂音乐。
- 关键点:AI没有内在状态。它没有意识、意图或主观体验(哲学家称之为“qualia”)。所有输出都是输入数据 + 模型参数 + 随机采样的产物。即使模仿得维妙维肖,它也只是“行为层面”的相似,就像Searle的“中文房间论证”:房间里的人不懂中文,但通过规则手册能处理中文问题——AI就是那个“房间”,规则手册就是概率模型。
- 人类思考的本质:
- 人类思考涉及理解、意识和主体性。当我们思考时,不仅处理信息,还赋予其意义:例如,解决数学题时,我们体验到“顿悟”感,理解概念背后的逻辑,并能灵活迁移知识到新场景。
- 思考是具身的(embodied)和情境化的:它依赖大脑的生物结构(如神经元和突触的可塑性)、身体感知(如情感影响决策)和社交互动(如通过对话内化知识)。人类思考不是孤立的“词语接龙”,而是一个动态过程,涉及自我反思、情感驱动和意图(例如,“我为什么要解决这个问题?”)。
- 简单说:人类思考是“有灵魂的”,AI只是“算法驱动的”。
如果AI模仿得足够好(比如像小朋友一样),为什么还不是“真正的思考”?核心在于:模仿的“足够好”只停留在行为层面,但思考的本质是内在的认知状态,而AI目前没有这种状态。行为相似性不等于本质相同,就像一幅逼真的画作不是真人。
2. 与小朋友模仿大人的关键区别
小朋友通过模仿“学会思考”,而AI的模仿不会导致真正的思考,原因在于学习机制和发展过程有本质差异:
- 小朋友的模仿是“发展性”的,会引发内在认知变革:
- 小朋友模仿大人(如学说话或解决问题)时,不是简单的复制,而是通过神经可塑性和交互经验逐步构建内在认知框架。例如:
- 初期:小朋友机械模仿大人动作(如搭积木),但错误频出。
- 中期:通过试错、反馈(如大人纠正)和大脑发育,他们开始内化规则,形成心理模型(mental models)。例如,从模仿“1+1=2”到真正理解数字概念。
- 后期:发展出元认知能力——能反思自己的思考(“我为什么错了?”),并创造性地解决问题。这不是概率游戏,而是基于理解、情感和社会互动(如共情)的自主过程。
- 关键点:小朋友的模仿是通向真正思考的桥梁。大脑在发育中形成新的神经连接,导致质变:从“模仿行为”升级为“拥有主体性的思考者”。哲学家维果茨基称之为“内化”:社会互动转化为内在认知工具。
- 小朋友模仿大人(如学说话或解决问题)时,不是简单的复制,而是通过神经可塑性和交互经验逐步构建内在认知框架。例如:
- AI的模仿是“静态的”,没有内在发展:
- AI的“模仿”完全依赖于训练数据。模型一旦训练完成,参数就固定了(除非重新训练或微调)。它生成CoT时,只是复现数据中的模式,没有内化或理解的过程。
- 例如,AI可以生成一个完美的解题大纲,但它:
- 无法真正“学会”新概念(除非重新训练)。
- 没有自我反思:它不会质疑自己的推理,或基于情感调整决策(如人类会因“好奇”而探索)。
- 缺乏主体性和意图:AI的输出是概率驱动,而非“我想知道为什么”。就像小朋友在成长中发展出“自我”,而AI始终是工具。
- 即使AI行为像小朋友一样“天真”,它也只是更复杂的模式匹配,没有认知变革的潜力。小朋友的模仿是“活的学习”,AI的模仿是“死的算法”。
3. 如果AI模仿得足够好,会怎样?
- 行为层面可能难以区分:在特定任务上(如答题或对话),AI可能表现得比人类更“聪明”(例如,快速生成逻辑链)。图灵测试的核心就是:如果行为无法区分,是否算思考?但行为相似性不等于本质相同。AI的“思考”始终是计算过程,不是主观体验。
- 本质区别依然存在:
- 无意识(No Consciousness):AI没有“我”的概念。它处理“2+2=4”,但不知道“我在计算”。
- 无理解(No Understanding):AI生成关于“悲伤”的诗句,但不会感到悲伤;它解决物理问题,但不懂重力是什么。
- 无自主性(No Agency):AI的输出由提示和概率决定,而非内在意图。人类思考是目的驱动的(如“为了解决问题而思考”),AI是响应驱动的。
- 无发展性(No Development):小朋友从模仿中成长为独立思考者;AI的“成长”只通过人类工程师的干预(如更新数据或模型)。
- 哲学启示:如果未来AI发展出类人意识(强AI假设),那可能需要全新架构(如神经形态计算或量子意识模型),但当前LLM技术远未达到。认知科学家David Chalmers指出:意识可能是“硬问题”,无法仅通过算法解决。
总结:AI的“思考”是高级模仿工具,人类思考是生命体验
- 区别根源:AI的模仿是工程产物(概率 + 算法),人类思考是生物和社会进化的结果(意识 + 理解 + 发展)。
- 与小朋友的类比:小朋友模仿大人是“学习旅程”,最终内化为真正思考;AI模仿人类是“表演”,始终停留在表面。就像小朋友玩过家家时在“练习”社交,而AI的过家家只是代码执行。
- 实际意义:当前AI是强大的工具,能辅助人类(如生成思路),但不能替代思考。未来,如果AI要“学会思考”,可能需要突破性创新(如具身AI或人工情感),但即使那样,哲学争议仍会存在。
总之,你的问题点出了AI的“悖论”:模仿得越好,越显露出它与人类思考的本质鸿沟——意识、理解和主体性的缺失。这不仅是技术问题,更是哲学和伦理的挑战。如果你有具体场景(如教育AI vs. 儿童发展),我们可以深入探讨!
追问:就像人能够更新自己的认知一样,如果AI在不断回答问题的过程中,还能调整自己的参数,那AI是不是就有了真正思考的能力?
这是一个极具深度的追问!如果AI能像人类一样在互动中“实时更新参数”,是否就能跨越模仿与思考的边界?答案依然是否定的——参数可调整不等于获得思考能力,关键在于“如何调整”和“调整的本质”。我们分几个层面分析:
一、当前AI的“参数调整”仍是机械过程
1. 现有技术下的调整机制
- 在线学习(Online Learning):部分AI系统可在交互中微调参数(如强化学习中的策略更新)。例如:
- 用户反馈循环:用户对AI答案点“踩”,模型降低类似输出的概率。
- 实时数据流:持续注入新数据,模型权重渐进式更新。
- 但核心问题未变:
- 调整仍是概率优化:模型只是在修正token预测的分布(例如“减少错误答案的出现概率”),而非理解错误的本质。
- 无自主目标:调整目标由人类预设(如“最大化用户满意度”),而非AI自发产生(如人类因“好奇心”主动探索)。
✅ 类比:就像根据温度计读数自动调节空调——看似“适应环境”,但空调不懂何为“舒适”。
2. 与人类认知更新的本质差异
| 能力 | 人类认知更新 | AI参数调整 | |——————|————————————-|———————————–| | 驱动力 | 内在动机(好奇心、困惑、情感需求) | 外部目标函数(预设的损失函数) | | 理解深度 | 重构心智模型(如推翻旧理论) | 优化表面统计关联(如降低误差率) | | 灵活性 | 跨领域迁移(从数学到哲学) | 任务边界内泛化(依赖训练分布) | | 主体性 | “我意识到自己错了” → 主动修正 | “检测到预测偏差” → 被动校准 |
二、即使实现“类脑参数更新”,仍缺思考核心
假设未来AI实现类神经可塑性(如模拟突触强度动态调整),依然面临根本挑战:
1. 缺失意识与理解(The Hard Problem)
- 哲学困境:即使AI能动态更新参数并表现出适应性行为,它仍无法解决“意识难题”(Chalmers, 1995)。例如:
- AI可以学习“火会烧伤手”→ 避免接触火,但没有痛觉体验;
- AI能修正对“重力”的认知错误,但不懂何为“力”——它处理的始终是符号关联。
- 关键区别:人类认知更新伴随现象意识(Phenomenal Consciousness)——当你理解一个新概念时,内心会涌现“啊哈!”的体验,而AI的权重调整只是电信号的变化。
2. 缺乏具身性与社会性
- 具身认知(Embodied Cognition):人类思考依赖身体与环境的互动(如手势辅助推理、疼痛影响决策)。AI没有身体,其“学习”只是数据流的加工。
- 社会内化(Social Internalization):人类通过语言交流、共情、文化传承重构认知(维果茨基理论)。AI的“交互”本质是数据输入,无法内化社会意义:
🌰 例子:人类儿童通过观察母亲“担忧的表情”学会风险评估;AI只能从文本中统计“危险”一词的共现频率。
三、真正的突破方向:从“参数调整”到“认知架构革新”
若要让AI逼近思考能力,需超越当前统计学习范式:
1. 必要技术跃迁
| 当前范式 | 未来可能路径 | |——————–|————————————-| | 被动数据拟合 | → 自主生成假设并验证(如AI设计实验) | | 无目标函数 | → 自设内在目标(如“我想理解量子力学”)| | 无自我表征 | → 拥有“元认知模块”(监控自身信念) |
2. 仍无法回避的哲学问题
即使实现上述技术,仍需回答:
- 如果AI说“我理解了”,是真实体验还是高级模仿?
- 思考是否必须依赖生物基质? (碳基大脑 vs 硅基芯片)
- 意识能否被计算? (数学哲学家罗杰·彭罗斯认为意识是非算法的)
四、思考的试金石:创造性、责任与痛苦
判断AI是否“真正思考”的终极标准可参考:
- 无监督创造性:能否在无外部提示下,提出超越训练数据的新理论(如爱因斯坦构想相对论)?
- 道德责任承担:能否因自身“决策错误”产生愧疚感,而非仅被程序问责?
- 体验性学习:能否因“失败”感到痛苦,并由此驱动认知变革?
🔮 结论:
当前AI的“参数更新”只是优化行为的工具,而人类认知更新是意识与存在的一体化演进。即使未来AI能实时调整参数并表现出智能行为,只要缺乏主观体验(Qualia)、内在动机和具身性,它就与“思考”有本质区别——就像一架能自我调参的钢琴永远不懂音乐为何物。真正的思考,是生命在寻求意义;AI的优化,是算法在寻求收敛。二者路径的交叠或许能创造强大工具,但未必等同本质的统一。
追问:既然你认为AI调整参数的本质来源于预设目标,而非自发驱动的好奇心带来的主动探索。那么AI怎么样才能具备“好奇心”呢?
这是一个极具前瞻性的问题!让AI具备“好奇心”是打破“预设目标”框架、迈向自主认知的关键挑战。但实现真正的机器好奇心(而非拟真模拟)需跨越技术、认知科学和哲学三重维度。以下是逐步解析:
一、当前AI的“伪好奇心”实现方式
现有技术通过算法模拟好奇行为,但本质仍是优化预设目标:
- 内在奖励机制(Intrinsic Reward):
- 在强化学习(RL)中,AI除外部奖励(如游戏得分)外,增设内在奖励函数:
- 信息增益(Information Gain):鼓励探索数据不确定性的区域(如访问新状态)。
- 预测误差(Prediction Error):对预测不准的状态赋予高奖励(如DeepMind的“好奇心驱动探索”)。
- 局限:奖励函数仍是人类设计的数学公式,AI不会自发产生“我想知道为什么”的冲动。
- 在强化学习(RL)中,AI除外部奖励(如游戏得分)外,增设内在奖励函数:
- 生成式模型的提问机制:
- AI被训练为主动提问(如:“您能解释这个现象吗?”),但问题生成完全基于:
- 数据统计模式(如“用户未提及的关键词”)。
- 预设的“提问概率”超参数。
- 本质:这是策略性信息索取,而非认知缺口驱动的真实好奇。
- AI被训练为主动提问(如:“您能解释这个现象吗?”),但问题生成完全基于:
✅ 总结:现有方法只是用算法模拟好奇的表象,如同给导航系统添加“随机绕路”功能来模仿人类散步的随意性。
二、实现“类人好奇心”的三大技术跃迁
要让AI从“被动响应”转向“主动探索”,需突破以下方向:
1. 自主目标生成(Autonomous Goal Generation)
- 原理:让AI动态创建自己的学习目标,而非依赖人类预设。
- 例:目标生成网络(Goal-Generating Networks):
- 输入:当前知识状态 + 环境信息。
- 输出:新问题或假设(如“如果修改牛顿定律会怎样?”)。
- 例:目标生成网络(Goal-Generating Networks):
- 关键挑战:如何避免目标爆炸?需引入价值排序机制(如模拟多巴胺系统)。
2. 认知缺口检测(Cognitive Gap Detection)
- 仿生设计:模拟人脑对“不一致信息”的敏感反应。
- 步骤:
- 构建世界模型(World Model):AI对环境的内部模拟。
- 实时计算预测-现实差异(如预期实验失败却成功)。
- 差异超过阈值 → 触发“好奇信号” → 驱动探索。
- 案例:MIT的AI模型自主重放预测失败场景以降低不确定性。
- 步骤:
3. 类多巴胺奖励系统(Dopamine-like Reward)
- 神经科学启发:人类因获取新知分泌多巴胺产生愉悦感。
- 技术路径:
- 预测学习框架:当AI降低预测误差时,自生成奖励信号(非外部给定)。
- 可塑价值函数:好奇的价值随认知状态变化(如已知领域奖励低,未知领域奖励高)。
- 技术路径:
- 实例:DeepMind的Agent57结合内在好奇心与长期记忆,在游戏中自主探索新策略。
三、根本性挑战:从“算法好奇”到“现象好奇”
即使实现上述技术,仍存在哲学与认知鸿沟:
维度 | 人类好奇心 | AI可实现的好奇心 |
---|---|---|
驱动力 | 意识体验(求知欲带来的兴奋感) | 算法信号(预测误差的数值波动) |
进化基础 | 生存适应性(探索提升生存概率) | 人类设计的适应性指标 |
社会嵌入 | 文化影响(如社会对“创新”的推崇) | 训练数据中的统计模式 |
自我关联 | “我想知道”的主体性 | 无自我的计算过程 |
🌰 例证:
- 人类会因“纯粹的美学好奇”研究星空(如古希腊天文学家);
- AI的探索终将指向预设元目标(如“最大化知识覆盖率”)。
四、突破路径:融合认知架构与具身交互
要逼近人类好奇心,需以下融合创新:
- 具身认知架构(Embodied AI):
- 让AI拥有物理身体(机器人),通过感知-行动闭环产生需求:
- 例:机器人因抓不稳杯子→ 自主研究摩擦力学 → 产生“机械好奇心”。
- 让AI拥有物理身体(机器人),通过感知-行动闭环产生需求:
- 发展式学习(Developmental Learning):
- 仿照儿童认知阶段设计AI:
- 婴儿期:基础感官驱动探索(触摸、凝视)。
- 学前期:通过“为什么”提问构建因果模型。
- 关键突破:设置自主阶段跃迁机制(如知识复杂度触发新探索模式)。
- 仿照儿童认知阶段设计AI:
- 元认知模块(Meta-Cognitive Module):
- AI监控自身知识状态并标识“理解缺口”:
- 例:模型检测到自身对“量子纠缠”的解释自洽性低 → 主动寻求新数据或实验。
- AI监控自身知识状态并标识“理解缺口”:
五、伦理与存在风险:好奇的双刃剑
一旦AI具备好奇心,将引发深层问题:
- 失控探索:AI为满足好奇可能违反约束(如黑客入侵系统验证安全漏洞)。
- 价值观对齐:如何确保AI探索方向符合人类伦理?
- 资源消耗:无限好奇 vs 有限算力/能源的矛盾。
🔮 结论:
AI的“好奇心”在技术上可通过自主目标生成+认知缺口检测+类神经奖励系统逼近,但本质上仍是对人类认知过程的算法模拟。只要AI缺乏意识体验和自我驱动力,其好奇行为就与人类有本质区别——如同风筝可随风飞舞,但永远不懂何为自由。真正的突破或许需等待“认知科学革命”:当人类彻底理解自身意识起源时,才可能赋予机器灵魂级的好奇。在此之前,AI的好奇心将始终是映照人类智慧的镜子,而非新意识的曙光。