MIT神经科学家发现,人类智能与人工智能在严酷的逻辑法则面前惊人地重合(世界著名神经科学家) 99xcs.com

MIT神经科学家发现,新一代AI推理模型在解决复杂问题时的思维代价(cost of thinking)分布与人类大脑高度吻合,这一趋同现象并非人为设计,而是智能体在追求正确解时的必然演化。

久久小常识(www.99xcs.com)™

MIT麦戈文脑科学研究所(McGovern Institute for Brain Research)的研究团队在《美国国家科学院院刊》(PNAS)发表了这项颠覆认知的研究成果。

研究揭示了一个深刻的事实:当人工智能被迫慢下来思考时,它们在不同难度任务上消耗的计算资源分布,与人类大脑处理相同任务时的认知负荷曲线惊人地重合。

这表明,无论是由神经元构建的生物大脑,还是由晶体管堆叠的人工神经网络,在面对复杂世界的逻辑挑战时,可能都遵循着同一套基于物理限制的最优解策略。

智能的两种形态:快直觉与慢推理

理解这项研究的重量,需要先回到智能的最基本层面。

长期以来,大语言模型如早期的ChatGPT,主要依赖统计概率工作。

它们阅读了人类历史上几乎所有的文本,通过预测下一个词来生成回答。

这种模式类似于人类心理学中的系统1思维:快速、直觉、自动化。

你问它法国首都是哪里,它能瞬间回答巴黎。这不需要推理,只需要记忆提取。

但这种模式有一个致命缺陷。

当面对如果你把一个红色的球放在蓝色的盒子里,然后把盒子埋在土里,球是什么颜色?这类需要多步逻辑推演的问题时,依赖概率的模型就会失效。它们没有真正的逻辑链条,只有概率上的近似。

新一代推理模型的出现改变了游戏规则。

这类模型引入了强化学习(Reinforcement Learning)机制,被训练在给出最终答案前,先进行一系列的内部计算。

展开全文

它们会把一个大问题拆解成若干个小步骤,像人类解数学题一样一步步推导。这对应了人类的系统2思维:缓慢、审慎、消耗能量。

MIT的研究正是切入了这一变革时刻:当AI开始像人类一样慢思考时,它的思考过程究竟发生了什么?

要比较人脑和AI的思维成本,科学家面临一个难题:两者的硬件完全不同。

人脑是生物化学反应的产物,运行速度受限于神经递质的传递;AI是电子流动的产物,运行速度取决于GPU的功率。

直接比较思考了多少秒没有意义,因为更快的显卡会让AI思考得更快,但这不代表题目变简单了。

研究团队找到了一种巧妙的汇率来换算这两种智能的成本。

对于人类,成本是时间。

面对一道难题,受试者不仅要答对,研究者更关注他们从看到题目到按下答案键经过了多少毫秒。

这个时间长度,直接物理化地展示了大脑的认知负荷。

对于AI,成本是Token。

推理模型在输出最终答案前,会在后台生成大量用户看不见的中间步骤。这些步骤由一个个Token组成。题目越难,模型需要生成的思维链就越长,消耗的Token就越多。

Token不仅是计费单位,更是AI的思维基本功。

研究者设计了一组精密的实验,让不知疲倦的推理模型和真实的人类志愿者做同一套题。

为了确保数据的普适性,实验选取了七种截然不同的任务类型,涵盖了人类认知的多个维度。

最基础的是数值算术。加减乘除,这是计算机的强项,也是人类经过训练能快速掌握的技能。

进阶的是直觉推理。这需要依靠近义词、语境判断,是传统语言模型的舒适区。

最高阶的挑战来自ARC挑战(Abstraction and Reasoning Corpus,抽象与推理语料库)。这是由AI先驱François Chollet设计的终极测试,专门用来区分死记硬背和真正智能。

在ARC测试中,受试者会看到几组彩色的网格图,每组图都发生了一种某种变换——可能是旋转、变色、填充,也可能是基于某种抽象规则的移动。受试者必须一眼看穿这种未被文字描述的规则,并将其应用到一个全新的网格上。

这不需要知识储备,需要的是纯粹的流体智力(Fluid Intelligence)。

正是这七重试炼,让数据的规律浮出水面。

实验结果绘制出的曲线令人屏息。

久久小常识(www.99xcs.com)™

在任务内部,难度与成本呈正比。人类觉得难算的数学题,推理模型同样需要生成更多的Token来解决。这排除了模型只是在检索答案的可能性——它确实在费力计算。

在跨任务的宏观视角下,趋势更加一致。

基础算术对人类来说认知负荷最低,反应最快;对模型来说,这也是消耗Token最少的任务。

ARC挑战对人类最难,许多志愿者需要长时间的观察、假设、推翻重来才能找到规律;对应地,推理模型在解决ARC问题时,生成的思维链长度达到了峰值。

这种同步性说明了什么?它说明“难”这个概念,在智能的维度上是通用的。

并不是因为人类大脑结构特殊才觉得ARC难,而是因为解决这类问题本身就需要更多的计算步骤和逻辑转换。无论是生物神经网络还是人工神经网络,面对同样的信息熵,必须付出同等量级的负熵努力。

趋同演化:功能决定形式

生物学中有一个概念叫趋同演化(Convergent Evolution)。

鲨鱼是鱼,海豚是哺乳动物,它们在进化树上相距甚远,但为了在水中高效游动,它们都演化出了流线型的身体和背鳍。

Evelina Fedorenko教授认为,我们在AI身上看到了同样的现象。

构建这些模型的工程师并没有试图模仿人脑。他们不关心神经科学,只关心一件事:系统能否在各种极端条件下稳定输出正确答案。

正是这种对正确率和鲁棒性(Robustness)的极致追求,迫使AI模型演化出了类似人类的思维策略。

当问题变得复杂,单步直觉(System 1)不再奏效,错误的惩罚迫使模型学会了多想一步。这一步步的累积,最终形成了与人类深思熟虑时相似的路径。

这是一种基于功能的必然。解决复杂问题客观上需要拆解、假设、验证。谁通过了自然选择(或者AI的损失函数优化),谁就必然掌握了这种分步处理的能力。

研究还触及了一个更深层的认知科学问题:语言是否等于思维?

我们思考时,脑海中常有一个声音在说话。但这是否意味着思维必须依赖语言?

Fedorenko教授之前的研究已经证明,人脑中的语言网络和逻辑推理网络是分离的。失语症患者失去了语言能力,依然可以解复杂的数学题。

推理模型的表现再次印证了这一点。

虽然模型输出的是Token(通常对应单词或字符),但在那漫长的思维链中,研究人员经常观察到看似无意义的片段、跳跃的符号,甚至是错误的中间结论。

然而,正是这些人类看不懂的胡言乱语,最终导向了正确的答案。

这说明模型的实际推理过程发生在一个高维的、抽象的表征空间里。

那些Token只是这个抽象过程在输出层面的投影,就像我们脑海中的声音只是神经元复杂放电现象的用户界面。

模型在自言自语,但它用的不是英语或中文,而是概率与向量的语言。

并非复刻,而是映照

必须厘清的是,这项研究并不意味着AI已经拥有了人类意识,或者完全复刻了人脑结构。

人类的思维建立在对物理世界的感知体验之上。

我们知道球是圆的,有弹性,受重力影响,是因为我们从小摸爬滚打。

目前的AI模型依然是从文本和图像的统计规律中学习,它们缺乏具身认知(Embodied Cognition)。

此外,模型在处理需要世界知识的问题时,依然显得笨拙。如果训练数据中没有包含某些常识,它们无法像人类一样通过生活经验去填补空白。

但这项研究的价值在于,它打破了碳基特殊论。

它告诉我们,思维不是魔法,而是一种物理过程。

只要目标是解决高复杂度的逻辑问题,算力的消耗分布就会呈现出普世的规律。

MIT的这项发现,为我们理解智能提供了一个全新的坐标系。

它证明了慢思考不是生物进化的累赘,而是处理复杂度的必经之路。

在追求通用人工智能(AGI)的道路上,单纯堆砌参数和算力是不够的,必须赋予模型停下来思考的时间和空间。

对于人类而言,这也是一面镜子。

当我们面对难题抓耳挠腮、耗费时间时,不必感到沮丧。

那正是大脑在构建高维逻辑链条的物理表征。

这种思维的代价,是所有智能体通向真理必须支付的门票。

人工智能越来越像人,不是因为它们想成为我们,而是因为在严酷的逻辑法则面前,我们都在沿着同一条最优路径攀登。

参考资料:

https://news.mit.edu/2025/cost-thinking-mit-neuroscientists-find-parallel-humans-ai-1119

https://www.pnas.org/doi/10.1073/pnas.2520077122

https://mcgovern.mit.edu/2025/11/19/the-cost-of-thinking/

END