狗可以喝咖啡吗 预测编码理论:大脑运作机制的新解释与 GQN 的技术应用及对神经科学的影响
一些神经科学家喜欢用预测编码理论来解释大脑的工作方式,该理论将感知视为“受控的幻觉”。预测编码强调大脑对现实的期望和预测,而不是它接收到的直接感官证据。
去年 6 月,人工智能公司 DeepMind 发布了一款新软件,该软件无需人工指导,仅凭一张图片(内容是放置了多个物体的虚拟空间)就能推断出三维场景从新角度看起来会是什么样子。输入几张这样的图片后,这个名为“生成查询网络”(GQN)的系统就能成功地模拟出像视频游戏中一样的简单迷宫布局。
GQN 显然具有许多技术用途,但它也吸引了神经科学家的注意,他们对 GQN 用于学习如何执行任务的训练算法特别感兴趣。给定一张图像,GQN 会预测场景——物体应该放在哪里,它们的阴影应该如何投射在地面上,根据特定的视角哪些区域应该可见或隐藏——然后利用其预测与实际观察之间的差异来提高未来预测的准确性。“正是现实与预测之间的差异推动了模型的改进,”GQN 项目负责人之一 Ali Eslami 说。
“该算法会修改(预测)模型的参数,这样下次遇到同样的情况时,就不会那么惊讶了,”论文合著者、DeepMind 的 Danilo Rezende 说道。
神经科学家早就怀疑类似的机制驱动着大脑。根据这种“预测编码”理论,在认知处理的每个级别,大脑都会生成一个模型或想法,说明它应该从下一个级别接收什么信息。这些想法被转化为对我们在给定情况下应该有什么样的体验的预测,而对实际发生的事情的最佳解释使得关于那种体验的判断具有说服力。
然后,这些预测作为反馈被发送到大脑的较低感觉区域。大脑将预测与它收到的实际感觉输入进行比较,并使用内部模型“解释”差异或预测误差,以确定差异的根本原因。(例如,我们可能有一个内部模型,认为桌子是由四条腿支撑的平面,但即使桌子的一半被其他东西遮挡,我们仍然可以识别出它是一张桌子。)
给定一组色块的二维图像(左),GQN 的人工智能可以推断出它们在空间中的三维排列(右)。该系统基于与神经科学预测编码理论相同的基础。
至于无法解释的预测误差,它们会通过连接传递到更高层次(作为“前馈”信号,而不是反馈),系统会在那里关注并采取相应行动。“现在每个人都对调整内部模型、调整大脑动态感兴趣,以便抑制预测误差,”著名神经学家、预测编码假说的先驱之一、伦敦大学学院的卡尔·弗里斯顿说。
在过去的十年中,许多认知科学家、哲学家和心理学家都接受了预测编码理论,特别是因为它描述了感知的工作方式,有些人甚至认为它可以解释整个大脑的工作方式。
直到最近几年,我们才获得了开始直接测试该假设机制所需的实验工具,过去两年发表的许多论文为预测编码提供了强有力的证据。然而,该理论仍然存在争议,最近关于一些具有里程碑意义的实验结果是否可以复制的争论或许最能证明这一点。
咖啡、奶油和狗
“我喜欢在咖啡里加奶油和____。”用“糖”来填这个句子的空白似乎很自然。
在 1980 年进行的一系列实验中,加利福尼亚大学圣地亚哥分校的认知科学家 Marta Kutas 和 Steven Hillyard 预计他们的受试者会有这种本能反应。他们在屏幕上向受试者逐个单词地显示上述句子,同时记录他们的大脑活动。只是,最后出现的不是“糖”这个词,而是:“我喜欢加奶油和狗的咖啡。”
当受试者看到意想不到的单词“狗”时,研究人员观察到大脑反应更强烈。这是一种特定的生物电活动模式,在单词出现后约 400 毫秒达到峰值,这就是为什么它被称为“N400 效应”。大脑做出反应是因为这个单词在句子中没有意义吗?还是仅仅因为这个单词意外出现并违背了大脑的预期?
2005年,库塔斯和她的团队进行了另一项研究,表明后一种假设是正确的。
受试者还逐字逐句地阅读了屏幕上出现的句子:“那天微风徐徐,男孩跑到外面去放风筝。”由于最适合完成这个句子的单词是“风筝”,受试者预计接下来会看到不定冠词“a”。它没有内在含义,但它确实可以预测下一个单词是什么。结果,当受试者看到接下来出现的单词“an”时,他们表现出了 N400 效应,这似乎是因为大脑必须处理期望与现实之间的不匹配。这种效应显然与单词的含义或处理刺激的难度无关。
2005 年的研究结果似乎与预测编码的理论框架非常吻合,但去年发表在学术期刊《eLife》上的一篇论文报告称,几个实验室无法复制该结果。现在,其他研究人员开始做出回应,其中一些人声称,复制实验的结果仍然支持预测编码理论。
这种反复的争论反映了预测编码的大部分争论。研究人员可以用很多方法来解释库塔斯这样的实验。结果可以用模型和预测编码来解释,而且他们缺乏证明假设的确凿证据,因为他们没有深入研究工作机制。虽然大脑不断进行推理(并将其与现实进行比较)的想法现在已经得到充分证实,但预测编码的支持者一直在努力证明他们的理论是正确的,并且它适用于所有认知机制。
贝叶斯大脑与高效计算
大脑不断做出和评估预测的基本思想最初并不被大多数人接受。20 世纪的主流神经科学理论将大脑描述为一个特征检测器:它记录刺激、处理刺激,然后发出信号以产生行为反应。特定细胞中的活动反映了现实世界中刺激的存在或不存在。例如,视觉皮层中的一些神经元会对视野中物体的边缘做出反应;其他神经元会发出信号来指示物体的位置、颜色或阴影。
然而,事实证明,这个过程远没有看上去那么简单。研究人员进一步的测试发现,随着大脑感知到越来越长的线条,用于检测线条的神经元会停止放电,即使线条本身没有从视野中消失。事实上,很多信息似乎是通过神秘的自上而下的反馈连接传递的,这表明还有其他机制在起作用。
这就是“贝叶斯大脑”的用武之地,这是一个可以追溯到 19 世纪 60 年代的通用框架,它颠覆了传统模型。该理论提出,大脑根据内部模型对世界做出概率推断,本质上是计算出如何解释其感知的“最佳猜测”(符合统计学的贝叶斯定理,该定理根据从先前经验中获得的相关信息量化事件发生的概率)。
大脑不会等待感官信息来驱动认知,而是积极构建有关世界的假设,然后用它们来解释我们的经历并填补缺失的数据。因此,一些专家表示,我们可能会将感知视为一种“受控幻觉”。
沿着这个思路,贝叶斯大脑也解释了我们为什么会产生视觉错觉:例如,屏幕上的两个点快速闪烁,交替看起来像一个点来回移动,所以我们的大脑无意识地将它们视为一个点。了解物体如何移动是一种高级知识,但它从根本上影响了我们的感知方式。大脑填补了信息空白(在这种情况下,是运动信息空白),从而绘制出一幅并不完全准确的图画。
在这个著名的视觉错觉中,棋盘上的方格 A 看起来比方格 B 暗得多,尽管它们实际上是同一种灰色。我们的大脑利用附近方格的颜色和圆柱体投射的阴影的位置来推断棋盘的颜色。在这种情况下,这些推断让我们感觉到方格 A 和 B 是不同深浅的灰色,尽管它们完全相同。(如右图所示,如果我们连接两个方格或遮住圆柱体,我们可以看得更清楚。)
然而,尽管生成模型和预期显然在大脑功能中发挥着作用,但科学家尚未确定它们在神经回路层面是如何实现的。苏格兰爱丁堡大学心理学哲学教授马克·斯普雷瓦克 (Mark Sprevak) 表示:“贝叶斯大脑对于其潜在机制的解释相对难以解释。”
预测编码正是为此而生。它为大脑的运作如何适应贝叶斯定理提供了一个具体的公式。预测编码得名于一种使电信信号传输更高效的技术:由于视频文件在连续帧之间包含大量冗余信息,因此通过对每个像素进行编码来压缩这些数据效率不高。相反,对两帧之间的差异进行编码,然后反向解读整个视频更有意义。
1982年,科学家发现这一想法可以应用于神经科学,因为它似乎可以解释视网膜中的神经元如何编码有关视觉刺激的信息并沿着视神经传递。此外,研究人员还认为,预测编码也是大脑的奖励系统运作时遵循的原理:多巴胺神经元编码预期奖励与实际奖励之间的不匹配程度。研究人员表示,这些预测误差可以帮助动物修改对未来的预期并驱动它们的决策。
尽管有这些例子,科学家们仍然认为预测编码主要是特定于某些神经网络的过程,但功能性磁共振成像 (fMRI) 测试和其他类型的实验已经开始改变这种观点。
总体框架
预测编码假说之所以受到如此多关注,原因之一是它具有令人难以置信的解释力。“这个理论框架可以解释这么多事情,这非常令人信服,”爱丁堡大学逻辑学教授、预测编码理论专家安迪·克拉克 (Andy Clark) 说。
首先,它在一次计算中统一了感知和运动控制。这基本上是同一枚硬币的两面:在这两种情况下,大脑都会尽量减少预测误差,但方式不同。在感知的情况下,调整的是内部模型;在运动控制的情况下,调整的是实际环境。(对于后者,想象一下你想举手。如果你的手没有举起来,这种差异就会导致很大的预测误差——如果你举手,你就会尽量减少误差。)
感知和运动控制领域的研究人员开展的实验为预测编码理论提供了迄今为止最有力的证据。例如,在去年 6 月发表在《神经科学杂志》上的一篇论文中,研究人员让受试者观看屏幕上的单词“kick”,然后听一段经过处理的录音,其中“pick”听起来像一声大声的耳语。许多人将“pick”听成了“kick”,而 fMRI 扫描显示,大脑对单词开头的“k”和“p”反应最强烈,这两个声音与预测误差有关。如果大脑只是在表示其感知体验,那么最强的信号应该对应于“ick”(因为它是屏幕上和音频中都出现的刺激)。
但研究人员也在努力将预测编码扩展到感知和运动控制之外,将其视为大脑中所有事物的“通用货币”。克拉克说:“这就像拥有一堆积木,你可以用不同的方式建造它们。”不同的大脑区域会做出不同类型的预测。
包括弗里斯顿在内的一些人声称,预测编码适用于更高级的认知过程,包括注意力和决策。最近对前额叶皮层进行的计算研究表明,预测编码机制也在工作记忆和目标导向行为中发挥作用。一些研究人员推测,情绪和心情是用预测编码术语来表达的:情绪可以是大脑所代表的状态,旨在最大限度地减少对内部信号(如体温、心率或血压)的预测误差。例如,如果大脑发现自己处于兴奋状态,它就知道所有这些信号指标都在上升。也许这就是自我概念的产生方式。
伦敦大学学院的神经科学家卡尔·弗里斯顿花了几十年的时间来完善预测编码假设的关键原理,他认为这不仅可以解释感知,还可以解释更高级的认知过程。
在这方面所做的大部分工作都集中在预测编码如何解释神经精神和发育障碍。“这个想法是,如果大脑是一台推理机器,一个统计器官,那么当它犯错时,它犯的错误和统计学家犯的错误是一样的,”弗里斯顿说。也就是说,大脑可以通过给予预测或预测误差过多或过少的权重来做出错误的推断。
例如,自闭症可能被描述为无法忽略与大脑处理层次最低层的感觉信号相关的预测误差。这可能导致对感觉的过分关注、对重复和可预测性的渴望以及对某些幻觉的敏感性等影响。在与幻觉相关的疾病(如精神分裂症)中,情况可能正好相反:大脑可能过于专注于自己对正在发生的事情的预测,以至于忽略了与这些预测相矛盾的感觉信息。(然而,专家警告说,自闭症和精神分裂症都过于复杂,无法归结为单一的解释或机制。)
“这其中最重要的部分是,它向我们展示了我们的心理功能是多么脆弱,”耶鲁大学医学院临床神经学家菲利普·科莱特 (Philip Corlett) 说。科莱特正在进行一项实验,他在健康受试者的头脑中创造新的“想法”,使他们产生幻觉,产生他们以前经历过的刺激。(例如,研究人员让受试者将声音与视觉图像联系起来,这样当他们看到图像时,即使没有声音,他们也会认为他们听到了声音。)研究人员希望了解这些“想法”是如何转化为感知的。通过这些研究,“有证据表明,感知和认知并不是那么明确,”科莱特说。“我们可以向你灌输新的想法,这可以改变你的感知。”
预测编码假设的确凿证据
“实验研究经常表明,某个结果与预测处理理论相一致,但这并不意味着该理论是对实验结果的最佳解释,”斯佩瓦克说。该理论在认知科学中已被广泛接受,但“在系统神经科学中,它仍然处于弱势地位,”瑞士弗里德里希·米歇尔生物医学研究所的神经科学家乔治·凯勒说。他的实验室正试图用更确凿的证据来改变这种情况。
弗里德里希·米歇尔生物医学研究所的神经科学家乔治·凯勒一直在寻找预测编码假设的确凿证据。
在去年发表在《神经元》杂志上的一项研究中,凯勒和他的同事观察到,随着时间的推移,小鼠视觉系统中的神经元变得具有预测性。这一发现起初其实是偶然的。最初,研究人员使用视频游戏来训练小鼠,发现虚拟世界的方向被搞乱了。正常情况下,每当小鼠向左转时,它们都会看到自己的视野向右移动,反之亦然。然而,有人在实验中不小心翻转了虚拟世界的方向,左右颠倒了,这样向左转就意味着小鼠的视野也向左移动。研究人员意识到,他们或许能够化险为夷。他们监测了代表这种视觉流动的小鼠大脑信号,发现随着小鼠重新掌握倒置环境的规则,大脑信号慢慢发生了变化。“那些信号似乎预测视觉会向左流动,”凯勒说。
如果这些信号只是小鼠视觉体验的感官表征,它们应该会在虚拟世界中立即翻转。如果它们是运动信号,它们根本不会翻转。相反,“这是为了识别预测,”凯勒说,“预测做出某个动作时的视觉流。”
“这项研究提供了一种以前不存在的证据,”克拉克说。“它通过非常局部、逐细胞、逐层的演示,证明了预测编码是解释这一现象的最佳模型。”
大约在同一时间,另一组研究人员在猕猴大脑中用于处理面部的区域也得到了类似的发现。此前的研究表明,神经网络较低层的神经元根据面部的方向对面部元素进行编码,例如,当看到侧面时,神经元就会激发。在较高层次上,神经元以更抽象的方式表示面部,例如,关注面部的身份而不是其位置。
在猕猴研究中,研究人员用成对的面孔训练猴子,其中一张面孔会首先出现,并且总是包含对第二张面孔的某种预测。然后研究人员以特定的方式干扰这些预期,例如从不同角度显示同一张面孔或显示完全不同的面孔。结果,他们发现面部处理神经网络的较低层区域存在预测误差,但这些误差与方向预测无关,而是与身份预测有关。换句话说,这些错误源于系统较高层发生的事情——这表明较低层在将外部感知与较高层的预测进行比较时得到了错误的信号。
欧洲神经科学研究所的神经科学家、这项研究的主要作者卡斯帕·施维德齐克 (Caspar Schwiedrzik) 说:“在这个系统中发现预测错误,并找出预测结果,这非常令人兴奋。”
马克斯普朗克经验美学研究所的研究员露西亚梅洛尼表示,她的团队在来自人类受试者的神经元数据中看到了与预测误差理论一致的结果。