核心概念 神经科学与心理学 发表时间 2023年04月27日

找一找——视觉搜索揭示出我们眼观世界的原理

摘要

我们都有这样的经历——找不到某个东西, 这让我们沮丧挫败。寻找我们所关心的对象的过程叫做视觉搜索, 而这些对象通常周围都有很多其它物体, 因此, 我们在日常生活中每时每刻都在进行视觉搜索。但是在某些情形下, 要成功地找到某个东西需要经过特殊训练, 例如寻找X光片中的肿瘤, 机场行李中的武器或爆炸物, 隐藏在灌木丛中的敌方狙击手。理解我们搜索和找到对象的过程机制, 对于人们在现实生活中完成这项任务具有重要意义。虽然众多谜题还有待揭开, 但迄今我们所掌握的知识已经给解释 ''如何看'' 的问题提供了极有趣的视角。

视觉搜索很重要, 无处不在

也许我们都曾经在手机或平板上玩类似 ''找一找'' ( 图 1A) 的游戏, 这能帮助我们在百无聊赖的公路长途旅行中消磨时间。年纪稍大些, 三、四十岁左右的人, 也许记得 ''Waldo 在哪里'' 这款源自漫画并风靡一时的游戏。这些游戏的趣味性就在于它们都取材于我们现实生活中无时无刻不在做的事情——在我们不想要的东西, 即 ''干扰项'' 中找到我们想找的那个东西, 或者说 ''目标'' ; 这能使我们体会 ''众里寻他千百度'' 的沮丧, 或是 ''蓦然回首'' 寻到时的喜悦。

图 1 - 在包含多个对象的场景中总是需要视觉搜索。
  • 图 1 - 在包含多个对象的场景中总是需要视觉搜索。
  • (A) ''找一找'' 游戏中的典型场景。你能找到花生吗? (答案见 图 3A 中的箭头) (B) 长有肿瘤的乳房的X 射线图像。尽管图像朝向乳房前方的明亮部分往往会引起我们注意, 但它们并非肿瘤组织而只是干扰物。癌变区域更小一些 (参见 图 3B 的箭头)。因此学习诊断这样的癌症往往需要长时间医学培训和大量临床经验。(C) 你能找到伪装在背景之中的人的头吗? (答案见 图 3C)。(D) 这是一个 ''突出场景'', 很容易找出其中的 ''格格不入'' 者 (水平放置的红色长条;参见 图 3D 中的箭头)。(E) 在某些情况下, 包括大多数现实世界的场景, 我们要寻找的目标并不突出, 因为它与场景之中的其它对象有相似的特征 (参见 图 3E 中的箭头)。(F) 这幅图表展现的是找到目标的时间如何随干扰物数量、目标突显程度的变化而变化。

有时, 为了找到目标要经过特殊训练, 而这些往往是生死攸关的问题。例如, 医生经过多年历练, 熟练地在乳腺X光片 (图 1B) 中或胸片中找到癌症组织。同样地, 军事专家接受多种训练, 寻找伪藏在环境之中的敌方狙击手或地雷。如果智能机械装置 (比如说无人驾驶汽车或者医疗诊断设备) 没能找到它们意图找到的目标, 就会发生祸患。在野外, 动物们必须迅速察觉潜在的捕猎者, 才能及时逃脱到安全之所。相反, 如果捕食者不擅长搜索猎物, 或者太容易被捕猎者发现, 就很有可能丧命。因此, 显而易见, 视觉搜索 是大脑在现实生活中运作的极重要功能之一。

视觉搜索的基本原理

大脑是如何找到物体的? 研究人员又是如何去研究理解大脑的运作机制的呢? 一方面, 研究人员常使用由计算机生成的简化版视觉 ''场景'' (图 1C-E)。这是因为若要得到海量的这类图像, 这样做相对容易 (想象一下在现实中去找几千张狙击手的图片的工作量), 也是因为这会让视觉搜索更简单, 进而使实验室中的研究工作更容易进行。

自 20 世界 60 年代起, Anne Treisman (1935-2018) 就进行过重要研究, 这些早期工作借助简单的图像揭示了视觉搜索的基本知识 [1, 2]。因为在视觉搜索领域的杰出贡献, Treisman 博士于 2013 年被美国总统巴拉克 ⋅ 奥巴马授予国家科学奖章。

想象一下如果让你找出图像中与众不同的物体, 或者说 图 1D 中的 ''格格不入'' 。你要找的目标也就是那个红色长条。在此情形下, 目标很容易被分辨出来, 因为红色长条非常突出, 而且无论那些干扰项是蓝色长条, 还是其它物体 (比如苹果), 情况都一样。因此, 如果能用图像的基本特征从所有干扰项中区分出目标物来, 目标也就找到了。在上面的实例中, 这个区别特征刚好是颜色, 但区别特征也可以是形状, 方向, 动作, 深度, 等等。Triesman 发现在这种情况下干扰物的数量多少并不重要。有 4 个干扰物时目标很容易就被找到了, 那么有 40 个时也没有区别, 观察者找到目标所需的时间, 也就是所谓反应时间, 并不取决于场景之中的物体数量 (图 1F 中的绿线)。

当目标具有干扰物的一些但并非全部的特征时, 反应时间就完全不同了 (图 1E)。在这种情况下, 目标并不突出 (''非突出目标''), 并且反应时间随视觉场景中物体数量的增加而增加 (见 图 1F 中的红线)。

为什么会这样呢? 如何简单地解释 图 1F 中两种不同的反应时间机制? Triesman 和其同事仔细研究了观察者所犯的错误后, 获得了一个重要的发现。在观察者弄错目标是什么的时候 (例如在 图 1D 中, 这实际上是一个水平的红色长条, 而观察者却称 ''格格不入'' 的是一个竖直的红色长条), 他们也可能弄错目标在哪里。这意味着, 为了找到目标, 还必须正确地解读目标。额外的实验表明, 当目标并不突出时, 就要求观察者们具有专注于视觉场景中特定区域的能力 (比如图像左上角的区域), 而目标突出时则不需要。这种能力叫做 ''空间注意力''。Treisman 同样说明了, 在进行对 ''非突出目标'' 的视觉搜索时, 我们会将 注意力 集中到一个特定区域确认其是否包含目标, 如果没有, 我们就把注意力转移到下一位置, 如此下去直至找到目标。因此空间注意力和视觉搜索两者密切相关。

上述视觉搜索模型能充分解释 图 1F 中的反应时间机制。此外, 这个模型还解释了我们在更复杂的现实场景中寻找物体方式的许多关键特点 [1, 2]。

不同脑区在视觉搜索中扮演不同角色

上述发现告诉我们, 视觉搜索涉及各个脑区之间的交流, 这些脑区分别负责识别一个物体 (''这是什么?''), 将注意力集中在特定区域 (''它在哪儿?''), 将注意力从一处转移到下一处 (''下一步去哪儿?'')等等。我们对各脑区在视觉搜索中如何执行这些任务已有所了解, 但它们是如何配合的, 我们仍未完全弄清。

1993 年, Robert Desimone 及其同事们将长而极细的导线插入猕猴的大脑, 来研究在进行视觉搜索时其大脑的反应情况 (图 2A, B)。他们发现猕猴的一些脑细胞在不同情形下的反应有差异, 而这种差异取决于他们寻找的是两个目标中的哪一个 [3]。由于猴子和人类的大脑非常相似, 因此人类大脑在视觉搜索过程中发生非常相似的过程也就不足为奇了。

图 2 - 研究视觉搜索过程中的大脑反应。
  • 图 2 - 研究视觉搜索过程中的大脑反应。
  • (A) 猴子正在寻找目标 (根据实验需要, 目标是正方形或三角形), 此过程中研究者们将细长的导线 (微电极) 插入猴子大脑, 以监测该区域中脑细胞的反应。(B) 虚线圈出的是猴子在视觉搜索过程中大脑的活跃部分 [3]。(C) 典型的 fMRI 仪器, 可用于监测人脑活动。(D) 人类在进行视觉搜索时用 fMRI 测得的大脑反应 [4]。彩色区域对应于格外活跃的脑区, 颜色 ''热度'' 越高则活跃程度越高。红箭头指向的是参与搜寻过程的脑区; 蓝箭头指向的是和刚找到目标、或找到后不久这段时间相关的脑区。这些区域共同构成了负责集中和转移注意力的脑网络的一部分。

当然了, 科学家不可能把导线植入人类受试者的大脑。我们对人类大脑如何进行视觉搜索的了解, 大部分都来自一种称作 功能性磁共振成像 (fMRI; 图 2C) 的技术。fMRI 通过观察脑细胞处于活跃状态时大脑中的血流变化, 来间接监测大脑活动。许多借助 fMRI 的研究已考察过人类在视觉搜索时涉及注意力的脑区如何响应。正如早期研究所预料的那样, 不同脑区在视觉搜索的不同步骤中的确是专门化分工的 [4]。比方说, 视觉搜索中, 一些脑区最先活跃起来 (图 2D 中的红箭头), 表明它们专门负责把注意力从一个待搜索的位置转移到下一个; 另一些脑区在受试者找到目标时非常活跃, 表明它们负责在受试者集中查看某一特定搜索区域时, 将注意力集中于对象上。这些不同的脑区如何协同工作以实现视觉搜索和目标检测还有待进一步研究。

某些脑区受损会加大视觉搜索的难度

如果如上所述, 不同脑区在视觉搜索的不同步骤中专门化分工, 那么这些脑区中的一个或多个 (因为中风, 创伤, 肿瘤等) 受损后视觉搜索受影响也就顺理成章了。而事实也的确如此 [5]。例如, 右脑特定区域受损的患者就无法找到图像左半部分中的物体, 这种现象被称为 ''半边忽略'' (图 3F)。这是因为右脑处理的是图像左侧的信息。有趣的是, 左脑对应区域的损伤并不会造成 ''半边忽略'', 但原因仍不明朗。

图 3 - (A-E) 图 1A-E 中搜索问题的答案 各方框中搜索问题的答案已由箭头指出。
  • 图 3 - (A-E) 图 1A-E 中搜索问题的答案 各方框中搜索问题的答案已由箭头指出。
  • (F) ''左侧忽略'' 的患者的测试结果, 这是由其右脑损伤造成的。这项测试要求患者搜索整幅图像并将所有的线段划出, 由于右脑受损, 这名患者没找到图像左边的任何一条线段 [6]。

提要

我们在日常生活中离不开视觉搜索。我们也一定程度上理解了为什么一些东西找起来比另一些更容易。但是, 大脑在视觉搜索中的工作机制还有待进一步挖掘。尽管如此, 我们也很明确, 在视觉中起作用的大部分脑区也参与到视觉搜索中, 这也许是因为视觉搜索本是视觉功能的重要组成部分。而大脑特定区域的损伤会给视觉搜索带来障碍。将来, 可进行视觉搜索的计算机设备会更擅长于侦测战场中的敌军, 识别X光片中的肿瘤, 发现机场行李中可能造成危险的物体, 它们或许会成为我们生活中更重要的一部分。

作者贡献

IN 和 AL 进行了该课题的研究, 获得了必要的版权许可, 并在 JH 的监督下撰写了手稿。所有作者都参与了稿件的修订、审阅, 并同意提交该版本。

词汇表

视觉搜索 (Visual Search): 主动进行环境扫描, 来寻求特定的, 或具有特定特征的对象的活动。

''格格不入'' 者 (Odd-Man-Out): 不属于同类的物体。

注意力 (Attention): 专注于信息的特定方面的过程。

fMRI (功能性磁共振成像) (fMRI (Functional Magnetic Resonance Imaging)): 通过检测血流变化来监测大脑活动的成像方式。

利益冲突声明

作者声明, 该研究是在没有任何可能被解释为潜在利益冲突的商业或财务关系的情况下进行的。

致谢

IN 和 AL 得到了从属于美国陆军教育推广计划的本科研究学徒计划的支持; JH 的实验室研究受到了 W911NF-11-1-0105 和 W911NF-15-1-0311 美国陆军拨款资助, 同样也受到了美国国立卫生研究院和国家科学基金会的资助。我们同样对 Heather Nall 的审稿工作致以感谢。


参考文献

[1] Treisman, A. 1986. Features and objects in visual processing. Sci. Am. 255: 114–25.

[2] Wolfe, J. M. and Robertson, L. C. 2012. From Perception to Consciousness: Searching With Anne Treisman. Oxford: Oxford University Press.

[3] Chelazzi, L., Miller, E. K., Duncan, J., and Desimone, R. 1993. A neural basis for visual search in inferior temporal cortex. Nature 363: 345–7. doi: 10.1038/363345a0

[4] Corbetta, M. and Shulman, G. L. 2002. Control of goal-directed and stimulus-driven attention in the brain. Nature 3: 201–15. doi: 10.1038/nrn755

[5] Bartolomeo, P. 2000. Inhibitory processes and spatial bias after right hemisphere damage. Neuropsychol. Rehabil. 10: 511–26. doi: 10.1080/09602010050143577