视觉研究

0 推荐

359 浏览

0评论

视觉研究的前世今生（上）

视觉研究

机械自动化类密泰传动系统 2016-12-19 13:30 发表了文章来自相关话题

大数据文摘基于大数据垂直领域50万粉丝的优势

想要发起一次众包的行业调研。

我们诚挚的邀请您用5分钟填写

《大数据行业从业者调研报告》

共同促成整个大数据行业的一次调研

序

▼

视觉是人类最重要的知觉，没有视觉人类很难定位，识别物体，了解坏境，得以生存发展。20世纪两次世界大战，使得西方各国，不论是为了飞机安全着陆，还是导弹精确制导，都对视觉研究有了非常大的兴趣，系列的欧洲视知觉会议（ECVP，1978），杂志“视觉研”（vision research，1961）在上世纪的出现,都不同程度源于得到了各大基金和有关军方的支持NASA,NIH NSF, officeof Navel, Air Force Research）。至今在西方各国视觉研究依然是一个热门研究方向。

80年代，我在新华文摘上读到钱学森关于人工智能的一篇讲话，他提到计算机的出现改变了人类社会，计算机又快又准确，但就是在物体识别方面无论如何也赶不到人类视觉，这引起了我对物体识别的极大兴趣。几年后到美留学，学习数字图像处理，这才知道物体识别属于计算机视觉的研究范围，知道至今为止不论是计算机视觉研究，还是人类视觉研究都没有大的突破。

我是一个喜欢追根刨底的人，从小电影，电视剧，小说一定要知道结尾，于是就被套了进去，不论有钱没钱，英文中文，凡是与视觉有关的杂志，书，都要找来看，各种会议自己花钱也要去参加，何况回国后主要工作也是图像处理方面的教学和研究。近30年来还是有些成果：1，对视觉机理有了比较深的理解；2，知道了不少古今中外研究视觉的人和故事.于是就有了把这些故事说出来的愿望，在唯SCI的时代，和在职的年青教师研究生去抢饭碗，去投稿一级学报，争取发表，没有必要，就在博客上吹吹牛吧。

按照J Wade 在视觉的自然史中的划分原则，和我自己的思路，我将视觉史的研究分为3个阶段：1838年前，作为自然观察研究时代；将Wheaston 发明立体镜到1982年作为实验研究时代；将1982年Marr的：“VISION”（中文译为”视觉计算理论”）出版作为信息科学研究时代的开始。

最后谈谈我知道的国内有关研究。

视觉研究的前世今生（一）

▼

§1从古希腊到18世纪的视觉研究

§1-1视觉是什么：外射说和射入学之争

狼和狮子等猛兽的眼睛在黑夜里闪闪发光，引起恐怖和神秘之感；检阅时统帅们用眼角余光逼视着他的队伍里的士兵，让他们感到威严的压力，如此等等使得古希腊一些学者认为视觉是人类眼中发出来的光作用到物体上产生的感觉。认为视觉是从眼睛里发出的光或者火，灵魂借以感知世界的学说被称为外射学。外射学的提倡者和支持者有：柏拉图（Plato，350 B.C.）欧几里得（Euclid,300B.C.）,托勒密（Ptolemy，150）。

图1柏拉图

欧几里德是古希腊公认的大数学家，他依据光是直线传播的事实，按照柏拉图的等同光与视觉的思路，数学化了光学，写了“光学”从而将视觉也几何化了，他提出光线从眼里投射到物体，视觉被限制到视线形成的立体锥中，对着大角的物体被知觉为较大，这样他不仅对光通过空间作了说明，他的光学是一种空间知觉几何理论。科学研究不等于数学，但是只有有了数学，科学研究才能深入。美国资源委员会对科学研究的定义是：“科学研究工作是科学领域中的检索和应用包括对已有知识的整理、统计以及对数据的搜集、编辑和分析研究的工作。要整理、统计以及对数据的搜集、编辑和分析非数学不可，因此任何一门学科的研究，只要有了数学家的加入，就特别有活力。

图2欧几里德

外射学从常识来看，好像不合理。反对外射学的亚里士多德（Aristotle）就质疑说，如果视觉真如灯笼一样是从眼往外发射光，为什么在黑暗中，眼睛没有看的能力呢？但就是因为欧几里得等同视觉与光，从几何的角度，说得头头是道，使得外射学流行了几百年。原子论的提倡者德莫克里特（Democritus,400 b.c.）认为从物体发射的原子压缩空气带物体的影像到眼睛，引起视觉，这个观点被伊毕鸠鲁（Epicurus,300 b.c.）发扬光大，形成了另一个学派射入学派，射入学派经过亚里士多德的学生Theophrastus（300 b.c）的整理更接近现代光与视觉的概念：太阳发出的光被物体反射，通过透明，或者半透明的媒质被眼睛接受，反映亚里士多德意识到作为物质的光和作为媒质运动的光的区别，他们认为，这样的运动是瞬间的，能同时被很多观察者接受。但是这一学派当时并没有被广泛接受。

图3亚里士多德

托勒密一般坚持欧几里德几何光学理论，但是他认为视觉不是等同通过单个视锥，而需要双眼视锥的结合。他更看重实验，他对折射反射作了长期观察，能够准确的描叙这些现象，发现在两种不同的透光物资界面上，光发生了弯曲，从折射角不等于入射角，而是有定量的关系。注意到建立物理和视觉的心理分析间的一致，这一点为后来的海桑（Ibn al-Haytham, Alhazen，1040）所发展。但是他坚持外射学。解剖学介入视觉研究比较早，把视觉研究从古希腊的哲学家的清谈和数学家的推演中走出来的，是古罗马的医生和哲学家盖伦（Galen，129，199）他活体解剖过动物，尤其是臾猴，并由此推论人体的构造。他发现白内障致盲，但是移去白内障，能够恢复视力，因此认为视线从晶状体发出（晶状体式视觉的基地）。

图4盖伦

他混淆阳光中的光线和视线。他依据解剖和生理的结合，同意托勒密的双眼单视。因为解剖他知道视神经在视交叉中结合，于是推测灵魂是从单一位置发出的。

世界科学的大发展有三个高峰，古希腊，罗马，文艺复兴。罗马以后，欧洲因为战乱，和黑死病流行对经济的影响，

大约有六百多年，科学研究受到压抑，很多希腊文献散失，学派消失。只是经过阿拉伯学者的努力，保留了大量的希腊学者的著作，并再翻译为拉丁文，欧洲到文艺复兴时，才能在希腊学术研究的基础上再次繁荣。

在其中阿拉伯的学者海桑（Ibn al-haytham,Alhazen,965-1039）起了承前启后的作用。他的巨作“光学”让欧洲重新知道了古希腊的各种学说。利用自己设计的各种装置，他有系统的研究光线的传输，反射与折射。他观察到睁开眼睛就能使整个天空充满阳光，而强的阳光会引起眼睛的疼痛，因而他相信外射学，他说眼睛是为感光而设计的。他还提出了后来认为是J.J.Gibson 提出的空间知觉理论，提出了被认为是Helmholtze最先提出的无意识推理。

图5开普勒

外射学和射入学之争直到17世纪开普勒（Kepler，1571-1630）才算经纬分明。1611年，他在“折射光学”中提出人们能够看见物体是因为物体发出的光通过眼睛的水晶体投射在视网膜上形成倒像，晶状体不过是一个光线的折射装置。1625年德国的物理学家沙伊儿（Christoph Scheiner,1575-1650)用牛眼验证了他的说法。他在被摘出的牛眼后极部，切除巩膜和脉络膜，于是人们在视网膜上看见了倒置的景物。这样大家才最后相信是物体发出的光进入眼睛，在眼底形成了倒置的景物影像，经历了一千多年的岁月，射入说，终于得到了承认。

§1-2眼睛的光学结构及调节现象的研究，眼镜及照相机的发明。

从盖伦开始，解剖学进入视觉研究，盖伦主要通过对猴子的解剖和偶然对洪水漂来腐烂尸体研究，对眼睛结构有了一些初步的了解，在他的著作“身体各部分的用处”一书中，有一节是关于眼睛和它的附属器官的，他描叙了玻璃体，捷膜，角膜，虹膜，晶体，脉络膜和视网膜。盖伦解剖过视神经，知道它的走向，并看见了视交叉得出视交叉是精灵进入脑时左右眼互相交换的地方。有两只眼的原因是能看到更大的范围，而且一只眼出了问题，还可以用另一只眼看。16世纪，意大利的天文学家F.Maurolico（1494-1575）研究了折射现象并企图解释彩虹，他描叙了小孔成倒象，并提出晶状体相当折光棱镜,光通过晶状体折射。

1619 德国天文学家，物理学家沙奈尔（C.Scheiner，1575-1650)第一个科学地绘出了人眼的示意图，正是他用牛眼的断层实验，验证了Scheiner 1619年绘制的眼调节图Kepler的倒像论，他用各种光学实验证明晶状体和玻璃体的屈光率，测定了角膜的曲率和晶状体的弯曲度，眼视光学从此登上科学的舞台。他写到，年轻人看东西清楚是因为他们的晶状体适应性好，网膜能自由活动。能够看远也能看近。

图6 Scheiner 1619年绘制的眼调节图

人类在对眼睛的结构进行研究的同时，发明了眼镜和照相机。

眼镜的发明改善了视力。据说眼镜最早出现在1289年意大利弗罗伦萨，是叫阿尔马托的光学家发明的。但马可波罗在1260年写到，中国老人为了清晰地阅读而戴着眼镜。说明眼镜是从中国传过去的。中国历史博物馆有一幅藏画“南都繁会景物图卷，中有一老者戴着眼镜，说明早在明永乐年间中国就有眼镜出现了。

照相机本身就是眼睛结构研究自然的产物。小孔成像的研究导致了暗箱的出现。水到渠成，经过了文艺复兴，1829年法国的艺术家盖达儿（Louis Daguerre，1787 – 1851）发明了照相机。

图7盖达儿

照相机的发明反过来又加深了对视觉的研究，因为与相机的对比，从开普勒到19世纪中，对视觉的研究很重要的一部分集中在对眼睛调节机理的研究上。人们推测是眼睛的哪一部分完成了调节作用使得人眼能在很大一个范围内看清物体，而不是像相机只能在一个距离上聚焦。有三种猜测：1，角膜改变曲率完成调节，近处曲率变大；2，晶状体在眼内前后移动，持这个观点的是开普勒，Scheiner是他的支持者，但也考虑晶状体形状的改变；3,晶状体改变形状完成调节，托马斯·杨（ThomasYoung，1773－1829），1793年从逻辑和生理的角度推出这个结论。他同时还解决了晶状体本身的结构问题，假设晶状体用肌肉的纤维组成。

眼睛调节在17世纪，被笛卡尔等作为知悉距离的线索，这成了柏克莱的肌肉调节是距离知觉的重要原因的空间视觉理论的重要依据。

网膜之后眼睛接受的图像去了哪儿？下节谈谈古人对双眼单视和视觉通道的解剖生理研究

视觉研究的前世今生（二）

▼

§2 视觉通道，双眼单视，和颜色视觉

§2-1视觉通道和双眼单视

人都有长在头前的两只眼，但看见的物景却是一个，这称为双眼单视。为什么双眼单视，双眼比一个眼看东西好，还是用一个眼好，自古以来就是学者们争论不休的话题。

双眼单视甚至在荷马的史诗“奥德塞（Odyssey）”中反映出来，神王宙斯（Zeus）的雷神就是独眼（cyclopine eye）。

亚里士多德（Aristotle）注意到复视，他说如果将手指压迫一个眼睛，一个东西就会看为两个，也就是说，从那时开始，人们就注意到双眼单视了。

这被托勒密（Ptolemy）用实验检验，较之Euclid只用光的投射解释双眼视觉，托勒密用控制观察法确定了双眼单视的条件，说明交叉和非交叉视差的差别。为现代双眼视觉研究铺平了道路。

托勒密的工作可能影响到几乎同时代的解剖学家盖伦（Galen），盖伦不仅通过解剖了解眼睛的结构，也通过解剖，发现从两眼到脑的神经通道。

图8 托勒密

J Wade 考证，在古时候，脑本身就不太被重视，视觉通道较之眼解剖更被忽视。希波克拉底（Hippocrates）认为愉快，感觉，思想在脑，但是心是感觉力的中心，虽然这一点，不为Aristotle赞同。通过解剖研究，Galen认为视觉通道起源于脑前室，在此，动物精神与视神经引起的视觉精神交互。视神经本身在视交叉聚合，但是每一方保留在自己这边。这个错误被重复，并被笛卡儿（Descartes）整合进入他的视觉分析中。Galen的脑前室类似于丘脑。在笛卡儿的折光学中视神经从每个眼同侧进入脑，在后面的松果体结合。他将此类比为盲人拄两根拐杖去触觉一个物体。

对于双眼和单眼的关系，亚里士多德考虑双眼从一个单源移动，因此单眼视觉优于双眼，他用眼动控制来解释这一点。托勒密注意到双眼和单眼的视方向不必一致，当两眼视方向一致时，双眼单视。而盖伦的理论是视精神在视交叉交互，故他考虑一个眼在使用时比两个眼视精神更集中。（Wade P240）

意大利自然哲学家波尔塔（Porta）则更激进，他认为因为竞争，每个时间只有一个眼在在工作。波尔塔的观点得到法国的画家，透视学教师LeClere的支持，他收集了一些实例，这些人每个眼分开比双眼看的更清楚，以此为证，说明每次只有一个眼在工作。

图9 笛卡儿

笛卡儿推测从两眼来的纤维（视神经）结合在松果体，但是作为画家和透视教师的 LeClere不同意他的观点，LeClere用透视图说明虽然两眼得到的图像来源于同一个物体，但是由于透视的原因两者并不相等，以此来反对笛卡儿的双眼融合论。

双茼望远镜和显微镜的发明者Cherubin dOrieans认为双眼视觉是优于单眼，在光度计被发明后，得到了证实。

§2-2颜色视觉

心理学家在什么是感觉，什么是知觉方面意见一贯不一致，但是他们一致同意颜色是感觉。但是为什么会有色盲，为什么我们会感觉到颜色，白光与颜色光的关系是什么，为什么会有彩虹这个问题一直到牛顿（Newton）才有了比较大的进展。牛顿在他的“光学”（1704）中说，我不是用假说解释光的性质，我是用推理和实验提出并证实它们。他用棱镜将白光分解成了彩色光谱，他意识到光谱是连续的，但报告了七种颜色，红，橙，黄，绿，蓝，靛，紫。从此人们知道白光能够分解成单色光，按一定比例，色光也能结合成白光。

图10牛顿

基于颜色混合的事实，汤姆士。杨（Young）在1807年提出三原色的假设。他设想视网膜上存在三种神经纤维，每种都引起一种原色的感觉，即红，绿，蓝色觉。到了1860年赫姆霍茨（Helmholtz）对三色学作了补充，提出光谱的不同成分引起三种纤维不同比例的兴奋，他们有不同的兴奋曲线

（寿书P234），在颜色混合中混合色是三种纤维按比例同时兴奋的结果。这就是后来有名的Young- Helmholtz三色学。三色说能很好的解释颜色混合现象，但是不能解释色盲现象。

色盲的概念是1844年由布律斯特（Brewester）提出来，但是在18世纪就已经有了纪录。原子论的提出者道尔顿（Dalton）1794年就在曼彻斯顿的文哲协会上就报告自己不能从黑色中区分红色，并引起了科学界极大的震惊（P137）。三色学认为色盲是因为缺乏一种（单色盲）和三种纤维（全色盲）造成的，按此学说至少应该有三种色盲：红色盲，绿色盲，蓝色盲，他们可以单独存在。并且依此理论只有三种纤维同时兴奋才有非彩色感觉，既然色盲缺乏一种或者几种纤维，那么色盲都不应该有明度感（白色感觉）。但是事实上，几乎所有的红色盲也是绿色盲，而全色盲着也同样有白色感觉。

图11赫姆霍茨

1864年赫林（hering）提出了对立色（拮抗）学说。认为视网膜中有三对视素，白-黑视素，红-绿视素，黄-蓝视素。每对视素对光照和黑暗呈相反的反映。色觉取决于视素的分解和还原。异化产生红，黄，白，复原产生蓝，绿，黑，在视觉研究史上称为hering law。拮抗学能很好解释色盲和负后像和同时对比。但是对三原色能产生光谱一切颜色没有给以说明。（hering law 英汉医学词典）

一个多世纪以来两种学说进行了长期，反复的争论，好像互不相容。近几十年来，尤其是微分光光度术的出现，色觉研究有了重大突破。现已证明人的视网膜上确实存在三种感色的锥细胞，而在从网膜向视觉中枢传递的过程中，颜色信息都是编码为拮抗对的形式传递。从而解决了两种理论之争，美国著名生理学家Hartline 说，两者都是对的。

图12 海林

视觉研究的前世今生（三）

▼

§3空间知觉

§3-1概述

学术界一致同意空间知觉是视觉的最高层次，也是视觉中最抽象，最难以理解的。众所周知。物体上一点发出的光线落到视网膜上只是一个点，但我们怎么能单凭视觉知道物体的远近，大小和位置？这个能力是先天的还是经验所致？这些问题在17-19世纪引起了学术界极大的兴趣，吸引了第一流的哲学家，物理学家，数学家，生理学家参加讨论，除了理工科学生熟悉的赫姆霍茨，海林，笛卡儿外，还有洛克（Lock）马尔布兰希（Malbranche），毛凌诺（Molyneu），康德（Kant），伯克莱（Berkeley）等。

当时流行的空间知觉理论是笛卡儿派的数学学说。笛卡儿继承了柏拉图和欧几里德的视觉观念，把光学和视觉等同起来，在几何光学的基础上加上对于视网膜，视神经的解剖和电生理知识，他发展了一套空间知觉理论。

最主要的观点可以简单归结如下：

1 在近处，物体的远近由物体对于双眼所夹的角决定，夹角越大物体越近，夹角越小物体越远；
2 在远处，是由可见点而来的光线落入眼睛的分光程度决定的，分光程度越大，离观察者的距离就越近，光线分散程度越小，离观察者的距离就越远。

因为知觉的远近是由几何定律决定的，因此笛卡儿派认为人生来就具有空间知觉能力。

但是这个观点，很多学者是不同意的。其中最著名的是洛克。他在他的名著“人类理解论”中，引用英国哲学家毛凌诺的信，提出了有名的毛凌诺问题。毛凌诺问题假设一个先天性的盲人，长大后学会了用手去区分方和圆的物体。如果此后他恢复了视力，在他第一眼看到物体时，能否凭借视力判断哪一个物体是方的，哪一个物体是园的？洛克和毛凌诺认为他在初视之下是不能凭视力分辨出方圆的。强调识别是与经验有关的，并不是先天所有的。

约翰·缪勒创立了神经特殊能量说，认为感觉神经分5种，不能互相替代，但不同性质的刺激作用同一感官可以引起同一感觉，如光刺激视网膜或者电流通过视网膜都能引起光的感觉。他主张视网膜同位观念，认为视网膜在它自身的活动中能自己感觉自己，我们自己的身体也在视野中。一切方向问题只能涉及各部分视野的相互位置。视觉方向仅仅依赖视网膜感觉部位的安排。

大物理学家赫姆霍茨和海林不仅在颜色理论上各执一词，在空间知觉的看法更是水火不容。

海林主张先验论，认为空间知觉来自天生。例如，他赞同约翰·缪勒的观念，主张双眼辐合运动不是练习的结果，而是由遗传所致，应将双眼视为统一器官，协同运动依赖于天生的解剖基础。视觉空间是直接给予的东西。许多心理现象是由于人脑生来如此。

而赫姆霍茨则主张经验论，他提出了有名的无意识（unconscious inference）推理说，指出有些知觉看起来是直接认识，实际上是由于反复练习和联想才变为无意识的。例如根据所看见熟悉的物像的大小判断物体的距离，双眼的辐合运动，事实上依然是由经验而来的。与平常的推理类似，只不过平时没有自觉意识，故称为无意识推理。

在这场长达数百年的学术之争中，影响最大的就是1709年伯克莱写的“视觉新论”。他在这本不过8万字的小册子里系统地驳斥了笛卡儿派的数学学说，认为空间知觉是人们的一种内省经验，是人们用接近联想把视觉与触觉联系起来的结果。把对空间知觉的研究从几何光学中解脱出来，强调内省研究法，心理学就此进入了空间知觉研究的领域。

1838年，物理学家惠斯登（Wheaston）发明了实体镜，让人们第一次知晓了立体视觉-这一全新的深度知觉现象。实体镜给空间知觉研究提供了可控的研究条件，空间知觉研究从此进入了实验室研究阶段。

1885年，马赫写了“感觉的分析”的。在他那个时代，物理学取得了巨大的成就，甚至改变了感觉心理学，但是正是此时，物理学也遇到了危机：笛卡儿1664年提出来的“以太”观念（20世纪科学史P38）在光和电磁理论胜利后，在光速的测量中遇到了很大的麻烦。迈克尔孙-莫雷实验的否定结果挑战于机械的宇宙观。马赫就是在在物理学遇到危机的时候，反思物理学研究中可能出现的哲学问题，希望借此把“他毕生从事的各个不同科学部门（物理学，感觉生理学，心理学）理解为一种统一的事业”（爱因斯坦）。在此书中，他以大量的篇幅分析了空间知觉，把空间感觉与眼的运动和相应的神经支配过程联系起来，进一步提出了空间时间与运动的关系，爱因斯坦（Einstein）就是受了马赫“感觉的分析”的启示才提出相对论的。

20世纪初，格式塔心理学提出了完形说。

1951年J·吉布森出版了“视世界”（Visual Would）。认识到只在实验室用体视镜等仪器研究空间知觉是方向性的错误。

1987年奥大利亚心理学家BabraGillam发现遮挡存在时，双眼融合后共同区旁存在一个单眼区，对体视融合起了关键作用。这个现象被称为达芬奇立体视，以区分因视差产生的惠斯登立体视。空间知觉的研究来到新的时期。

下面分几段叙述有关的重大研究。

§3-2视觉新论

1709年24岁的伯克莱写“视觉新论”。这本小册子出版是响应洛克在“人类理解论”中，对知觉研究中笛卡儿的几何学和生理学派的的先天论的哲学观念的批判。但它比洛克说理更清楚，更深刻。有力的捍卫了全新的视觉研究观点，清算了笛卡儿以来在这个领域里积累的偏见，为学术界获得了积极发现所需要的自由气氛。（“感觉的分析”P96）

该书采用了一种不常见的格式，一共8万字的小册子，分成了160小段，按照1934年译者关文运的分析，可以分为7个自然部分，第一段是第一部分，是开张明义说明著述的目的是说明我们怎么知觉物体的距离，大小（幅度），和位置的。（这里，我用的2002年从Yorku 大学下载原文中magnitude 的原义“大小”，代替关老师译文中的“体积”。体积是3 D 的，含距离。大小既可以是体积，也可以是面积（2D），和长度（1D），这样更容易理解原文。）并进一步考虑视觉和触觉之间的差别，和有没有什么观念对两者是共同的。第二部分为2至51段，讨论什么是距离。第三部为52至87段，研究物体大小，面与体。第四部分为88到120段，解释什么是物体的位置。第五部分121-146，研究视觉和触觉有没有共同的对象。第六部分只有两段147-148说明视物体是大自然（造物者）构成的一种宇宙语言，帮助人们得以生存。第7部分（149-160）触觉的对象是实体，视觉的对象是颜色，在心中。

该书首先讨论什么是距离。伯克莱说众所周知，光是直线传播的，物体不论远近，从物体上一个点发出的的光落到网膜上都是一个点，为什么我们能用眼知觉距离呢？笛卡儿学派认为，距离主要是由两个方面决定的。首先是由物体对双眼张开的角度决定的，角度越大，物体离得越近。其次是由物体发出的光的分光程度，越分散，离得越近。伯克莱用内省法批驳说随便找个人试试，除了笛卡儿派的几何光学家，谁看见物体发出来的角度了？在英文原文的第4段有一句括号里的话（thefancy that we see only one eye at once being exploded ）我认为考虑到伯克莱写书之时，学术界关于双眼单视从盖伦以来有一种观点，说实际上虽然人类具有双眼，但只用一只眼时视精神更集中。而到了17世纪，法国的波尔塔更提出，虽然有双眼，每时刻实际上只有一只眼在工作。因此这段注解可以有解释为批评波尔塔等的单眼论。说，看看泡泡破了吧，大家都认为是双眼同时工作

对分光说决定远近，伯克莱引用了主流学派自己的反例，说几何学派的Barrow博士用反射，折射镜组合的实验得到的结果自己否定了自己。

伯克莱除了同意在远距离用视觉估计距离时，可以以物体到观察者间遮挡视线的其他物体多少来帮助估计远近外。提出了自己的两条原则；第一，人们是以注视物体时双眼的转动来知晓远近的；第二，人们是以视物时眼睛肌肉是否紧张来决定远近的。这两条为什么能知觉距离，是因为它们是与相应的触觉同时出现的，根据触觉，人们能知晓距离，由于眼动，眼肌紧张总是伴随相应的触觉，所以根据同时联想法则，人们用视觉也能根据这两条知觉远近。总之，伯克莱在这儿强调的是，距离不是用眼知觉到的，而是由于经验的作用，需要学习，空间知觉是心理现象，不能等同于网膜的几何特征。在后面几段，伯克莱将他的推理引申到对大小，位置的研究上，以毛凌诺的先天盲人问题为例，反复论证是经验而不是几何推理使人们能知觉大小位置。该书在对月亮大小，上下颠倒的问题的论证也很巧妙。

虽然当时的科学水平，还不能直接证实他们（伯克莱，洛克，毛凌诺）的关于突然得到视力的盲人，是无法将他由触觉得到关于远近形状的能力转化为视觉能力的推断。但这百年以来科学的进步已经提供了这样的条件，白内障摘除，角膜移植使很多先天盲人得到了了光明，但是研究发现如果他们是在关键期后得到的视力，终其一身，虽然有进步，但是还是不能使用视力正常生活。

2002年发现杂志就报道了这样一个例子，标题是“Sight Unseen”。报道美国加州一个有名的盲人企业家，运动员Mike May的故事。May3岁时由于矿灯爆炸失去左眼，右眼也因角膜混浊失去视力，但作为盲人这并没有影响他的发展，他甚至创造了盲人山地滑雪的世界纪录。在2000年May由于角膜移植重见光明，手术后第一个月他的行为完全证实了毛凌诺等的推测。此后，虽然他的视力渐渐改善，但是他始终没有学会用视觉去行动，出门依然带着他的导盲犬和手丈，成为一个有视觉的盲人。圣地亚哥的加州大学实验室的研究人员得出结论，手术后，物体发出的光信号到达了May的脑中，但是因为没有儿时的经验，没有很好的被解释。完全证实了300年前伯克莱的推断。

人们能用视觉知觉距离，大小，位置是视觉的内省经验而不是几何推理，这个观点是洛克和和毛凌诺先提出来的，但是伯克莱“视觉新论”里将其归结于于同时联想的作用，强调视觉是心理活动与几何计算无关是他的的新意所在。从此后心理学代替几何光学成为了视觉研究的主力。

在这儿要提到的是过去批评伯克莱总是以他否定视觉的对象不在心外，以此说明他是唯心主义，否定实物存在。我认为从今天生物信息论的角度来看，伯克莱说的有一定道理。300年前的心意味着脑（或者今天的神经系统），伯克莱说视觉的对象就只是光与色，这句话没有错，今天的解剖学证实视网膜能接受的就只是光与色，这是人们视神经系统的输入变量，只有经过神经系统的加工，在视觉系统的输出处，才是已经被识别了的物体和景物。在当时的科学发展水平称这为“心”是可以理解的。但是视觉系统到底是怎怎么加工光与色，使它们成为可以识别的事物，至今人类也没有解决这个问题。2011年，国际知名杂志“视觉研究”（Vision Research）在庆祝它创刊50周年的两篇回忆文章中（L.Ungerleider，A.Bell;G.Westhemer）承认这个问题的解决依然在路上。

§3-3实体镜的发明-空间知觉的实验室研究

惠斯登是个大物理学家，他发明的电桥使他几乎家喻户晓，但是他最大的贡献是他1838年发明了实体镜，使得被人们忽视了几千年的立体视觉现象被发现。

他是在设计电声仪器时，偶然发现在两块金属平板里反射出来的略有差别的蜡烛火焰图像，如果分别被两眼同时看见，融合后就有就会有实体感。他很有兴趣这个新现象，反复琢磨，最后发明了实体镜。1838年他公布了自己的发明，并称之为视觉理论的新事实。指出双眼中两个稍稍不同的图像的结合产生实体感。（Wade perception1987，P785）他指出这是一种以前没有观察到的现象，他称之为立体视觉。

实体镜和立体视觉现象很快吸引了年青学生的注意，也风靡了市民社会，从1838年来几乎没有任何其他视现象像它一样被如此多的实验研究，并作为理论前沿。两个图片（2D）引起实体感觉（3D），3D空间知觉能用2D图像而不是3D 实体来检验，视差能由图像线索控制，使得空间知觉能从它的客观基地上解脱，使得空间知觉的研究从自然观察进入到实验室研究，开创了空间研究的新时代。

其实，双眼仪器早就被发明，视差的概念也早就被提出（早在1679 法国的LeClere就用网膜视差攻击笛卡儿的双眼单视理论），立体视觉现象被成千上万的人看到过，但是为什么直到惠斯登才发现立体视觉呢？惠斯登对自己的发现是这样评价的，他说这事很奇怪，类似这样的现象已经被看见成千次，但从来没有足够的注意力让它成为哲学观察的主体？直到偶然被他注意到。（P811）1987年J.Wade 同意1942年波林（Boring）对立体视觉发现的评价，他说，惠斯登能发现立体视觉，不是因为他站在巨人的肩上，看得更清楚，而是因为他不熟悉他们的工作。换句话说是偏见比无知离真理更远，是旧的依据视觉方向解释双眼单视的理论从思想上阻碍了立体视觉的发现。

§3-4 马赫的“感觉的分析”

19世纪是物理学大丰收的时期，也是物理学困惑的时期。光学，热力学，电磁学都取得了引人注目的成就，麦克斯韦方程预言了电磁波的存在，并很快得到了验证，电磁波的出现，光电统一，为无线电通信，以至100多年后的互联网开辟了道路。但是也出现了了意想不到的烦恼和危机，高精度的迈克耳孙（A Mickelson）莫雷（JMorley）干涉仪（测量光速）实验的否定结果，否定了由笛卡儿提出的以太的存在，挑战从牛顿以来建立的机械的世界观。

在牛顿那儿，物质在与物质无关的绝对的时间和绝对的空间中有序运动，但现在这种理论受到挑战，问题出在哪儿？当时作为实验物理学家马赫（Mach 奥地利，1838-1916）由于工作性质，不仅研究光学和声学也研究听觉，视觉和运动感觉。他研究气体动力学，发现了声速和流速之比的马赫数，马赫角，和马赫效应。他研究圆盘高速旋转时的视亮度分布，发现了主观感觉在亮的一端呈现一个特别的亮带，在暗的一端呈现一个特别暗的带，后来这被命名为马赫带，是神经系统相互作用产生的。他研究动觉，通过转椅实验发现人和动物感觉到的是加速，减速而不是“绝对运动”。他把流体力学知识用来解释这种现象，指出运动感觉来源于内耳半规管内流体的惯性。具有这样交叉学科的研究经历，在这样的大环境之下，马赫自然就想到伯克莱对笛卡儿等同几何光学与空间知觉的批评。认为物理学的危机是不是牛顿力学把来自经验的东西和任意约定的东西混在一起引起的。经过了长达20多年的酝酿，马赫在1886年出版了“感觉的分析”。一书。（马赫研究P61）马赫的愿望是希望获得一种观点把他毕生从事的各个不同科学部门统一起来，为解决自然科学认识问题寻找一种哲学立场。

试图对牛顿的脱离任何物质的绝对空间和绝对时间的先验理论进行研究。把感觉看成物理经验和心理经验的共同要素。用感觉的复合来统一物理，生理和心理科学。他和伯克莱不同，时代对伯克莱提出的要求是在空间知觉研究中清除先验论的几何光学的影响，用心理学的接近联想法，用视触结合的方法去认识距离，大小，位置。而在马赫的时代需要对空间，时间本身定位，马赫根据当时心理学的研究认为空间，时间和颜色，声音一样也是感觉。他希望把客体，身体，意志记忆，用感觉统一起来，他说实在的世界和被感知的世界并没有真正的鸿沟，不同的只是考察方式。他指责盲目的借用其它学科的观点，方法会造成科学研究的混乱。他认为视觉，听觉是和空间感觉互相结合。

在这本19世纪最伟大的哲学著作中他用了5章去讨论空间感觉，一章讨论时间感觉，还有一章讨论声音感觉，因为本文是介绍视觉研究，我只能去把尽可能把马赫对空间感觉的研究介绍清楚。

马赫对什么是空间感觉的介绍很有特色，他举了有色字母的例子，说两个字母同形不同色，我们能一眼看出色的不同，但形式相同，这种相同的感觉成分就是空间感觉。这不是几何问题而是与眼动有关的。眼动相同的度量和方向引起相同的空间感觉。

马赫回顾了19世纪空间知觉研究的进展：1）清除了笛卡儿先验论的偏见；2）缪勒创立了神经特殊能说，主张视网膜同位说，认为视觉空间是先天的；3）惠斯登发明了实体镜；4）海林将双眼视为统一的器官，它们的协合运动依赖于天生的解剖基础，与高度感觉，宽度感觉，深度感觉相对应的是一个3D神经支配过程，这个过程按具体情况引起眼睛的左右转向，升降和收敛。他把缪勒的视网膜同位说总结提高，把空间视觉归结为一条简单的原理，同一视网膜部位具有同一高度与广度量值，对称视网膜部位则具有同一深度量值，因此，更严密的论证出空间直观是天生的。马赫对此有更深层的考虑，提出是否能用赫姆霍茨的方式从科学进化史的角度解释空间视觉。他用思想实验考察了这个问题，得出结论，认为促进视动的意志或神经活动就是空间感觉本身（感觉分析P101）。建立在运动感觉上的空间看来实际上是原始的东西。马赫在该书第7章14节应用耳迷路（耳蜗，半规管，耳石器的生理学研究结果支持自己的论点。他从生物目的论的出发用视网膜为例，说明空间知觉起源于生物的需要（P144），在某种意义上继承了伯克莱在视觉新论第6部分的观点，我们的空间视觉能力是造物主（author of nature）安排，是为了帮助人们趋利避害的得以幸福生存。

马赫在感觉的分析中用怀疑的经验论对牛顿脱离任何物质的绝对空间和绝对时间的先验论的批判，对理论物理做了巨大的贡献。深深影响了爱因斯坦，使得他能摆脱旧的机械的时空论影响，创建了相对论，统一了力学和电磁学。爱因斯坦自己认为是马赫给了他很大的启示。

§3-5 吉布森（J·Jibson）的视世界

吉布森是美国二战后最著名的心理学家之一，他有着与其他学者不同的一段经历，1941-1946，他在美国空军服役，担任航空心理专案计划执行人。当时飞机降落主要依靠驾驶员目测，他的研究发现飞机降落成功与否，主要取决与驾驶员的视知觉能力，于是提出以运动知觉作为甄选飞行员的必要条件。

二战开始后美国空军发现迫切需要了解当一个飞行物（航空器，飞鸟）登陆到飞机时如何从地面估计距离，空军专门立项研究与飞行有关的深度和距离知觉。他们在实验室研究各种单眼双眼线索，典型的仪器是，实体镜，深度知觉仪，或者能进光线的暗箱。心理学家在室内，在均匀的背景下，作了各式各样的实验，但没有一个能够准确预估在这个任务中，一个飞行器是成功或者失败。到了二战快结束了，学者才意识到，实验应该在自然环境在户外进行。

由于他的特殊身份，吉布森是少数几个在战争结束前，与飞行员一起用户外环境，照片，以及运动图片进行空间知觉研究的实验者。因为在飞行员的眼里，空间是由地面和地平线决定的，而不是被他飞行的空气中的物体和物体阵决定的，（P6-7）所以吉布森有了和其他研究者很不同的空间观念。在全面研究了空间知觉研究史，在讨论了先天论和经验论旷日持久的论战后，在格式塔心理学的启示下，吉布森依据他在二战中的实验结果，提出了一个被称为地面理论的假说，这个理论的基本概念是视空间不是知觉作为物体和物体阵，而是作为一个连续的表面或者相邻表面阵。

他提出环境光和生态光学理论，提出了光流的概念，他提出从二维平面的光流场可以恢复3D空间运动参数和结构参数的假说。他把这一切写进他的专著“视世界”（Visual World，1950）中。这本专著引起了学术界极大的重视，他提出的人是如何在不断变化的感觉基础上获得恒定知觉的问题，成了指导后来关于空间知觉研究的钥匙。

他的光流说，得到了计算机视觉的主流理论-3D重建理论的创始者Marr的重视，被写进了各式各样的计算机视觉教材，作为简单实用的图像运动的数字表示法，影响至今。

现在计算机视觉在没有找到通用理论的情况下，用光流计算也算是一种可行的做法。但是也有人提出了质疑。2000年，国际知名杂志“perception”上，JE Cutting 发表一篇论文“Images,imagination, and movement: Picturial representations and their development inthe work of James Gibson”,谈到有名的鸟飞光流图的可信性。有兴趣的可自己找来读。

§3-6达芬奇（ Da Vinci）立体视，遮挡问题研究（一）

在立体镜发现之前，学术界公认的深度知觉线索是双眼转动，眼肌紧张，另外视物的模糊，视物的大小，和遮挡（中间物体）也是很重要的线索。各种距离线索，比如眼动，眼肌紧张，视物模糊，因为与眼科学和神经生理学有关都被长期研究过，但很少有人想过遮挡为什么能引起空间知觉。

立体视觉的发现不但为空间知觉研究提供了实验手段，且因为立体知觉不需要经验，从而支持了数学学说的先天论者。60年代末，Julesz设计了随机点立体图对（RDS），说明只要视差不需要形状信息就能决定深度，更加支持了先天论的计算学派。80年代初，MIT人工智能实验室的Mar依此提出了按视差计算物体深度的3D重建理论，成了计算机视觉的主流理论，风靡一时。在这个理论中，为了达到物体和景物3D重建的目的，需要解决双眼图象对应点匹配的问题，因此学术界的焦点都放在了解对应性问题上，Marr虽然注意到遮挡存在时，双眼有不对称区存在，但他把不对称区作为噪声抛弃，遮挡对深度知觉的作用再一次被边沿化。

虽然Marr在80年代几乎被神化，不但在计算机视觉，也在心理，生理学界有了很大的影响，但仍然有一些学者发现遮挡引起的双眼不对称区对产生深度感是有作用的，不能被忽视。其中有澳大利亚南方新沃尔斯大学的Babara Gillam，哈佛大学视觉研究所的KenNakayama，加州大学伯克莱校区的G Westheimer加拿大约克大学的HiroshiOno 等。

1987年，B Gillam通过RDS实验，发现（1）单眼区是加速而不是延迟立体感的产生，（2）立体感起源于视差不连续处，不匹配仅仅在不连续区发现并且定位它们。Gillam还通过视觉史的研究发现早在文艺复兴时代大画家达芬奇（Da Vinci）就注意到这一点，达芬奇说两眼一起能看到小的前景物体背后整个背景，就像前面小的遮挡物是透明的一样。

Gillam指出，当前景物足够宽的时候，背景被完全挡住，但是在双眼观察时前景物的两边各有一条单眼区，只能被一只眼看见。就是在Julesz设计的随机点立体图对（RDS）中，为了产生视差，中心方移动的结果每个眼的图像中空出了一块，Julesz用随机点填补了这些区域。这样的区域在另一眼的图像中没有对应的区域是单眼区。Crimson，Mayhew及Frisby 等在80年代初就发现他们的算法在表面深度不连续初遇到极大的麻烦。

Gillam于是提出了新的假说，她认为深度的不连续是因为双眼图像的不匹配区，这些区域被视系统用来决定深度不连续，附加的单眼细节有助于双眼过程。她用心理物理实验来验证自己的新设想，实验结果证实了她的想法，前面流行的基于视差计算的3D重建模型开始遇到了有力的挑战。

Ken Nakayama等接着对这种现象进行了系统的实验和理论研究，1990年他的“DA VINCI STEREOPSIS：DEPTH AND SUBJECTIVE OCCLUDING CONTOURS FROM UNPAIREDIMAGE POINTS”一文在“Vision Research”发表，他用对系统的实验结果分析指出，这种双眼图像在遮挡物后的不对称可以分成两种，一种是现实生活中可以发生的，因为遮挡物在正中，或者由于孔径（缝隙）对周边的遮挡引起的。他称为生态可行遮挡限制，另一种是现实生活中不可能出现的双眼图像不对称，被分为生态不可行限制，指出视系统正是用在真实世界中无处不在的遮挡关系从不对称点恢复深度、轮廓和表面，这种由于遮挡引起的立体视因为最早被达芬奇发现故称为达芬奇立体视。

1990年Nakayama等在Perception（知觉杂志）发表题为“Transparancy：relationｔｏdepth，subjective contourS，luminance，and neon colour spreading“一文。受Marr的启示提出了一个视表面表象中间层知觉理论希望通过这个理论来统一解释两种立体视。

1994 年BartonAnderson 与Nakayama在“PsychologicalReview”上发表“Toward a General Theory of Stereopsis:Binocular Matching Occluding Contours and Fusion ”提出融合，立体视，遮挡是一致的，并提出一个简单的理论框架。

18年后，2009年知觉杂志就Nakayama1990年论文“Transparancy：relation to depth，subjectivecontours，luminance，and neoncolour spreading“中提出的视表面表象中间层知觉理论这个问题重新组织了一个讨论专题，Nakayama 在讨论中回顾了90年代初的各种视觉理论从Barlow到Marr ，和自己提出这个理论的学术背景，并指出在1992年受Gibson光流的启示，改进了自己的模型，并指出一切工作仍然在在幼年期。讨论中Anderson 指出了自己与这个理论的分歧。

26年后，Gillam，Barton Anderson，J Wade ，HiroshiOno等仍在遮挡问题上做研究工作，坚持至今。

Ken Nakayama 曾经领跑此项研究，依照Marr与Gibson提出过表面表象，但近年来视觉研究他已经主要在研究面孔知觉了。

本文作者王天珍（武汉理工大学）
转载自大数据文摘

智造家查看全部

大数据文摘基于大数据垂直领域50万粉丝的优势

想要发起一次众包的行业调研。

我们诚挚的邀请您用5分钟填写

《大数据行业从业者调研报告》

共同促成整个大数据行业的一次调研

序

▼

视觉是人类最重要的知觉，没有视觉人类很难定位，识别物体，了解坏境，得以生存发展。20世纪两次世界大战，使得西方各国，不论是为了飞机安全着陆，还是导弹精确制导，都对视觉研究有了非常大的兴趣，系列的欧洲视知觉会议（ECVP，1978），杂志“视觉研”（vision research，1961）在上世纪的出现,都不同程度源于得到了各大基金和有关军方的支持NASA,NIH NSF, officeof Navel, Air Force Research）。至今在西方各国视觉研究依然是一个热门研究方向。

80年代，我在新华文摘上读到钱学森关于人工智能的一篇讲话，他提到计算机的出现改变了人类社会，计算机又快又准确，但就是在物体识别方面无论如何也赶不到人类视觉，这引起了我对物体识别的极大兴趣。几年后到美留学，学习数字图像处理，这才知道物体识别属于计算机视觉的研究范围，知道至今为止不论是计算机视觉研究，还是人类视觉研究都没有大的突破。

我是一个喜欢追根刨底的人，从小电影，电视剧，小说一定要知道结尾，于是就被套了进去，不论有钱没钱，英文中文，凡是与视觉有关的杂志，书，都要找来看，各种会议自己花钱也要去参加，何况回国后主要工作也是图像处理方面的教学和研究。近30年来还是有些成果：1，对视觉机理有了比较深的理解；2，知道了不少古今中外研究视觉的人和故事.于是就有了把这些故事说出来的愿望，在唯SCI的时代，和在职的年青教师研究生去抢饭碗，去投稿一级学报，争取发表，没有必要，就在博客上吹吹牛吧。

按照J Wade 在视觉的自然史中的划分原则，和我自己的思路，我将视觉史的研究分为3个阶段：1838年前，作为自然观察研究时代；将Wheaston 发明立体镜到1982年作为实验研究时代；将1982年Marr的：“VISION”（中文译为”视觉计算理论”）出版作为信息科学研究时代的开始。

最后谈谈我知道的国内有关研究。

视觉研究的前世今生（一）

▼

§1从古希腊到18世纪的视觉研究

§1-1视觉是什么：外射说和射入学之争

狼和狮子等猛兽的眼睛在黑夜里闪闪发光，引起恐怖和神秘之感；检阅时统帅们用眼角余光逼视着他的队伍里的士兵，让他们感到威严的压力，如此等等使得古希腊一些学者认为视觉是人类眼中发出来的光作用到物体上产生的感觉。认为视觉是从眼睛里发出的光或者火，灵魂借以感知世界的学说被称为外射学。外射学的提倡者和支持者有：柏拉图（Plato，350 B.C.）欧几里得（Euclid,300B.C.）,托勒密（Ptolemy，150）。

图1柏拉图

欧几里德是古希腊公认的大数学家，他依据光是直线传播的事实，按照柏拉图的等同光与视觉的思路，数学化了光学，写了“光学”从而将视觉也几何化了，他提出光线从眼里投射到物体，视觉被限制到视线形成的立体锥中，对着大角的物体被知觉为较大，这样他不仅对光通过空间作了说明，他的光学是一种空间知觉几何理论。科学研究不等于数学，但是只有有了数学，科学研究才能深入。美国资源委员会对科学研究的定义是：“科学研究工作是科学领域中的检索和应用包括对已有知识的整理、统计以及对数据的搜集、编辑和分析研究的工作。要整理、统计以及对数据的搜集、编辑和分析非数学不可，因此任何一门学科的研究，只要有了数学家的加入，就特别有活力。

图2欧几里德

外射学从常识来看，好像不合理。反对外射学的亚里士多德（Aristotle）就质疑说，如果视觉真如灯笼一样是从眼往外发射光，为什么在黑暗中，眼睛没有看的能力呢？但就是因为欧几里得等同视觉与光，从几何的角度，说得头头是道，使得外射学流行了几百年。原子论的提倡者德莫克里特（Democritus,400 b.c.）认为从物体发射的原子压缩空气带物体的影像到眼睛，引起视觉，这个观点被伊毕鸠鲁（Epicurus,300 b.c.）发扬光大，形成了另一个学派射入学派，射入学派经过亚里士多德的学生Theophrastus（300 b.c）的整理更接近现代光与视觉的概念：太阳发出的光被物体反射，通过透明，或者半透明的媒质被眼睛接受，反映亚里士多德意识到作为物质的光和作为媒质运动的光的区别，他们认为，这样的运动是瞬间的，能同时被很多观察者接受。但是这一学派当时并没有被广泛接受。

图3亚里士多德

托勒密一般坚持欧几里德几何光学理论，但是他认为视觉不是等同通过单个视锥，而需要双眼视锥的结合。他更看重实验，他对折射反射作了长期观察，能够准确的描叙这些现象，发现在两种不同的透光物资界面上，光发生了弯曲，从折射角不等于入射角，而是有定量的关系。注意到建立物理和视觉的心理分析间的一致，这一点为后来的海桑（Ibn al-Haytham, Alhazen，1040）所发展。但是他坚持外射学。解剖学介入视觉研究比较早，把视觉研究从古希腊的哲学家的清谈和数学家的推演中走出来的，是古罗马的医生和哲学家盖伦（Galen，129，199）他活体解剖过动物，尤其是臾猴，并由此推论人体的构造。他发现白内障致盲，但是移去白内障，能够恢复视力，因此认为视线从晶状体发出（晶状体式视觉的基地）。

图4盖伦

他混淆阳光中的光线和视线。他依据解剖和生理的结合，同意托勒密的双眼单视。因为解剖他知道视神经在视交叉中结合，于是推测灵魂是从单一位置发出的。

世界科学的大发展有三个高峰，古希腊，罗马，文艺复兴。罗马以后，欧洲因为战乱，和黑死病流行对经济的影响，

大约有六百多年，科学研究受到压抑，很多希腊文献散失，学派消失。只是经过阿拉伯学者的努力，保留了大量的希腊学者的著作，并再翻译为拉丁文，欧洲到文艺复兴时，才能在希腊学术研究的基础上再次繁荣。

在其中阿拉伯的学者海桑（Ibn al-haytham,Alhazen,965-1039）起了承前启后的作用。他的巨作“光学”让欧洲重新知道了古希腊的各种学说。利用自己设计的各种装置，他有系统的研究光线的传输，反射与折射。他观察到睁开眼睛就能使整个天空充满阳光，而强的阳光会引起眼睛的疼痛，因而他相信外射学，他说眼睛是为感光而设计的。他还提出了后来认为是J.J.Gibson 提出的空间知觉理论，提出了被认为是Helmholtze最先提出的无意识推理。

图5开普勒

外射学和射入学之争直到17世纪开普勒（Kepler，1571-1630）才算经纬分明。1611年，他在“折射光学”中提出人们能够看见物体是因为物体发出的光通过眼睛的水晶体投射在视网膜上形成倒像，晶状体不过是一个光线的折射装置。1625年德国的物理学家沙伊儿（Christoph Scheiner,1575-1650)用牛眼验证了他的说法。他在被摘出的牛眼后极部，切除巩膜和脉络膜，于是人们在视网膜上看见了倒置的景物。这样大家才最后相信是物体发出的光进入眼睛，在眼底形成了倒置的景物影像，经历了一千多年的岁月，射入说，终于得到了承认。

§1-2眼睛的光学结构及调节现象的研究，眼镜及照相机的发明。

从盖伦开始，解剖学进入视觉研究，盖伦主要通过对猴子的解剖和偶然对洪水漂来腐烂尸体研究，对眼睛结构有了一些初步的了解，在他的著作“身体各部分的用处”一书中，有一节是关于眼睛和它的附属器官的，他描叙了玻璃体，捷膜，角膜，虹膜，晶体，脉络膜和视网膜。盖伦解剖过视神经，知道它的走向，并看见了视交叉得出视交叉是精灵进入脑时左右眼互相交换的地方。有两只眼的原因是能看到更大的范围，而且一只眼出了问题，还可以用另一只眼看。16世纪，意大利的天文学家F.Maurolico（1494-1575）研究了折射现象并企图解释彩虹，他描叙了小孔成倒象，并提出晶状体相当折光棱镜,光通过晶状体折射。

1619 德国天文学家，物理学家沙奈尔（C.Scheiner，1575-1650)第一个科学地绘出了人眼的示意图，正是他用牛眼的断层实验，验证了Scheiner 1619年绘制的眼调节图Kepler的倒像论，他用各种光学实验证明晶状体和玻璃体的屈光率，测定了角膜的曲率和晶状体的弯曲度，眼视光学从此登上科学的舞台。他写到，年轻人看东西清楚是因为他们的晶状体适应性好，网膜能自由活动。能够看远也能看近。

图6 Scheiner 1619年绘制的眼调节图

人类在对眼睛的结构进行研究的同时，发明了眼镜和照相机。

眼镜的发明改善了视力。据说眼镜最早出现在1289年意大利弗罗伦萨，是叫阿尔马托的光学家发明的。但马可波罗在1260年写到，中国老人为了清晰地阅读而戴着眼镜。说明眼镜是从中国传过去的。中国历史博物馆有一幅藏画“南都繁会景物图卷，中有一老者戴着眼镜，说明早在明永乐年间中国就有眼镜出现了。

照相机本身就是眼睛结构研究自然的产物。小孔成像的研究导致了暗箱的出现。水到渠成，经过了文艺复兴，1829年法国的艺术家盖达儿（Louis Daguerre，1787 – 1851）发明了照相机。

图7盖达儿

照相机的发明反过来又加深了对视觉的研究，因为与相机的对比，从开普勒到19世纪中，对视觉的研究很重要的一部分集中在对眼睛调节机理的研究上。人们推测是眼睛的哪一部分完成了调节作用使得人眼能在很大一个范围内看清物体，而不是像相机只能在一个距离上聚焦。有三种猜测：1，角膜改变曲率完成调节，近处曲率变大；2，晶状体在眼内前后移动，持这个观点的是开普勒，Scheiner是他的支持者，但也考虑晶状体形状的改变；3,晶状体改变形状完成调节，托马斯·杨（ThomasYoung，1773－1829），1793年从逻辑和生理的角度推出这个结论。他同时还解决了晶状体本身的结构问题，假设晶状体用肌肉的纤维组成。

眼睛调节在17世纪，被笛卡尔等作为知悉距离的线索，这成了柏克莱的肌肉调节是距离知觉的重要原因的空间视觉理论的重要依据。

网膜之后眼睛接受的图像去了哪儿？下节谈谈古人对双眼单视和视觉通道的解剖生理研究

视觉研究的前世今生（二）

▼

§2 视觉通道，双眼单视，和颜色视觉

§2-1视觉通道和双眼单视

人都有长在头前的两只眼，但看见的物景却是一个，这称为双眼单视。为什么双眼单视，双眼比一个眼看东西好，还是用一个眼好，自古以来就是学者们争论不休的话题。

双眼单视甚至在荷马的史诗“奥德塞（Odyssey）”中反映出来，神王宙斯（Zeus）的雷神就是独眼（cyclopine eye）。

亚里士多德（Aristotle）注意到复视，他说如果将手指压迫一个眼睛，一个东西就会看为两个，也就是说，从那时开始，人们就注意到双眼单视了。

这被托勒密（Ptolemy）用实验检验，较之Euclid只用光的投射解释双眼视觉，托勒密用控制观察法确定了双眼单视的条件，说明交叉和非交叉视差的差别。为现代双眼视觉研究铺平了道路。

托勒密的工作可能影响到几乎同时代的解剖学家盖伦（Galen），盖伦不仅通过解剖了解眼睛的结构，也通过解剖，发现从两眼到脑的神经通道。

图8 托勒密

J Wade 考证，在古时候，脑本身就不太被重视，视觉通道较之眼解剖更被忽视。希波克拉底（Hippocrates）认为愉快，感觉，思想在脑，但是心是感觉力的中心，虽然这一点，不为Aristotle赞同。通过解剖研究，Galen认为视觉通道起源于脑前室，在此，动物精神与视神经引起的视觉精神交互。视神经本身在视交叉聚合，但是每一方保留在自己这边。这个错误被重复，并被笛卡儿（Descartes）整合进入他的视觉分析中。Galen的脑前室类似于丘脑。在笛卡儿的折光学中视神经从每个眼同侧进入脑，在后面的松果体结合。他将此类比为盲人拄两根拐杖去触觉一个物体。

对于双眼和单眼的关系，亚里士多德考虑双眼从一个单源移动，因此单眼视觉优于双眼，他用眼动控制来解释这一点。托勒密注意到双眼和单眼的视方向不必一致，当两眼视方向一致时，双眼单视。而盖伦的理论是视精神在视交叉交互，故他考虑一个眼在使用时比两个眼视精神更集中。（Wade P240）

意大利自然哲学家波尔塔（Porta）则更激进，他认为因为竞争，每个时间只有一个眼在在工作。波尔塔的观点得到法国的画家，透视学教师LeClere的支持，他收集了一些实例，这些人每个眼分开比双眼看的更清楚，以此为证，说明每次只有一个眼在工作。

图9 笛卡儿

笛卡儿推测从两眼来的纤维（视神经）结合在松果体，但是作为画家和透视教师的 LeClere不同意他的观点，LeClere用透视图说明虽然两眼得到的图像来源于同一个物体，但是由于透视的原因两者并不相等，以此来反对笛卡儿的双眼融合论。

双茼望远镜和显微镜的发明者Cherubin dOrieans认为双眼视觉是优于单眼，在光度计被发明后，得到了证实。

§2-2颜色视觉

心理学家在什么是感觉，什么是知觉方面意见一贯不一致，但是他们一致同意颜色是感觉。但是为什么会有色盲，为什么我们会感觉到颜色，白光与颜色光的关系是什么，为什么会有彩虹这个问题一直到牛顿（Newton）才有了比较大的进展。牛顿在他的“光学”（1704）中说，我不是用假说解释光的性质，我是用推理和实验提出并证实它们。他用棱镜将白光分解成了彩色光谱，他意识到光谱是连续的，但报告了七种颜色，红，橙，黄，绿，蓝，靛，紫。从此人们知道白光能够分解成单色光，按一定比例，色光也能结合成白光。

图10牛顿

基于颜色混合的事实，汤姆士。杨（Young）在1807年提出三原色的假设。他设想视网膜上存在三种神经纤维，每种都引起一种原色的感觉，即红，绿，蓝色觉。到了1860年赫姆霍茨（Helmholtz）对三色学作了补充，提出光谱的不同成分引起三种纤维不同比例的兴奋，他们有不同的兴奋曲线

（寿书P234），在颜色混合中混合色是三种纤维按比例同时兴奋的结果。这就是后来有名的Young- Helmholtz三色学。三色说能很好的解释颜色混合现象，但是不能解释色盲现象。

色盲的概念是1844年由布律斯特（Brewester）提出来，但是在18世纪就已经有了纪录。原子论的提出者道尔顿（Dalton）1794年就在曼彻斯顿的文哲协会上就报告自己不能从黑色中区分红色，并引起了科学界极大的震惊（P137）。三色学认为色盲是因为缺乏一种（单色盲）和三种纤维（全色盲）造成的，按此学说至少应该有三种色盲：红色盲，绿色盲，蓝色盲，他们可以单独存在。并且依此理论只有三种纤维同时兴奋才有非彩色感觉，既然色盲缺乏一种或者几种纤维，那么色盲都不应该有明度感（白色感觉）。但是事实上，几乎所有的红色盲也是绿色盲，而全色盲着也同样有白色感觉。

图11赫姆霍茨

1864年赫林（hering）提出了对立色（拮抗）学说。认为视网膜中有三对视素，白-黑视素，红-绿视素，黄-蓝视素。每对视素对光照和黑暗呈相反的反映。色觉取决于视素的分解和还原。异化产生红，黄，白，复原产生蓝，绿，黑，在视觉研究史上称为hering law。拮抗学能很好解释色盲和负后像和同时对比。但是对三原色能产生光谱一切颜色没有给以说明。（hering law 英汉医学词典）

一个多世纪以来两种学说进行了长期，反复的争论，好像互不相容。近几十年来，尤其是微分光光度术的出现，色觉研究有了重大突破。现已证明人的视网膜上确实存在三种感色的锥细胞，而在从网膜向视觉中枢传递的过程中，颜色信息都是编码为拮抗对的形式传递。从而解决了两种理论之争，美国著名生理学家Hartline 说，两者都是对的。

图12 海林

视觉研究的前世今生（三）

▼

§3空间知觉

§3-1概述

学术界一致同意空间知觉是视觉的最高层次，也是视觉中最抽象，最难以理解的。众所周知。物体上一点发出的光线落到视网膜上只是一个点，但我们怎么能单凭视觉知道物体的远近，大小和位置？这个能力是先天的还是经验所致？这些问题在17-19世纪引起了学术界极大的兴趣，吸引了第一流的哲学家，物理学家，数学家，生理学家参加讨论，除了理工科学生熟悉的赫姆霍茨，海林，笛卡儿外，还有洛克（Lock）马尔布兰希（Malbranche），毛凌诺（Molyneu），康德（Kant），伯克莱（Berkeley）等。

当时流行的空间知觉理论是笛卡儿派的数学学说。笛卡儿继承了柏拉图和欧几里德的视觉观念，把光学和视觉等同起来，在几何光学的基础上加上对于视网膜，视神经的解剖和电生理知识，他发展了一套空间知觉理论。

最主要的观点可以简单归结如下：

1 在近处，物体的远近由物体对于双眼所夹的角决定，夹角越大物体越近，夹角越小物体越远；
2 在远处，是由可见点而来的光线落入眼睛的分光程度决定的，分光程度越大，离观察者的距离就越近，光线分散程度越小，离观察者的距离就越远。

因为知觉的远近是由几何定律决定的，因此笛卡儿派认为人生来就具有空间知觉能力。

但是这个观点，很多学者是不同意的。其中最著名的是洛克。他在他的名著“人类理解论”中，引用英国哲学家毛凌诺的信，提出了有名的毛凌诺问题。毛凌诺问题假设一个先天性的盲人，长大后学会了用手去区分方和圆的物体。如果此后他恢复了视力，在他第一眼看到物体时，能否凭借视力判断哪一个物体是方的，哪一个物体是园的？洛克和毛凌诺认为他在初视之下是不能凭视力分辨出方圆的。强调识别是与经验有关的，并不是先天所有的。

约翰·缪勒创立了神经特殊能量说，认为感觉神经分5种，不能互相替代，但不同性质的刺激作用同一感官可以引起同一感觉，如光刺激视网膜或者电流通过视网膜都能引起光的感觉。他主张视网膜同位观念，认为视网膜在它自身的活动中能自己感觉自己，我们自己的身体也在视野中。一切方向问题只能涉及各部分视野的相互位置。视觉方向仅仅依赖视网膜感觉部位的安排。

大物理学家赫姆霍茨和海林不仅在颜色理论上各执一词，在空间知觉的看法更是水火不容。

海林主张先验论，认为空间知觉来自天生。例如，他赞同约翰·缪勒的观念，主张双眼辐合运动不是练习的结果，而是由遗传所致，应将双眼视为统一器官，协同运动依赖于天生的解剖基础。视觉空间是直接给予的东西。许多心理现象是由于人脑生来如此。

而赫姆霍茨则主张经验论，他提出了有名的无意识（unconscious inference）推理说，指出有些知觉看起来是直接认识，实际上是由于反复练习和联想才变为无意识的。例如根据所看见熟悉的物像的大小判断物体的距离，双眼的辐合运动，事实上依然是由经验而来的。与平常的推理类似，只不过平时没有自觉意识，故称为无意识推理。

在这场长达数百年的学术之争中，影响最大的就是1709年伯克莱写的“视觉新论”。他在这本不过8万字的小册子里系统地驳斥了笛卡儿派的数学学说，认为空间知觉是人们的一种内省经验，是人们用接近联想把视觉与触觉联系起来的结果。把对空间知觉的研究从几何光学中解脱出来，强调内省研究法，心理学就此进入了空间知觉研究的领域。

1838年，物理学家惠斯登（Wheaston）发明了实体镜，让人们第一次知晓了立体视觉-这一全新的深度知觉现象。实体镜给空间知觉研究提供了可控的研究条件，空间知觉研究从此进入了实验室研究阶段。

1885年，马赫写了“感觉的分析”的。在他那个时代，物理学取得了巨大的成就，甚至改变了感觉心理学，但是正是此时，物理学也遇到了危机：笛卡儿1664年提出来的“以太”观念（20世纪科学史P38）在光和电磁理论胜利后，在光速的测量中遇到了很大的麻烦。迈克尔孙-莫雷实验的否定结果挑战于机械的宇宙观。马赫就是在在物理学遇到危机的时候，反思物理学研究中可能出现的哲学问题，希望借此把“他毕生从事的各个不同科学部门（物理学，感觉生理学，心理学）理解为一种统一的事业”（爱因斯坦）。在此书中，他以大量的篇幅分析了空间知觉，把空间感觉与眼的运动和相应的神经支配过程联系起来，进一步提出了空间时间与运动的关系，爱因斯坦（Einstein）就是受了马赫“感觉的分析”的启示才提出相对论的。

20世纪初，格式塔心理学提出了完形说。

1951年J·吉布森出版了“视世界”（Visual Would）。认识到只在实验室用体视镜等仪器研究空间知觉是方向性的错误。

1987年奥大利亚心理学家BabraGillam发现遮挡存在时，双眼融合后共同区旁存在一个单眼区，对体视融合起了关键作用。这个现象被称为达芬奇立体视，以区分因视差产生的惠斯登立体视。空间知觉的研究来到新的时期。

下面分几段叙述有关的重大研究。

§3-2视觉新论

1709年24岁的伯克莱写“视觉新论”。这本小册子出版是响应洛克在“人类理解论”中，对知觉研究中笛卡儿的几何学和生理学派的的先天论的哲学观念的批判。但它比洛克说理更清楚，更深刻。有力的捍卫了全新的视觉研究观点，清算了笛卡儿以来在这个领域里积累的偏见，为学术界获得了积极发现所需要的自由气氛。（“感觉的分析”P96）

该书采用了一种不常见的格式，一共8万字的小册子，分成了160小段，按照1934年译者关文运的分析，可以分为7个自然部分，第一段是第一部分，是开张明义说明著述的目的是说明我们怎么知觉物体的距离，大小（幅度），和位置的。（这里，我用的2002年从Yorku 大学下载原文中magnitude 的原义“大小”，代替关老师译文中的“体积”。体积是3 D 的，含距离。大小既可以是体积，也可以是面积（2D），和长度（1D），这样更容易理解原文。）并进一步考虑视觉和触觉之间的差别，和有没有什么观念对两者是共同的。第二部分为2至51段，讨论什么是距离。第三部为52至87段，研究物体大小，面与体。第四部分为88到120段，解释什么是物体的位置。第五部分121-146，研究视觉和触觉有没有共同的对象。第六部分只有两段147-148说明视物体是大自然（造物者）构成的一种宇宙语言，帮助人们得以生存。第7部分（149-160）触觉的对象是实体，视觉的对象是颜色，在心中。

该书首先讨论什么是距离。伯克莱说众所周知，光是直线传播的，物体不论远近，从物体上一个点发出的的光落到网膜上都是一个点，为什么我们能用眼知觉距离呢？笛卡儿学派认为，距离主要是由两个方面决定的。首先是由物体对双眼张开的角度决定的，角度越大，物体离得越近。其次是由物体发出的光的分光程度，越分散，离得越近。伯克莱用内省法批驳说随便找个人试试，除了笛卡儿派的几何光学家，谁看见物体发出来的角度了？在英文原文的第4段有一句括号里的话（thefancy that we see only one eye at once being exploded ）我认为考虑到伯克莱写书之时，学术界关于双眼单视从盖伦以来有一种观点，说实际上虽然人类具有双眼，但只用一只眼时视精神更集中。而到了17世纪，法国的波尔塔更提出，虽然有双眼，每时刻实际上只有一只眼在工作。因此这段注解可以有解释为批评波尔塔等的单眼论。说，看看泡泡破了吧，大家都认为是双眼同时工作

对分光说决定远近，伯克莱引用了主流学派自己的反例，说几何学派的Barrow博士用反射，折射镜组合的实验得到的结果自己否定了自己。

伯克莱除了同意在远距离用视觉估计距离时，可以以物体到观察者间遮挡视线的其他物体多少来帮助估计远近外。提出了自己的两条原则；第一，人们是以注视物体时双眼的转动来知晓远近的；第二，人们是以视物时眼睛肌肉是否紧张来决定远近的。这两条为什么能知觉距离，是因为它们是与相应的触觉同时出现的，根据触觉，人们能知晓距离，由于眼动，眼肌紧张总是伴随相应的触觉，所以根据同时联想法则，人们用视觉也能根据这两条知觉远近。总之，伯克莱在这儿强调的是，距离不是用眼知觉到的，而是由于经验的作用，需要学习，空间知觉是心理现象，不能等同于网膜的几何特征。在后面几段，伯克莱将他的推理引申到对大小，位置的研究上，以毛凌诺的先天盲人问题为例，反复论证是经验而不是几何推理使人们能知觉大小位置。该书在对月亮大小，上下颠倒的问题的论证也很巧妙。

虽然当时的科学水平，还不能直接证实他们（伯克莱，洛克，毛凌诺）的关于突然得到视力的盲人，是无法将他由触觉得到关于远近形状的能力转化为视觉能力的推断。但这百年以来科学的进步已经提供了这样的条件，白内障摘除，角膜移植使很多先天盲人得到了了光明，但是研究发现如果他们是在关键期后得到的视力，终其一身，虽然有进步，但是还是不能使用视力正常生活。

2002年发现杂志就报道了这样一个例子，标题是“Sight Unseen”。报道美国加州一个有名的盲人企业家，运动员Mike May的故事。May3岁时由于矿灯爆炸失去左眼，右眼也因角膜混浊失去视力，但作为盲人这并没有影响他的发展，他甚至创造了盲人山地滑雪的世界纪录。在2000年May由于角膜移植重见光明，手术后第一个月他的行为完全证实了毛凌诺等的推测。此后，虽然他的视力渐渐改善，但是他始终没有学会用视觉去行动，出门依然带着他的导盲犬和手丈，成为一个有视觉的盲人。圣地亚哥的加州大学实验室的研究人员得出结论，手术后，物体发出的光信号到达了May的脑中，但是因为没有儿时的经验，没有很好的被解释。完全证实了300年前伯克莱的推断。

人们能用视觉知觉距离，大小，位置是视觉的内省经验而不是几何推理，这个观点是洛克和和毛凌诺先提出来的，但是伯克莱“视觉新论”里将其归结于于同时联想的作用，强调视觉是心理活动与几何计算无关是他的的新意所在。从此后心理学代替几何光学成为了视觉研究的主力。

在这儿要提到的是过去批评伯克莱总是以他否定视觉的对象不在心外，以此说明他是唯心主义，否定实物存在。我认为从今天生物信息论的角度来看，伯克莱说的有一定道理。300年前的心意味着脑（或者今天的神经系统），伯克莱说视觉的对象就只是光与色，这句话没有错，今天的解剖学证实视网膜能接受的就只是光与色，这是人们视神经系统的输入变量，只有经过神经系统的加工，在视觉系统的输出处，才是已经被识别了的物体和景物。在当时的科学发展水平称这为“心”是可以理解的。但是视觉系统到底是怎怎么加工光与色，使它们成为可以识别的事物，至今人类也没有解决这个问题。2011年，国际知名杂志“视觉研究”（Vision Research）在庆祝它创刊50周年的两篇回忆文章中（L.Ungerleider，A.Bell;G.Westhemer）承认这个问题的解决依然在路上。

§3-3实体镜的发明-空间知觉的实验室研究

惠斯登是个大物理学家，他发明的电桥使他几乎家喻户晓，但是他最大的贡献是他1838年发明了实体镜，使得被人们忽视了几千年的立体视觉现象被发现。

他是在设计电声仪器时，偶然发现在两块金属平板里反射出来的略有差别的蜡烛火焰图像，如果分别被两眼同时看见，融合后就有就会有实体感。他很有兴趣这个新现象，反复琢磨，最后发明了实体镜。1838年他公布了自己的发明，并称之为视觉理论的新事实。指出双眼中两个稍稍不同的图像的结合产生实体感。（Wade perception1987，P785）他指出这是一种以前没有观察到的现象，他称之为立体视觉。

实体镜和立体视觉现象很快吸引了年青学生的注意，也风靡了市民社会，从1838年来几乎没有任何其他视现象像它一样被如此多的实验研究，并作为理论前沿。两个图片（2D）引起实体感觉（3D），3D空间知觉能用2D图像而不是3D 实体来检验，视差能由图像线索控制，使得空间知觉能从它的客观基地上解脱，使得空间知觉的研究从自然观察进入到实验室研究，开创了空间研究的新时代。

其实，双眼仪器早就被发明，视差的概念也早就被提出（早在1679 法国的LeClere就用网膜视差攻击笛卡儿的双眼单视理论），立体视觉现象被成千上万的人看到过，但是为什么直到惠斯登才发现立体视觉呢？惠斯登对自己的发现是这样评价的，他说这事很奇怪，类似这样的现象已经被看见成千次，但从来没有足够的注意力让它成为哲学观察的主体？直到偶然被他注意到。（P811）1987年J.Wade 同意1942年波林（Boring）对立体视觉发现的评价，他说，惠斯登能发现立体视觉，不是因为他站在巨人的肩上，看得更清楚，而是因为他不熟悉他们的工作。换句话说是偏见比无知离真理更远，是旧的依据视觉方向解释双眼单视的理论从思想上阻碍了立体视觉的发现。

§3-4 马赫的“感觉的分析”

19世纪是物理学大丰收的时期，也是物理学困惑的时期。光学，热力学，电磁学都取得了引人注目的成就，麦克斯韦方程预言了电磁波的存在，并很快得到了验证，电磁波的出现，光电统一，为无线电通信，以至100多年后的互联网开辟了道路。但是也出现了了意想不到的烦恼和危机，高精度的迈克耳孙（A Mickelson）莫雷（JMorley）干涉仪（测量光速）实验的否定结果，否定了由笛卡儿提出的以太的存在，挑战从牛顿以来建立的机械的世界观。

在牛顿那儿，物质在与物质无关的绝对的时间和绝对的空间中有序运动，但现在这种理论受到挑战，问题出在哪儿？当时作为实验物理学家马赫（Mach 奥地利，1838-1916）由于工作性质，不仅研究光学和声学也研究听觉，视觉和运动感觉。他研究气体动力学，发现了声速和流速之比的马赫数，马赫角，和马赫效应。他研究圆盘高速旋转时的视亮度分布，发现了主观感觉在亮的一端呈现一个特别的亮带，在暗的一端呈现一个特别暗的带，后来这被命名为马赫带，是神经系统相互作用产生的。他研究动觉，通过转椅实验发现人和动物感觉到的是加速，减速而不是“绝对运动”。他把流体力学知识用来解释这种现象，指出运动感觉来源于内耳半规管内流体的惯性。具有这样交叉学科的研究经历，在这样的大环境之下，马赫自然就想到伯克莱对笛卡儿等同几何光学与空间知觉的批评。认为物理学的危机是不是牛顿力学把来自经验的东西和任意约定的东西混在一起引起的。经过了长达20多年的酝酿，马赫在1886年出版了“感觉的分析”。一书。（马赫研究P61）马赫的愿望是希望获得一种观点把他毕生从事的各个不同科学部门统一起来，为解决自然科学认识问题寻找一种哲学立场。

试图对牛顿的脱离任何物质的绝对空间和绝对时间的先验理论进行研究。把感觉看成物理经验和心理经验的共同要素。用感觉的复合来统一物理，生理和心理科学。他和伯克莱不同，时代对伯克莱提出的要求是在空间知觉研究中清除先验论的几何光学的影响，用心理学的接近联想法，用视触结合的方法去认识距离，大小，位置。而在马赫的时代需要对空间，时间本身定位，马赫根据当时心理学的研究认为空间，时间和颜色，声音一样也是感觉。他希望把客体，身体，意志记忆，用感觉统一起来，他说实在的世界和被感知的世界并没有真正的鸿沟，不同的只是考察方式。他指责盲目的借用其它学科的观点，方法会造成科学研究的混乱。他认为视觉，听觉是和空间感觉互相结合。

在这本19世纪最伟大的哲学著作中他用了5章去讨论空间感觉，一章讨论时间感觉，还有一章讨论声音感觉，因为本文是介绍视觉研究，我只能去把尽可能把马赫对空间感觉的研究介绍清楚。

马赫对什么是空间感觉的介绍很有特色，他举了有色字母的例子，说两个字母同形不同色，我们能一眼看出色的不同，但形式相同，这种相同的感觉成分就是空间感觉。这不是几何问题而是与眼动有关的。眼动相同的度量和方向引起相同的空间感觉。

马赫回顾了19世纪空间知觉研究的进展：1）清除了笛卡儿先验论的偏见；2）缪勒创立了神经特殊能说，主张视网膜同位说，认为视觉空间是先天的；3）惠斯登发明了实体镜；4）海林将双眼视为统一的器官，它们的协合运动依赖于天生的解剖基础，与高度感觉，宽度感觉，深度感觉相对应的是一个3D神经支配过程，这个过程按具体情况引起眼睛的左右转向，升降和收敛。他把缪勒的视网膜同位说总结提高，把空间视觉归结为一条简单的原理，同一视网膜部位具有同一高度与广度量值，对称视网膜部位则具有同一深度量值，因此，更严密的论证出空间直观是天生的。马赫对此有更深层的考虑，提出是否能用赫姆霍茨的方式从科学进化史的角度解释空间视觉。他用思想实验考察了这个问题，得出结论，认为促进视动的意志或神经活动就是空间感觉本身（感觉分析P101）。建立在运动感觉上的空间看来实际上是原始的东西。马赫在该书第7章14节应用耳迷路（耳蜗，半规管，耳石器的生理学研究结果支持自己的论点。他从生物目的论的出发用视网膜为例，说明空间知觉起源于生物的需要（P144），在某种意义上继承了伯克莱在视觉新论第6部分的观点，我们的空间视觉能力是造物主（author of nature）安排，是为了帮助人们趋利避害的得以幸福生存。

马赫在感觉的分析中用怀疑的经验论对牛顿脱离任何物质的绝对空间和绝对时间的先验论的批判，对理论物理做了巨大的贡献。深深影响了爱因斯坦，使得他能摆脱旧的机械的时空论影响，创建了相对论，统一了力学和电磁学。爱因斯坦自己认为是马赫给了他很大的启示。

§3-5 吉布森（J·Jibson）的视世界

吉布森是美国二战后最著名的心理学家之一，他有着与其他学者不同的一段经历，1941-1946，他在美国空军服役，担任航空心理专案计划执行人。当时飞机降落主要依靠驾驶员目测，他的研究发现飞机降落成功与否，主要取决与驾驶员的视知觉能力，于是提出以运动知觉作为甄选飞行员的必要条件。

二战开始后美国空军发现迫切需要了解当一个飞行物（航空器，飞鸟）登陆到飞机时如何从地面估计距离，空军专门立项研究与飞行有关的深度和距离知觉。他们在实验室研究各种单眼双眼线索，典型的仪器是，实体镜，深度知觉仪，或者能进光线的暗箱。心理学家在室内，在均匀的背景下，作了各式各样的实验，但没有一个能够准确预估在这个任务中，一个飞行器是成功或者失败。到了二战快结束了，学者才意识到，实验应该在自然环境在户外进行。

由于他的特殊身份，吉布森是少数几个在战争结束前，与飞行员一起用户外环境，照片，以及运动图片进行空间知觉研究的实验者。因为在飞行员的眼里，空间是由地面和地平线决定的，而不是被他飞行的空气中的物体和物体阵决定的，（P6-7）所以吉布森有了和其他研究者很不同的空间观念。在全面研究了空间知觉研究史，在讨论了先天论和经验论旷日持久的论战后，在格式塔心理学的启示下，吉布森依据他在二战中的实验结果，提出了一个被称为地面理论的假说，这个理论的基本概念是视空间不是知觉作为物体和物体阵，而是作为一个连续的表面或者相邻表面阵。

他提出环境光和生态光学理论，提出了光流的概念，他提出从二维平面的光流场可以恢复3D空间运动参数和结构参数的假说。他把这一切写进他的专著“视世界”（Visual World，1950）中。这本专著引起了学术界极大的重视，他提出的人是如何在不断变化的感觉基础上获得恒定知觉的问题，成了指导后来关于空间知觉研究的钥匙。

他的光流说，得到了计算机视觉的主流理论-3D重建理论的创始者Marr的重视，被写进了各式各样的计算机视觉教材，作为简单实用的图像运动的数字表示法，影响至今。

现在计算机视觉在没有找到通用理论的情况下，用光流计算也算是一种可行的做法。但是也有人提出了质疑。2000年，国际知名杂志“perception”上，JE Cutting 发表一篇论文“Images,imagination, and movement: Picturial representations and their development inthe work of James Gibson”,谈到有名的鸟飞光流图的可信性。有兴趣的可自己找来读。

§3-6达芬奇（ Da Vinci）立体视，遮挡问题研究（一）

在立体镜发现之前，学术界公认的深度知觉线索是双眼转动，眼肌紧张，另外视物的模糊，视物的大小，和遮挡（中间物体）也是很重要的线索。各种距离线索，比如眼动，眼肌紧张，视物模糊，因为与眼科学和神经生理学有关都被长期研究过，但很少有人想过遮挡为什么能引起空间知觉。

立体视觉的发现不但为空间知觉研究提供了实验手段，且因为立体知觉不需要经验，从而支持了数学学说的先天论者。60年代末，Julesz设计了随机点立体图对（RDS），说明只要视差不需要形状信息就能决定深度，更加支持了先天论的计算学派。80年代初，MIT人工智能实验室的Mar依此提出了按视差计算物体深度的3D重建理论，成了计算机视觉的主流理论，风靡一时。在这个理论中，为了达到物体和景物3D重建的目的，需要解决双眼图象对应点匹配的问题，因此学术界的焦点都放在了解对应性问题上，Marr虽然注意到遮挡存在时，双眼有不对称区存在，但他把不对称区作为噪声抛弃，遮挡对深度知觉的作用再一次被边沿化。

虽然Marr在80年代几乎被神化，不但在计算机视觉，也在心理，生理学界有了很大的影响，但仍然有一些学者发现遮挡引起的双眼不对称区对产生深度感是有作用的，不能被忽视。其中有澳大利亚南方新沃尔斯大学的Babara Gillam，哈佛大学视觉研究所的KenNakayama，加州大学伯克莱校区的G Westheimer加拿大约克大学的HiroshiOno 等。

1987年，B Gillam通过RDS实验，发现（1）单眼区是加速而不是延迟立体感的产生，（2）立体感起源于视差不连续处，不匹配仅仅在不连续区发现并且定位它们。Gillam还通过视觉史的研究发现早在文艺复兴时代大画家达芬奇（Da Vinci）就注意到这一点，达芬奇说两眼一起能看到小的前景物体背后整个背景，就像前面小的遮挡物是透明的一样。

Gillam指出，当前景物足够宽的时候，背景被完全挡住，但是在双眼观察时前景物的两边各有一条单眼区，只能被一只眼看见。就是在Julesz设计的随机点立体图对（RDS）中，为了产生视差，中心方移动的结果每个眼的图像中空出了一块，Julesz用随机点填补了这些区域。这样的区域在另一眼的图像中没有对应的区域是单眼区。Crimson，Mayhew及Frisby 等在80年代初就发现他们的算法在表面深度不连续初遇到极大的麻烦。

Gillam于是提出了新的假说，她认为深度的不连续是因为双眼图像的不匹配区，这些区域被视系统用来决定深度不连续，附加的单眼细节有助于双眼过程。她用心理物理实验来验证自己的新设想，实验结果证实了她的想法，前面流行的基于视差计算的3D重建模型开始遇到了有力的挑战。

Ken Nakayama等接着对这种现象进行了系统的实验和理论研究，1990年他的“DA VINCI STEREOPSIS：DEPTH AND SUBJECTIVE OCCLUDING CONTOURS FROM UNPAIREDIMAGE POINTS”一文在“Vision Research”发表，他用对系统的实验结果分析指出，这种双眼图像在遮挡物后的不对称可以分成两种，一种是现实生活中可以发生的，因为遮挡物在正中，或者由于孔径（缝隙）对周边的遮挡引起的。他称为生态可行遮挡限制，另一种是现实生活中不可能出现的双眼图像不对称，被分为生态不可行限制，指出视系统正是用在真实世界中无处不在的遮挡关系从不对称点恢复深度、轮廓和表面，这种由于遮挡引起的立体视因为最早被达芬奇发现故称为达芬奇立体视。

1990年Nakayama等在Perception（知觉杂志）发表题为“Transparancy：relationｔｏdepth，subjective contourS，luminance，and neon colour spreading“一文。受Marr的启示提出了一个视表面表象中间层知觉理论希望通过这个理论来统一解释两种立体视。

1994 年BartonAnderson 与Nakayama在“PsychologicalReview”上发表“Toward a General Theory of Stereopsis:Binocular Matching Occluding Contours and Fusion ”提出融合，立体视，遮挡是一致的，并提出一个简单的理论框架。

18年后，2009年知觉杂志就Nakayama1990年论文“Transparancy：relation to depth，subjectivecontours，luminance，and neoncolour spreading“中提出的视表面表象中间层知觉理论这个问题重新组织了一个讨论专题，Nakayama 在讨论中回顾了90年代初的各种视觉理论从Barlow到Marr ，和自己提出这个理论的学术背景，并指出在1992年受Gibson光流的启示，改进了自己的模型，并指出一切工作仍然在在幼年期。讨论中Anderson 指出了自己与这个理论的分歧。

26年后，Gillam，Barton Anderson，J Wade ，HiroshiOno等仍在遮挡问题上做研究工作，坚持至今。

Ken Nakayama 曾经领跑此项研究，依照Marr与Gibson提出过表面表象，但近年来视觉研究他已经主要在研究面孔知觉了。

本文作者王天珍（武汉理工大学）
转载自大数据文摘

智造家

0 推荐

492 浏览

0评论

视觉研究的前世今生（下）

视觉研究

机械自动化类密泰传动系统 2016-12-19 13:30 发表了文章来自相关话题

大数据文摘基于大数据垂直领域50万粉丝的优势
想要发起一次众包的行业调研。
我们诚挚的邀请您用5分钟填写
《大数据行业从业者调研报告》
共同促成整个大数据行业的一次调研

本文作者王天珍（武汉理工大学）
授权转载自人机与认知实验室

作者用一篇近三万字的长文，从古希腊开始，娓娓道来了人类在视觉研究上的前世今生。鉴于一条图文可以推送的字数有限，大数据文摘在本周末分两条推送王天珍老师的这篇长文，与各位共赏，文章的前半部分在大数据文摘同日第一条推送可以看到。

视觉研究的前世今生（四）
[size=16]▼[/size]

§4 视觉研究的信息时代

§4-1 概述

50年代末Bell实验室的B. Julesz设计了随机点立体图对，发现即使没有单眼线索，只要左右眼图像有视差，实体镜下一样能产生深度感。这样引起了立体视觉理论的革命：学术界过去一直以为，只有先识别物体才能产生深度感，现在发现只要有视差，就能在实体镜下恢复深度感，不是先识别后产生立体视觉，而是立体视觉产生在识别之前。这一重大发现使得MIT 人工智能实验室的Marr 和Poggio 等想到，可以利用摄像机获得的两个有视差的图像，测量对应点之间的视差就可以恢复物体和景物的深度，从而重建并识别图像中的物体，完成视觉的任务。Marr依此建立了他的3D重建的计算视觉理论，发表在他的遗作”视觉计算理论“一书中，这本书很快风靡学术界，不但影响了计算机视觉也影响了神经生理学，神经心理学等有关的学科，复杂的视觉过程变成了可以用计算机处理的信息加工过程,视觉研究进入了一个新的时代-信息加工时代，在某种意义上在更高的层次上，重新回到笛卡儿派的数学学说。

但计算机视觉理论界还没有来得及高兴，工程上巨大的计算困难，3D重建表象理论逻辑上的混乱，遮挡问题的心理物理实验研究发现的立体视觉产生不完全依赖视差的结果，神经生理学，解剖学的新发现等问题，一起使得重建理论在新世纪初渐渐退出了学术界的视野，其中90年代国际知名杂志“CVGIP：IMAGE UNDERSTANDING ”组织的两次大的讨论（1991，1994）起了很大的推进作用。但是该理论至今在心理学表象研究中还是有一定影响，计算机视觉中也还有少数人仍然在尝试有没有新的算法来挽救这种理论。

由于Marr把视觉信息加工过程分成了三个阶段，提倡对视觉表像的重视，80-90年代西方学术界掀起了表象研究热。对什么是合适的视觉表像，从心理，生理，病理，计算各个学科全方位的进行了研究。除了Marr外，I biederman ,T. Poggio , S. Edelman , MJ .Tarr ，logothetics等学者，也都加入到对视觉表象的研究中。众多的模型在90年代后期开始被系统的分类，主要按照坐标系来分成两大类：一种以物体为中心，以Marr，I biederman为代表提倡这种模型；另一种以观察者为中心，以logothetics等在电生理一线工作的科学家为主，支持这种理论。

2005年被Marr等嘲笑，批评几十年的祖母细胞有了新的实验证据。在加州理工学院的RQ Quiroga，C Korch和UCLA 的I Fried ，MIT 的G Krieman，一起在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞。如对影星安妮斯登发放的细胞，这些细胞有着概念细胞的功能，不论刺激是该影星的正面，侧面，背面，不论服饰和照明，只要是有关该影星的刺激，该细胞都会放电，这些细胞被视为脑中物体的不变的视表象。

虽然以Barrow为代表的一线工作的不少知名的神经生理学家，几十年用众多实验事实一贯支持祖母细胞说，但因为无法合理解释祖母细胞的工作原理，无法说明单个细胞不会引起组合爆炸问题，尤其因为Marr的批评，祖母细胞说而被长期冷落，但旧的理论完全无法解释现在的发现，Quiroga等的工作使对祖母细胞的研究重新回到了学术界的聚光灯下。

1994年武汉汽车工业大学（武汉理工大学）的王天珍提出了版式并行检索算法（Plate Parallel Retrieval Hypothesis）用在汉字识别上，2001年王在IEEE的神经网络联合大会上提出可以以此算法来解释我们的神经系统是如何用单个细胞在脑中表示一个物体的，利用这种算法完全可以避免组合爆炸问题。

2013年王利用接近联想法则，原则上解释了祖母细胞的信息加工机理,认为
不变的视表象可能是今后视觉研究的工作方向。

§4-2 Julesz 的RDS

Bela Julesz是Bell 实验室的匈牙利籍的计算机工程师，在处理航测数据时，他知道利用立体图对可以从伪装中很容易的发现目标。例如对英国40 年代用飞机和氢气球从两个邻近点拍摄的德国科隆莱茵河浮冰立体图中，可以看到在浮冰中挟带着有趣的深度表面，尤其是在桥的防波柱附近。但是当他读了一些心理学有关立体视觉的文献时，大吃一惊的发现，当时心理学界流行的观点是立体视觉需要先单眼识别。50年代末，刚好Bell 实验室有了大型的计算机，为了证明自己的观察（工程界的常识），他用计算机设计了有视差的随机点立体图对（RDS-random-dot stereogram），这些单眼看起来完全无序的图像到了立体镜下，就出现了设计要求的各式各样的深度图案。证实立体视觉前于识别，甚至能够改变原来的单眼图形。

Julesz的工作震惊了学术界，但是文章的发表很不顺利，他投到美国光学学会会刊的文章被当时光学界的权威K Ogel 否决了。幸运的是他得到了Bell 实验室领导的支持，发在实验室的杂志上。这样一个里程碑似的计算机设计改变了立体视觉理论研究。为视觉研究打开了一扇新的门。

晚年Julesz在谈到自己的工作时，说他之所以能设计RDS，是因为他是一个计算机工程师。他认为RDS的出现是两种文化的冲突，两种语言的交汇（工程和心理学），他不埋怨K Ogel。他说对于一个年轻的科学工作者来说被一个有名的学者作为学术上的对手，比有一个有力的支持者更有益。

RDS很快被生物物理所的郑竺英介绍到到中国来，她与海军总院的的眼科医生彦少明合作，一起把RDS用到立体视觉的检查上，在1985年出版了国内第一本“立体视觉检查图”，成了中国特有的颜氏标准。

§4-3 Marr 的视觉计算理论，3D 重建表象的前因后果

§4-3-1 Marr 的视觉计算理论

RDS的出现引起了立体视觉理论的革命，RDS使人们认识到立体视觉产生在识别之前，只要有视差，不需要单眼形式知觉，就能产生立体感。这一重大发现使得麻省理工大学（MIT）人工智能（AI）实验室的Marr 想到，可以利用摄像机获得的两个有视差的图像，测量对应点之间的视差，就可以恢复物体和景物的深度，从而重建并识别图像中的物体，完成视觉的任务。他提出了模型，对视觉问题进行了理论分析，但他得了白血病，在1980年35岁的英年早逝。他的同事和朋友将他的遗作整理出版，书名为“Vision：A Computational Investigation into the Human Representation and Processing of Visual Information” 翻译成中文名为”视觉计算理论“（1988，译者：姚国正，刘磊，汪云九。）
Marr1945年出生在英国，毕业于剑桥三一学院，本科，硕士主修数学，博士方向是理论神经科学，毕业论文（1969-1971）关于哺乳类的脑功能。他关于小脑，海马的论述，直到30年后依然能为解剖，生理数据检验。1973年他来到MIT 的AI研究所作为访问学者，77年得到心理系的教职，80年成为终生教授。

他的学术背景，使他能用数学方法去研究脑的功能。考虑到视觉研究一直被认为是了解脑功能的突破口，所以从七十年代他开始了对于视觉模型的理论研究。

在视觉计算理论一书中，Marr回顾了从Lattvin的青蛙小虫侦察器，Gross 的手检测器，Barlow的神经元教义，祖母细胞等五十，六十年代生理学的研究，指出七十年代后有关研究报告中断，说明祖母细胞的不足凭信。对图像处理专家A Rosenfeld的经验法也表示了批评。提出要在更高层次，一般的考虑问题。他从信息理论的角度，确定视觉是一种信息处理过程。他认为要对这种过程分析，首先是要了解外部的景物和物体在脑内部是如何被表象（表征，representation）的。（译文在有关表象内容的翻译有些含糊，因此中文的“视觉计算理论”给理工科出身的工程计算方面的研究者带来很多困惑。按照心理学百科全书的解释，表象（征）可以理解为信息在长时记忆中的存贮方式，这样问题就比较清楚了。）

他指出任一个信息处理机需要三个层次的工作：1，计算理论；2，表象和算法；3，硬件实现。他指出了即然视觉是一个信息处理问提，就可以被看作一个信息的表象问题，也是一个如何推导出这种表象的计算问题，和如何执行上述两种任务的计算机体系结构的问题。经过分析他认为视觉的任务就是从图像中得到一个完全确定的形状描述。需要三个表象阶段：（1），二维图形性质的表象，例如光强度的变化。（2）以观察者中心的坐标系中的可见表面性质的表象，其中包括表面朝向，离观察者的距离，以及朝向和距离的不连续性；表面的反射情况，以及对主要照明情况的某种粗略的描述。（3）被观察形状三维结构和组织的以物体为中心的表象，以及在这种坐标系下对物体表面性质的一些描述。

全书的重点在表面性质的表象，被称为2.5维表象。计算的依据是Julesz的RDS 实验结果：只要视差不需要单眼形状识别，就能从随机点立体图对中得到物体的立体视，换言之得到物体各点上的深度。方法就是依据位置略有差别的两幅景物立体图片，找出其中对应物体特征点的视差，用简单几何的计算恢复深度。困难就在于寻找立体图中的对应点，被称为对应性问题。Marr 为此作了一些假设。唯一性，连续性，内极线等并把遮挡存在时双眼不对称区作为噪声抛弃。

这本书站在哲学，心理学一般理论的高度，通过对立体视觉，神经生理学，病理学的实验结果分析入手，拿出具体的计算理论和方法，这对于多年在一线工作，而找不到一个一般理论指导，仅靠经验和试错法计算机视觉界来说，于同甘露，一时人心拯奋，以为不出十年通用的计算机视觉系统就会出现。据上海交通大学图像所的李介谷教授1992年回忆（PR AI 266-271），1984年他在加拿大蒙特里尔召开的国际模式识别会议上，不止一次地听到国外有关人士以兴奋的口气说起：“用不了五年，人们一定可以创造出类比于人类视觉的计算机视觉系统。”

§4-3-2Marr 的视觉计算理论引起的计算机视觉理论之争

但是后来不论是在理论还是在实践方面，3D重建理论所碰到的麻烦是当时完全没有想到的。

1988年，IEEE会刊组织了第一个有关计算机视觉的专题。其中马里南大学自控所的Rosenfeld在介绍计算机视觉的3D 模式时，就专门介绍了Marr的理论，结构框图中专门介绍2.5维表面朝向，不过他将Marr的重建归结于“形状从X”方法类。而 Rosenfeld 的同事Aloimonos就在他的视形状计算一文里，指出Marr的一般理论在实际工程中是无能的，因而在开发实际系统时用形状从X（阴影，纹理，轮廓，运动，立体视）比较现实，提出了主动视觉。但是，Aloimonos的文中还是强调要按照Marr的精神做，可见过了6年，工程学术界已经发现Marr的理论的一些问题，尤其是一线的做识别，导航，避障系统的研究人员，但此时，谁也还没有公开指责这种一般高大全的理论。

在这个专题中，宾州大学计算机系系主任Ruzena Bajcsy系统介绍了主动视觉，将其作为知觉的控制策略和模型。密西根大学电机及计算机系的Q Stout 为了解视觉问题，提出匹配视觉算法到并行结构。另外，图像的并行算法也在此专题的多篇文章里被提出。而Marr 的同事和合作者T Poggio 则解释早期视觉是个病态提出的问题，都是不适定的，需要专门的算法和并行的硬件，他通过研究，引入一种特殊的正则化方法来解这个问题。

1991年一月，吃够了3D重建苦头的计算机视觉界的怨气，在国际知名的杂志“CVGIP：IMAGE UNDERSTANDING”组织的第一次有关计算机视觉理论和实践的讨论中大爆发。实际工作者对当时的理论误导实际研究工作反映强烈。密西根大学电机及计算机系的Ramesh Jain 及斯坦福大学Thomas Binford写了计算机视觉中的“无知，近视及天真”一文批评计算机视觉界既缺少理论也缺少实验，过分重视用形状从X的研究上，认为像路灯下的醉鬼，和皇帝的新衣（因为交叉学科效应，大幅度的跨学科，以至一个领域的专家（计算机）会被另外领域（数学，心理学）的忽悠，发生从众效应，没有重视分割和信息的表象问题的研究。

这次讨论中，马里南大学的Aloimonos和 Rosenfeld大致同意 Jain 及Binford的看法，认为Marr的重建理论对机器视觉系统来说是太高，没有必要。但是，他们为Marr的理论辩解说，理论与实践的脱节是因为计算量太大，太复杂。他们认为计算机视觉的目的是为了研究完成某一任务需要哪些视觉信息，并且如何从图像中获得这些信息，即在复杂场景中运动和识别有关物体，不必要完全恢复客观世界，换言之，需要有目的的定性视觉完成导航和识别。

中国学术界迅速回应了这次讨论，1992年12月“模式识别与人工智能”杂志组织了一个对应的专题，由国内计算机界著名学者发表了一组文章，参加的有宣国荣，李介谷，吴立德，边肇祺等。这组专题认为计算机视觉几十年的工作还是有成积的，出了不少专用系统，如游泳运动员训练系统，漫步机器人，占斧式巡航导弹等。Marr的理论还是应该得到充分肯定，争论是有益的，计算机视觉要更多的面向应用。

但是计算机视觉的问题并没有解决。实际工作者的批评声音越来越大，主动视觉，定性视觉，目的视觉大有取代3D重建理论之势。3D重建理论学派坐不住了，1994年七月由耶鲁大学心理系的Michale Tarr及计算机系的 Michael Black联合在CVGIP：IMAGE UNDERSTANDING发文，捍卫重建学派。引起了计算机视觉理论界第二次大专题讨论（对话），一共十一篇文章，因为关系计算机视觉各流派理论的生死存亡，也是最重要的一次讨论。

第一篇文章是Michale Tarr 和 Michael Black的”对话：在视觉中表象角色的计算与演化展望“(“DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision”)，文中，他们指出目的学派近来一直批评一般视觉的重建理论无成果和不实际，想以强调功能和任务的目的视觉取而代之，但是重建研究是可行的，为理解和模型人类及机器的一般目的视觉提供框架，从演化展望的视觉目的去检验，包括光流的恢复都支持这种假说。一些具体情况下，目的研究可能是合适的，但是它对人类广泛的视任务，就不足了。他们强调要理解视觉，认为视觉问题是反光学问题，本身就是病态提出的，参考和限制本身就是不可避免的，主动视觉是好的，他们也不拒绝目的视觉研究，认为他是视觉研究的一个流派但是更适合说明青蛙的行为，而不是人类，，如果目的视觉是一个一般视觉的限制版，当然更好。

早就憋了一肚子气的目的学派的Aloimonos作了回答。在我学习到什么（What I Have Learned）一文中，他首先尖锐提出，视觉是什么？他说他理解的视觉就是识别过程，是联想，解释，指导，及选择的过程，与重建没有一毛钱的关系。他批评说，Marr认为视觉是一个从给定图像中得出完全精确景物和性质的表象的过程，这是一个一般的建议，而一般只存在在理论中。而人的视觉是生物视觉的特例，而按蜜蜂视觉研究专家Horridge 的观点，人和蜜蜂在视觉控制行为中没有什么不同，人类不计算光流。光流方程中，一个方程两个未知数。不加附加限制根本不可解。视觉有目的，目的就是行动。目的，定性，主动三位一体，一个回答作什么，第二怎么做，第三怎么获得数据。

13篇论文中，最有意义的是Simon Edelman 的，他提出了解决的方案：没有重建的表象。
他首先指出，从哲学上来说，重建的表象可以追索到Aristotle，Hume，及Berkeley，他们认为景物的表象是能够适应任何视觉任务的被表示物体的几何复制。他批评说，重建的表象，从实用主义的角度来说，是一种可怜的选择，理由有三个：第一，实际工程的计算说明从没有任何限制的真实数据中恢复简直是不可能的；其次，即使可以计算，也没有必要；第三重建的景物只有白痴才能理解。然后他给出了解决的办法，他从洛克的“人类理解论”中找到了灵感。洛克在智力表象的语义问题部分建议，一个概念能够表象（示）一个物体，不需要像Aristotle提出的在任何意义上类似该物，只要他能被该物自然可预测的激发就行。

他介绍用微电极作的电生理实验发现猴MT （ Middel temporal，中颞）细胞对视域中特定物体发放。而近年D Perrett等在灵长类IT（inferotemporal cortex）上再次发现能对面孔发放的面孔诊察细胞指出面孔可能是被表征在IT。

他最后提出可以在Gibson 的直接知觉和Marr的重建表象中间找一个合适的位置。由没有重建的表象在视觉理论中起关键作用。在Brook 极端的没有表象的目的视觉，和Marr没有目的的重建法式间作一个调和。

整个讨论专题以主流的重建学派接纳目的学派为结束。

这是从80年代来计算机视觉学术界针对主流理论最强的一次论战。他以目的学派挑战重建理论开始，从理论上找出了重建理论的致命点-重建，结束了重建理论一统天下的局面。
让人不解的是，国内这次迟迟没有回应。国外这次讨论两年后，大约是96年，当笔者在华科大图像所的资料室CVGIP杂志上看到这一组讨论，在全国杂志上搜，都没有找到相关的报道。不得已，花了差不多一年时间消化这一组广泛涉及哲学，心理学，神经生理学，神经病理学，数学，计算机，通信，自动化的论文专题，写了有关的综述。开始还找不到地方发，某国内一级学报，回答说他们不搞理论，欢迎算法，软件和系统的研究。只到了98，99年有关的综述才开始得以在学校（武汉汽车工业大学，现武汉理工大学）的学报以及‘模式识别和人工智能’，“信息与控制”上发表。国内学术界回避对主流理论的批评和讨论可见一斑。

Simon Edelman在2001年在为社会及行为学的国际百科全书介绍Marr的生平时说，对Marr的引证的比对他理解的多，他对理论神经生理学的影响比人们估计的更大。他的在神经生物学的主流杂志上被作为脑计算理论的创始人。Marr的学派曾经坚持特殊的视觉计算理论，认为执行视觉任务需要在系统内重建一个内部模型。现在的研究者使用在70年代还没有出现的技术和概念作研究，大量神经生物学和行为学的新发现的积累，提供了新的理论出现的基础，说明视觉并不要求几何重建。

Marr的重建表象的实验基础来源于Julesz用RDS作的立体视觉实验，RDS实验说明不需要单眼形体知觉，只要有视差，就能引起深度感。Marr正是依据这一点，用立体几何的方法推出根据立体图对两幅图中对应点的视差计算该点深度的，这个方法的关键就是要从立体图对中找到同一实际点的对应点，称为对应性问题，是重建理论工程实现的中最关键问题。也就是说，Marr的表象之所以是原物的重建（复制），不仅是因为Aristotle的哲学和70-80年代计算机图论的影响，而且是因为有Julesz用RDS作的立体视觉实验，有从初看起来有可能实现的计算基础。

但这一个基础被80年代末以来关于遮挡问题的研究几乎完全否定了。1，在Marr的理论中被当作噪声抛弃的单眼区，经过一代人的心理物理实验的证实是产生深度感的最重要原因，是不能被抛弃的，视差连续性条件不能满足。2，加拿大约克大学的Hiroshi Ono 和他的同事们用实验定量的测量了双眼融合时遮挡物体和背景的变化，得出了双眼融合时，由于遮挡图像的线索，视阈的一部分位移和压缩完成融合。武汉理工的王天珍提出了双眼融合时的视动反馈模型，不但将解剖上发现的两个视系统有机联合起来，也合理解释了遮挡存在时双眼融合产生立体视，竞争，或者引发复视的原因。这样Marr约束性条件中的唯一性也就不存在了；3，多伦多大学及约克大学生理学家用RDS实验发现（2003，Strabismus，11，1，9-16）脑搜索匹配图像在整个2D网膜区，而不是沿着内极线，这样Marr的信徒们提出的内极线假说也没有了实验依据。

2002年的欧洲视知觉会议（ECVP‘02），举办了一个关于Marr的理论的专题讨论：标题为“MARR‘S VISION-20 YEARS AFTER”，S Ullman 作了一个回顾，他说Marr的观念，在80年代是领先的，90年代已经被2 D直接研究替代，但是他定义视觉研究的三个层次，但在一些特殊领域的经典工作仍然是有意义的。

从2002年到现在，又是10 多年过去，视觉机理的研究依然还在路上，但是Marr的3D重建理论虽然已经淡出了，但是他提倡的，不能就事论事，要用表象来一般性地研究视问题，却大大推动了视觉理论研究。

§4-4 视觉表象研究

§4-4-1概述

Marr在视觉计算一书中强调，视觉研究不能老是就事论事凭经验，用胡凑法解具体问题，需要高端大气上档次，要探索一般视觉的规律，要研究物体如何在视系统中被表象，虽然他的重建表现已经渐渐淡出，但是他提倡对视觉表象研究的重视，却被视觉理论界广泛接受。

从80年代以来，不少学者对于视觉表象进行了深入的研究，著名的研究者除了Marr以外，还有Irving Biederman，Michael Tarr，NK Logothtis，T Poggio，Shimon Edelman等。通过系统的研究，学者们对什么是视觉表象，已经有了哪些模型，怎么分类，在90年代逐渐清楚起来。表象模型的分类主要是是按视觉表象坐标中心的选取来分（DI Perrett）。按此标准，表象理论分为两大类，一类是物体中心（又称为视图不变，视图独立）模型，代表人物是Marr和 Biederman。模型大部分是80年代或者更早一些时候提出，因为受CAD（计算机辅助设计，Computer Aided Design ）及计算机图论（Computer Graphics）的影响认为视觉表象（视觉系统中存贮的物体信息）是物体和景物的复制，或者是有关标准基元的组合关系。最著名的是Marr的3D重建表象和Biederman用基元识别理论（RBC-Recognition by Components）。

Marr的3D重建表象没有得到心理物理的实验结果支持（S Edelman，1994）；基于视差的计算又被遮挡问题的研究所挑战；计算机视觉的实践也不支持，现在渐渐被淡忘。但是Biederman的识别被基元理论由于得到他本人和其他学者心理物理实验部分结果的支持，还有市场，Biederman本人也还在坚持这方面的工作。

另一种表象模型的坐标系建立在观察者处，称为观察者中心表象（视图特定），也称为视图相关模型，这样的模型，将从每一个特殊角度看到的某个物体的不同图像作为不同物体看待，从理论上讲，要求系统的内存是个天文数字，改进的办法是用几个特殊的特征视图用插值法作为计算模型的基础。这部分模型的支持者不少是从事实际实验研究的的神经生理学家，如DI Perrett，NK Logothetis，对3D重建模型持批评和改进态度的Edelman，T Poggio 也在其中。

§4-4-2物体中心模型

因为学术界认为物体识别就是比较感官输入信息与物体内部信息的过程，内部的表象应该能够说明一个物体的恒常性，能从改变的2D网膜图像中抽取不变的3D 结构。但是观察者中心理论将物体的每一个投射到网膜上的2D图像作为一个新的不同物体，使得存储量达到天文数字，克服这个缺点的办法就是用物体中心理论，物体中心模型系统的坐标不是以观察者为参考系的，而是以物体本身作为长轴。

视觉的物体中心模型来源于一个共同的假设，认为视系统中存储的世界的表象就是物体的几何复制。主要的流派是Marr的3D重建模型和Biederman的RBC。Marr的3D重建表象前面已经介绍的很多了，这里主要简单介绍Biederman的基元识别理论（RBC-Recognition by Components）。

这个理论又称为基元结构描述理论（GSD-Geon-Structural-Descriptions）。基元结构描述理论假设人类的视系统，是用原始的称为基元（geons）的体积基元间的结构关系来表示基本层的物体类的。它的关键特点是，同样物体被推出的表象就与观察点无关，只要是出现在图像中知觉特征有同样的构造。因此单个物体的表象必须包括几个特征或者质的视图，每一个组成一个不同的GSD，每一个的观察点仅仅为着一个有限范围的观察点。
2007年MJ Tarr 在心理学进展（Annu. Rev. Psychol. 58：75-96）杂志上回顾从80年代来视物体识别的进展，评价Marr的模型，说他提不出实验支持，但是Biederman的RBC 因为作了实质性的改进，得到自己和其他人的心理实验支持。但是作为一个80年代基本层可行的识别模型，仅仅解释观察者如何识别基本层的物体，但无法应用到一般物体识别方面，还是不能适应时代的进步。

Biederman本人一直到2014年还有文章和书出版，还在坚持自己的基元结构描述理论（GSD），认为神经生理学在猴的IT （inferior temporal cortex ）和FMRI决定的人的LOC（lateral occipital complex）缺损，细胞表示的高度不变性都支持他的理论。

§4-4-3观察者中心模型

观察者中心表象理论考虑3D物体作为该物体2D 视图的集合。心理物理和神经生理学的实验结果基本都支持这种理论。观察者中心理论编码依赖观察者相对被识别物体的位置，观察者中心描述物体是从物体被看见的特殊观察点着眼的，因此观察者中心表象需要能从各个不同的透视图识别物体。这样的编码提出了一个问题，一个物体不同的视图可能被当作不同的物体存储，为了识别需要的2D视图就将是一个天文数字。NK Logothtis等通过大量心理物理和电生理实验，发现动物和人识别的能力（误差率和反映时）是物体网膜投影的函数，即与新视图偏离熟悉视图的角度有明显的函数关系。解决的办法是找一些分开一定角度的基本视图作为框架，利用数学插值法构建模型。NK Logothtis，T Poggio，Michael Tarr，等都是支持者。

§4-5 祖母细胞-不变的视表象

近代科学史上几乎没有任何概念，像“祖母细胞”一样在理论上，受到如此长期的谩骂攻击，但它反映的现象又被如此多的实验神经生理学家反复用实验证实，引起一场长达40多年的祖母细胞之争，延续至今，没有定论。

一切可以追溯到1947年加拿大脑外科医生Penfield 的报告，他在报告中说他在1938年治疗癫痫病人时发现，患者过去的视听经验能被手术电极激活。此后刺激皮层时会引起过去视听经验的现象多次发生，到了60年代，已经能定位在颞叶皮层。从那时起神经外科医生，神经生理学家就注意上了颞叶，知道那儿的细胞有着特殊的再现视场景的功能。
1967年经历过二战，且有过在军队里处理大量头部负伤病人经验的波兰条件反射学派的神经心理，生理学家，Jerzy Konorski 写了“脑的整合活动”一书，书中他推测脑中一些特殊的部位存在一些细胞，单个神经元能对复杂的视刺激，如：脸，手，感情表示，活动物体，地点敏感，他称之为灵性细胞（gnostic），并指出了它们分布的区域，例如，面孔区就在腹颞皮层（ventral temporal cortex）空间域在后顶皮层（posterior parietal cortex），这都为后来的行为实验和电生理实验证实。

1969年MIT的神经生理学家Jerry Lettvin 在“知觉及知识的生物学基础”课堂上为了调动学生的兴趣，即兴根据有关灵性细胞的研究编了一个“母亲细胞“的故事，故事里的母亲细胞有这样的特点：第一，它们分布在脑中一定部位；第二，数量大约18000多；第三，它们只对特定的事物母亲发放，切不论显示的图像中母亲的发型，衣着，场合，照明，是正面还是侧面，这些细胞不仅对母亲的图像发放，对母亲的声音，名字也发放，有语义功能，像概念。故事中主人公脑中的母亲细胞都被切掉，因此，他失去了母亲的概念，故事中的神经外科专家只能研究祖母细胞了。

这个小品立即引起年轻学生极大兴趣，故事不胫而走，“祖母细胞”很快风靡了神经生理学界，就连大名鼎鼎的英国皇家学会会员Barlow 也是这个故事的粉丝，在他的“知觉心理的神经元教义”一文中直接引用了“祖母细胞”这个概念。

其实在“祖母细胞”流行之前，就已经有不少科学家发现猴的IT 细胞对一些特定视物体发放。

科学发现的路艰辛又漫长，不象一些人看见的在斯德哥尔陌领奖会上的荣耀。根据CG Gross 2007年的回顾，从65年开始，他们研究团队就发现在猴的IT 部位，一些细胞对面孔敏感，手脸检测器也相继被戏剧性地发现。他们的发现最开始登载在“科学”（1969）和“神经生理”（1972）杂志上，但是很长时间无人再理会他们，直到12年后DI Perrett 开始报告IT的面孔选择细胞。

虽然年轻学生，和一线有关神经科学家们（生理学家，神经工程师，外科专家）对祖母细胞偏爱有加，但是反对的声音立刻出现。除了前面提过的计算视觉理论界的泰斗Marr 的嘲笑和批评，PDP（并行分布式处理-parallel distributed processing）理论的创始人McClelland，及其他一些心理学，神经生理学的理论界人士也纷纷著文反对祖母细胞说。祖母细胞的问题在于它的信息加工机制是不明确的，反对之声到了LH Finkel能在与Barlow为了书评争论时，公开指责他相信臭名昭著的祖母细胞（nature 1988），大名鼎鼎的Barlow只能举出Gross，Perrett Roll等同事的实验工作来回击。正如1973年Colin Blackmore 说的这一争论已经变为一场旷日持久的所谓祖母细胞问题之争。

一边是一线工作的神经科学家，另一边是一些所谓的理论学家，这一争论持续了40多年，其间FMRI技术使用给了科学家们很大的帮助，神经生理学，神经解剖学，神经病理学有了长足的发展。两条视通道的假说（what，where）被证实。但是这并不能说服祖母细胞的反对者。

到了2005年，Nature刊登了加州理工的RQ Quiroga，C Korch和UCLA 的I Fried ，MIT 的G Krieman的文章，报道他们如何在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞，如对影星安妮斯登，对总统克林顿，对悉尼大剧院发放的细胞。这些细胞有着概念细胞的功能，不论刺激是该影星的正面，侧面，背面，不论服饰和照明，甚至是有该影星名字的图片，只要是呈现有关该影星的视刺激，该患者的某些IT细胞就会放电。这些细胞和Lettvin故事中的祖母细胞完全一致，视图不变，且有语义功能。但是就是发现这个现象的Quiroga也不敢称这些细胞是祖母细胞。这些细胞被称为“脑中视物体的不变的视表象。Charles Connor 在评论这个研究时，说没人愿意被说成相信臭名昭著的祖母细胞，但是现在事实摆在这儿，大家不得不改变看法，但是祖母细胞只是一种稀疏编码的极限，从实验结果看来这些细胞不是关于视表象的，不是视结构的几何变换，不是编码基于视觉表观的记忆，而是编码基于概念的记忆。但是他质疑个别细胞层次能够形成这样的抽象的，记忆基于的表象。

2009年Bristol 大学实验心理系的Jeffrey Bowers，在心理学回顾杂志上发文顶祖母细胞，认为祖母细胞所反映的局域模型在生物上是可行的，引起了新一轮的论战。参加的不但有神经网络的创始人之一的McClelland，还有Quiroga和他的团队。这样正常的学术争论反映一个问题，祖母细胞的信息加工机理是不清楚的，祖母细胞到底是怎样表象一个外部物体的。

王天珍在2001年IEEE的国际神经网络大会上发文，根据她对视频图像的研究，提出了一个模型，解释祖母细胞是如何形成的。她首先根据对视频流的心理物理实验（口头报告法）提出物体在脑中表象的形成遵循两个法则：一个是时空连续性法则；另一个是多感官接近联想法则。通过这两个法则就能把同一个物体不同条件下的图形以至声音文字联系起来。其次，她根据她在90年代初为汉字识别提出的版式并行检索法解决了多幅图像存贮检索时天量存贮量的问题。04年她的研究小组又做了视频跟踪研究，解决了视频流中人物确定的问题，从原则上解释了祖母细胞是如何形成的。06年根据对遮挡问题的研究，她提出了视动反馈模型，将脑中两个视通道联系起来。从神经生理和神经解剖的角度解释了祖母细胞的信息加工的具体路径。

视觉研究的前世今生（五）
[size=16]▼[/size]

§5 视觉研究在中国

§5-1中国古时侯的视觉研究

中国有史以来最早的视觉研究可以追朔到孔子。先秦郑国人列御寇（公元前450-公元前375年）著“列子”，其中“列子汤问”记载孔子东游时，看见两个小孩争辩，是中午还是早上太阳离人近？”一个说：我认为太阳刚升的时候离人近，因为像伞盖一样大，而中午远，因为看起来只有盘子大。另一个说：不对，太阳刚升时天很凉，到了中午像煮开了锅一样热。所以中午近，孔子不能回答。“这个故事不仅非常有哲理，而且在自然科学研究方面也含义深长。前面一个小孩说的有关距离知觉，至今，就是一些专家也不能回答的很周全。后一个不仅关于视觉，更主要涉及天文，气象，地理，也是个大问题。孔子专攻人际关系，社会学，不能回答很自然。但说明春秋时期，学者对视觉的思考和研究就很深入了，不会比希腊差。但是汉武帝罢黜百家独尊儒术，使得中国的自然科学研究包括视觉研究落后了。但是有关应用方面还是有不少亮点，比如眼镜的发明，一般科学史上都提到意大利，但是依据北宋沈栝（1031-1095）的梦溪笔谈，可知那时就对凸凹镜成像原理解释得很清楚，而且1260年马可波罗游记中描叙了中国老人戴着眼镜看小字的景象，因此也有人认为眼镜是从中国传到欧洲的。

§5-2中国近现代视觉研究

满清末年西学东渐，柏克莱的“视觉新论“也在1934年被关文运教授翻译出来，在1935年由商务印书馆出版，我个人认为这算是现代视觉研究在中国的开始。该书在57年由于批判的需要被再版，至今没有新的译本出现。该书的出版使中国学生知道了距离知觉研究的过往，了解了距离知觉产生的原因。对中国现代知觉心理学有影响。

后来战事连连，直到解放后，科学院建立，视觉研究才由贝时璋主持的生物物理所和潘菽主持的心理所从新开始。

贝时璋不但是科学大家也是战略科学家，他高瞻远瞩主要表现在两个方面：1，生物物理所成立时人员的选用：所成立时录用人员不拘于生物学科，使得大量不同学科的人员（物理，数学，自动化，计算机）能在同一个研究机构工作，有利于新发明，新思想产生；2，生物物理所建立时选址：生物物理所选址与心理所相邻。我去时，两所不仅相邻，而且从一所的草坪就可以直达另一所，一所的研究人员散步思考问题时就可能和另一所的研究人员交流，53年院系调整后理工科的学生不懂文科的缺陷，看来就由地理位置的优势得到了改善，生物物理本来就是交叉学科，再与心理学研究接邻，不同学科思想碰撞出成果的可能就更大，现在看来正是一步高棋。生物物理所的视觉研究组就是在这样的背景下，79年由原来由贝时璋院士亲自抓的理论组（59年，生物控制论组，仿生组）基础上成立，组长为郑竺英教授。当时正是世界上视觉研究热，经过文革的洗礼，重新成立的理论组的方向就定义为视觉研究。

郑竺英是中国名教育家郑晓沧的女儿，贝时璋的关门弟子，浙大1950年生物系毕业。中国的视觉研究能有今天的水平，她功不可没。中国有句成语，“海纳百川，有容乃大，壁立千仞，无欲则刚”。用这句话来形容郑竺英教授是很合适的。

1959年她担任生物物理所理论组组长，当时的目标是生物控制论，但由于时局的缘故很快改名为仿生室，下分生物原形组，数学模拟组，电子模型组。进了很多年轻人，78年后改为视觉的信息加工研究室，她担任室主任，目标视觉信息加工，最多时下设十个课题组，由于她心胸豁达，业务精湛，外语好又善于协调人际关系，能够调动各方面的力量，该室成绩斐然：

1，姚国政，刘磊，汪云九翻译了Marr 的“视觉计算理论”引领了中国计算机视觉研究；
2，郑竺英从80年代开始不仅将Julesz的RDS引入国内，引导了国内立体视觉的研究，而且与海军总医院的颜少明医生合作提出了立体视觉的颜氏检测标准；
3王书荣鸟类峡核研究，刁云程猫视皮层细胞方向研究，郭爱克关于果蝇的研究都走在当时国内的前沿。
4，吴新年关于遮挡问题的研究，吴新年研究遮挡问题时，已经退休了，副研究员。

为了把Gillam 等关于遮挡问题的研究介绍进国内，他以汪与九的名义带博士生，填补了国内这方面研究的空缺，敬业和追求真理的精神令人敬佩，后来接着他对遮挡问题研究的有王天珍和中南民族大学生医所的杨仲乐。

郑竺英老师除了引领了生物物理所的视觉研究，也指导了浙江大学的视觉研究，王天珍后来在遮挡问题上的研究，也是因为她的指引。

视觉研究小组后来由郭爱克，刁云程负责，郭后来到上海神经所，刁生病后，视觉研究室也就慢慢地取消了，代以脑与认知研究国家实验室，负责人是陈霖院士，他因80年代坚持整体识别而著名。脑与认知研究国家实验室主要以FMRI 为实验手段研究人类的认知功能，包括视觉，其中用FMRI对成千中老年人的海马随年龄萎缩的概率统计研究，对汉字识别时脑区活动情况的研究都在国内外领先。但是现在国外对FMRI研究也有不同看法认为分辨率太低，无法精准说明视觉信息到底是如何加工的。

心理所的荆其诚教授从60年代就研究年代就研究距离知觉，研究双眼辐合，87年出版了专著“人类的视觉”。对视觉研究在中国的发展起了推动作用。

80年代心理所在汉字识别方面作了不少工作，汉字是表意文字，形音义结合，和拼音文字的学习机理不同，它的视知觉研究很有意义，当时有个俞柏林研究员作了很多研究工作，很有意思但英年早逝，非常可惜。

北京大学心理系的系主任沈政教授养了一群猴子，用微电极实验研究IT上细胞对图形的反映，实验结果猴子的颞叶细胞对熟悉的研究员和饲养员放电。在国内一直领先。但不知他退休后工作是否还能继续？

华东师范大学的郭可敬在汉字认知的信息处理方面做了很多工作。让学术界知道汉字认知和拼音文字不同，反映视觉和听觉加工脑机制的不同。

在南方引领视觉研究的是复旦的生命科学院，院长寿天德教授，学术渊博，治学严谨，他原来在中国科技大学工作，后来调来复旦，研究猫关键期的视剥夺对猫的皮层脑细胞功能的影响，是中国第一本神经生理学的作者，影响很大，很多从事视觉研究的博士说，我们是读着寿老师的书入门的。著有“视觉信息处理的脑机制”等专著。

计算机视觉国内影响比较大的是自动化所的马颂德老师。

另外军事医学科学院的徐广第教授，64年发明的双眼合像视标解决了飞行员的高空近视，著有‘眼科屈光学“一书。

而温州医学院视光学院的王光霁主编的“双眼视觉学“填补了这方面的空白。

跋
[size=16]▼[/size]

总的来说，改革开放后，视觉研究突飞猛进，但是第一流的研究并不多。自己的感受，国外对于学术争论很开放，你再有名，别人不同意你的观点，只要言之有理有椐，就可以批评，就像CVGID 90年代组织的两次大论战，言辞的尖锐，在国内是不可想象的。

但是国内学术界的内耗也是外界不能理解的。有的人担任行政职务时间比较长，得罪了人，研究做得再好，院士就是上不去。有的人开始共事不错，后来为了一些事，硬是把另外人排出单位去。这二十年就更厉害，胜者为王，当了领导，人家的成绩都是他的，通吃。现在的院士有几个不是先当官后当院士。如此下去怎么能有一流的成绩出来呢？老的大师不提，现在只要多几个郑竺英，寿天德，学术研究就会更有成绩。

总算在年前赶完了，就是它了，30年的工作基本在这儿，我尽力了。不足错误肯定有，输入文字和标点符号更不用提，现在顾不得这些，先拿出来，是驴子是马先溜一溜。查看全部

大数据文摘基于大数据垂直领域50万粉丝的优势
想要发起一次众包的行业调研。
我们诚挚的邀请您用5分钟填写
《大数据行业从业者调研报告》
共同促成整个大数据行业的一次调研

本文作者王天珍（武汉理工大学）
授权转载自人机与认知实验室

作者用一篇近三万字的长文，从古希腊开始，娓娓道来了人类在视觉研究上的前世今生。鉴于一条图文可以推送的字数有限，大数据文摘在本周末分两条推送王天珍老师的这篇长文，与各位共赏，文章的前半部分在大数据文摘同日第一条推送可以看到。

视觉研究的前世今生（四）
[size=16]▼[/size]

§4 视觉研究的信息时代

§4-1 概述

50年代末Bell实验室的B. Julesz设计了随机点立体图对，发现即使没有单眼线索，只要左右眼图像有视差，实体镜下一样能产生深度感。这样引起了立体视觉理论的革命：学术界过去一直以为，只有先识别物体才能产生深度感，现在发现只要有视差，就能在实体镜下恢复深度感，不是先识别后产生立体视觉，而是立体视觉产生在识别之前。这一重大发现使得MIT 人工智能实验室的Marr 和Poggio 等想到，可以利用摄像机获得的两个有视差的图像，测量对应点之间的视差就可以恢复物体和景物的深度，从而重建并识别图像中的物体，完成视觉的任务。Marr依此建立了他的3D重建的计算视觉理论，发表在他的遗作”视觉计算理论“一书中，这本书很快风靡学术界，不但影响了计算机视觉也影响了神经生理学，神经心理学等有关的学科，复杂的视觉过程变成了可以用计算机处理的信息加工过程,视觉研究进入了一个新的时代-信息加工时代，在某种意义上在更高的层次上，重新回到笛卡儿派的数学学说。

但计算机视觉理论界还没有来得及高兴，工程上巨大的计算困难，3D重建表象理论逻辑上的混乱，遮挡问题的心理物理实验研究发现的立体视觉产生不完全依赖视差的结果，神经生理学，解剖学的新发现等问题，一起使得重建理论在新世纪初渐渐退出了学术界的视野，其中90年代国际知名杂志“CVGIP：IMAGE UNDERSTANDING ”组织的两次大的讨论（1991，1994）起了很大的推进作用。但是该理论至今在心理学表象研究中还是有一定影响，计算机视觉中也还有少数人仍然在尝试有没有新的算法来挽救这种理论。

由于Marr把视觉信息加工过程分成了三个阶段，提倡对视觉表像的重视，80-90年代西方学术界掀起了表象研究热。对什么是合适的视觉表像，从心理，生理，病理，计算各个学科全方位的进行了研究。除了Marr外，I biederman ,T. Poggio , S. Edelman , MJ .Tarr ，logothetics等学者，也都加入到对视觉表象的研究中。众多的模型在90年代后期开始被系统的分类，主要按照坐标系来分成两大类：一种以物体为中心，以Marr，I biederman为代表提倡这种模型；另一种以观察者为中心，以logothetics等在电生理一线工作的科学家为主，支持这种理论。

2005年被Marr等嘲笑，批评几十年的祖母细胞有了新的实验证据。在加州理工学院的RQ Quiroga，C Korch和UCLA 的I Fried ，MIT 的G Krieman，一起在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞。如对影星安妮斯登发放的细胞，这些细胞有着概念细胞的功能，不论刺激是该影星的正面，侧面，背面，不论服饰和照明，只要是有关该影星的刺激，该细胞都会放电，这些细胞被视为脑中物体的不变的视表象。

虽然以Barrow为代表的一线工作的不少知名的神经生理学家，几十年用众多实验事实一贯支持祖母细胞说，但因为无法合理解释祖母细胞的工作原理，无法说明单个细胞不会引起组合爆炸问题，尤其因为Marr的批评，祖母细胞说而被长期冷落，但旧的理论完全无法解释现在的发现，Quiroga等的工作使对祖母细胞的研究重新回到了学术界的聚光灯下。

1994年武汉汽车工业大学（武汉理工大学）的王天珍提出了版式并行检索算法（Plate Parallel Retrieval Hypothesis）用在汉字识别上，2001年王在IEEE的神经网络联合大会上提出可以以此算法来解释我们的神经系统是如何用单个细胞在脑中表示一个物体的，利用这种算法完全可以避免组合爆炸问题。

2013年王利用接近联想法则，原则上解释了祖母细胞的信息加工机理,认为
不变的视表象可能是今后视觉研究的工作方向。

§4-2 Julesz 的RDS

Bela Julesz是Bell 实验室的匈牙利籍的计算机工程师，在处理航测数据时，他知道利用立体图对可以从伪装中很容易的发现目标。例如对英国40 年代用飞机和氢气球从两个邻近点拍摄的德国科隆莱茵河浮冰立体图中，可以看到在浮冰中挟带着有趣的深度表面，尤其是在桥的防波柱附近。但是当他读了一些心理学有关立体视觉的文献时，大吃一惊的发现，当时心理学界流行的观点是立体视觉需要先单眼识别。50年代末，刚好Bell 实验室有了大型的计算机，为了证明自己的观察（工程界的常识），他用计算机设计了有视差的随机点立体图对（RDS-random-dot stereogram），这些单眼看起来完全无序的图像到了立体镜下，就出现了设计要求的各式各样的深度图案。证实立体视觉前于识别，甚至能够改变原来的单眼图形。

Julesz的工作震惊了学术界，但是文章的发表很不顺利，他投到美国光学学会会刊的文章被当时光学界的权威K Ogel 否决了。幸运的是他得到了Bell 实验室领导的支持，发在实验室的杂志上。这样一个里程碑似的计算机设计改变了立体视觉理论研究。为视觉研究打开了一扇新的门。

晚年Julesz在谈到自己的工作时，说他之所以能设计RDS，是因为他是一个计算机工程师。他认为RDS的出现是两种文化的冲突，两种语言的交汇（工程和心理学），他不埋怨K Ogel。他说对于一个年轻的科学工作者来说被一个有名的学者作为学术上的对手，比有一个有力的支持者更有益。

RDS很快被生物物理所的郑竺英介绍到到中国来，她与海军总院的的眼科医生彦少明合作，一起把RDS用到立体视觉的检查上，在1985年出版了国内第一本“立体视觉检查图”，成了中国特有的颜氏标准。

§4-3 Marr 的视觉计算理论，3D 重建表象的前因后果

§4-3-1 Marr 的视觉计算理论

RDS的出现引起了立体视觉理论的革命，RDS使人们认识到立体视觉产生在识别之前，只要有视差，不需要单眼形式知觉，就能产生立体感。这一重大发现使得麻省理工大学（MIT）人工智能（AI）实验室的Marr 想到，可以利用摄像机获得的两个有视差的图像，测量对应点之间的视差，就可以恢复物体和景物的深度，从而重建并识别图像中的物体，完成视觉的任务。他提出了模型，对视觉问题进行了理论分析，但他得了白血病，在1980年35岁的英年早逝。他的同事和朋友将他的遗作整理出版，书名为“Vision：A Computational Investigation into the Human Representation and Processing of Visual Information” 翻译成中文名为”视觉计算理论“（1988，译者：姚国正，刘磊，汪云九。）
Marr1945年出生在英国，毕业于剑桥三一学院，本科，硕士主修数学，博士方向是理论神经科学，毕业论文（1969-1971）关于哺乳类的脑功能。他关于小脑，海马的论述，直到30年后依然能为解剖，生理数据检验。1973年他来到MIT 的AI研究所作为访问学者，77年得到心理系的教职，80年成为终生教授。

他的学术背景，使他能用数学方法去研究脑的功能。考虑到视觉研究一直被认为是了解脑功能的突破口，所以从七十年代他开始了对于视觉模型的理论研究。

在视觉计算理论一书中，Marr回顾了从Lattvin的青蛙小虫侦察器，Gross 的手检测器，Barlow的神经元教义，祖母细胞等五十，六十年代生理学的研究，指出七十年代后有关研究报告中断，说明祖母细胞的不足凭信。对图像处理专家A Rosenfeld的经验法也表示了批评。提出要在更高层次，一般的考虑问题。他从信息理论的角度，确定视觉是一种信息处理过程。他认为要对这种过程分析，首先是要了解外部的景物和物体在脑内部是如何被表象（表征，representation）的。（译文在有关表象内容的翻译有些含糊，因此中文的“视觉计算理论”给理工科出身的工程计算方面的研究者带来很多困惑。按照心理学百科全书的解释，表象（征）可以理解为信息在长时记忆中的存贮方式，这样问题就比较清楚了。）

他指出任一个信息处理机需要三个层次的工作：1，计算理论；2，表象和算法；3，硬件实现。他指出了即然视觉是一个信息处理问提，就可以被看作一个信息的表象问题，也是一个如何推导出这种表象的计算问题，和如何执行上述两种任务的计算机体系结构的问题。经过分析他认为视觉的任务就是从图像中得到一个完全确定的形状描述。需要三个表象阶段：（1），二维图形性质的表象，例如光强度的变化。（2）以观察者中心的坐标系中的可见表面性质的表象，其中包括表面朝向，离观察者的距离，以及朝向和距离的不连续性；表面的反射情况，以及对主要照明情况的某种粗略的描述。（3）被观察形状三维结构和组织的以物体为中心的表象，以及在这种坐标系下对物体表面性质的一些描述。

全书的重点在表面性质的表象，被称为2.5维表象。计算的依据是Julesz的RDS 实验结果：只要视差不需要单眼形状识别，就能从随机点立体图对中得到物体的立体视，换言之得到物体各点上的深度。方法就是依据位置略有差别的两幅景物立体图片，找出其中对应物体特征点的视差，用简单几何的计算恢复深度。困难就在于寻找立体图中的对应点，被称为对应性问题。Marr 为此作了一些假设。唯一性，连续性，内极线等并把遮挡存在时双眼不对称区作为噪声抛弃。

这本书站在哲学，心理学一般理论的高度，通过对立体视觉，神经生理学，病理学的实验结果分析入手，拿出具体的计算理论和方法，这对于多年在一线工作，而找不到一个一般理论指导，仅靠经验和试错法计算机视觉界来说，于同甘露，一时人心拯奋，以为不出十年通用的计算机视觉系统就会出现。据上海交通大学图像所的李介谷教授1992年回忆（PR AI 266-271），1984年他在加拿大蒙特里尔召开的国际模式识别会议上，不止一次地听到国外有关人士以兴奋的口气说起：“用不了五年，人们一定可以创造出类比于人类视觉的计算机视觉系统。”

§4-3-2Marr 的视觉计算理论引起的计算机视觉理论之争

但是后来不论是在理论还是在实践方面，3D重建理论所碰到的麻烦是当时完全没有想到的。

1988年，IEEE会刊组织了第一个有关计算机视觉的专题。其中马里南大学自控所的Rosenfeld在介绍计算机视觉的3D 模式时，就专门介绍了Marr的理论，结构框图中专门介绍2.5维表面朝向，不过他将Marr的重建归结于“形状从X”方法类。而 Rosenfeld 的同事Aloimonos就在他的视形状计算一文里，指出Marr的一般理论在实际工程中是无能的，因而在开发实际系统时用形状从X（阴影，纹理，轮廓，运动，立体视）比较现实，提出了主动视觉。但是，Aloimonos的文中还是强调要按照Marr的精神做，可见过了6年，工程学术界已经发现Marr的理论的一些问题，尤其是一线的做识别，导航，避障系统的研究人员，但此时，谁也还没有公开指责这种一般高大全的理论。

在这个专题中，宾州大学计算机系系主任Ruzena Bajcsy系统介绍了主动视觉，将其作为知觉的控制策略和模型。密西根大学电机及计算机系的Q Stout 为了解视觉问题，提出匹配视觉算法到并行结构。另外，图像的并行算法也在此专题的多篇文章里被提出。而Marr 的同事和合作者T Poggio 则解释早期视觉是个病态提出的问题，都是不适定的，需要专门的算法和并行的硬件，他通过研究，引入一种特殊的正则化方法来解这个问题。

1991年一月，吃够了3D重建苦头的计算机视觉界的怨气，在国际知名的杂志“CVGIP：IMAGE UNDERSTANDING”组织的第一次有关计算机视觉理论和实践的讨论中大爆发。实际工作者对当时的理论误导实际研究工作反映强烈。密西根大学电机及计算机系的Ramesh Jain 及斯坦福大学Thomas Binford写了计算机视觉中的“无知，近视及天真”一文批评计算机视觉界既缺少理论也缺少实验，过分重视用形状从X的研究上，认为像路灯下的醉鬼，和皇帝的新衣（因为交叉学科效应，大幅度的跨学科，以至一个领域的专家（计算机）会被另外领域（数学，心理学）的忽悠，发生从众效应，没有重视分割和信息的表象问题的研究。

这次讨论中，马里南大学的Aloimonos和 Rosenfeld大致同意 Jain 及Binford的看法，认为Marr的重建理论对机器视觉系统来说是太高，没有必要。但是，他们为Marr的理论辩解说，理论与实践的脱节是因为计算量太大，太复杂。他们认为计算机视觉的目的是为了研究完成某一任务需要哪些视觉信息，并且如何从图像中获得这些信息，即在复杂场景中运动和识别有关物体，不必要完全恢复客观世界，换言之，需要有目的的定性视觉完成导航和识别。

中国学术界迅速回应了这次讨论，1992年12月“模式识别与人工智能”杂志组织了一个对应的专题，由国内计算机界著名学者发表了一组文章，参加的有宣国荣，李介谷，吴立德，边肇祺等。这组专题认为计算机视觉几十年的工作还是有成积的，出了不少专用系统，如游泳运动员训练系统，漫步机器人，占斧式巡航导弹等。Marr的理论还是应该得到充分肯定，争论是有益的，计算机视觉要更多的面向应用。

但是计算机视觉的问题并没有解决。实际工作者的批评声音越来越大，主动视觉，定性视觉，目的视觉大有取代3D重建理论之势。3D重建理论学派坐不住了，1994年七月由耶鲁大学心理系的Michale Tarr及计算机系的 Michael Black联合在CVGIP：IMAGE UNDERSTANDING发文，捍卫重建学派。引起了计算机视觉理论界第二次大专题讨论（对话），一共十一篇文章，因为关系计算机视觉各流派理论的生死存亡，也是最重要的一次讨论。

第一篇文章是Michale Tarr 和 Michael Black的”对话：在视觉中表象角色的计算与演化展望“(“DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision”)，文中，他们指出目的学派近来一直批评一般视觉的重建理论无成果和不实际，想以强调功能和任务的目的视觉取而代之，但是重建研究是可行的，为理解和模型人类及机器的一般目的视觉提供框架，从演化展望的视觉目的去检验，包括光流的恢复都支持这种假说。一些具体情况下，目的研究可能是合适的，但是它对人类广泛的视任务，就不足了。他们强调要理解视觉，认为视觉问题是反光学问题，本身就是病态提出的，参考和限制本身就是不可避免的，主动视觉是好的，他们也不拒绝目的视觉研究，认为他是视觉研究的一个流派但是更适合说明青蛙的行为，而不是人类，，如果目的视觉是一个一般视觉的限制版，当然更好。

早就憋了一肚子气的目的学派的Aloimonos作了回答。在我学习到什么（What I Have Learned）一文中，他首先尖锐提出，视觉是什么？他说他理解的视觉就是识别过程，是联想，解释，指导，及选择的过程，与重建没有一毛钱的关系。他批评说，Marr认为视觉是一个从给定图像中得出完全精确景物和性质的表象的过程，这是一个一般的建议，而一般只存在在理论中。而人的视觉是生物视觉的特例，而按蜜蜂视觉研究专家Horridge 的观点，人和蜜蜂在视觉控制行为中没有什么不同，人类不计算光流。光流方程中，一个方程两个未知数。不加附加限制根本不可解。视觉有目的，目的就是行动。目的，定性，主动三位一体，一个回答作什么，第二怎么做，第三怎么获得数据。

13篇论文中，最有意义的是Simon Edelman 的，他提出了解决的方案：没有重建的表象。
他首先指出，从哲学上来说，重建的表象可以追索到Aristotle，Hume，及Berkeley，他们认为景物的表象是能够适应任何视觉任务的被表示物体的几何复制。他批评说，重建的表象，从实用主义的角度来说，是一种可怜的选择，理由有三个：第一，实际工程的计算说明从没有任何限制的真实数据中恢复简直是不可能的；其次，即使可以计算，也没有必要；第三重建的景物只有白痴才能理解。然后他给出了解决的办法，他从洛克的“人类理解论”中找到了灵感。洛克在智力表象的语义问题部分建议，一个概念能够表象（示）一个物体，不需要像Aristotle提出的在任何意义上类似该物，只要他能被该物自然可预测的激发就行。

他介绍用微电极作的电生理实验发现猴MT （ Middel temporal，中颞）细胞对视域中特定物体发放。而近年D Perrett等在灵长类IT（inferotemporal cortex）上再次发现能对面孔发放的面孔诊察细胞指出面孔可能是被表征在IT。

他最后提出可以在Gibson 的直接知觉和Marr的重建表象中间找一个合适的位置。由没有重建的表象在视觉理论中起关键作用。在Brook 极端的没有表象的目的视觉，和Marr没有目的的重建法式间作一个调和。

整个讨论专题以主流的重建学派接纳目的学派为结束。

这是从80年代来计算机视觉学术界针对主流理论最强的一次论战。他以目的学派挑战重建理论开始，从理论上找出了重建理论的致命点-重建，结束了重建理论一统天下的局面。
让人不解的是，国内这次迟迟没有回应。国外这次讨论两年后，大约是96年，当笔者在华科大图像所的资料室CVGIP杂志上看到这一组讨论，在全国杂志上搜，都没有找到相关的报道。不得已，花了差不多一年时间消化这一组广泛涉及哲学，心理学，神经生理学，神经病理学，数学，计算机，通信，自动化的论文专题，写了有关的综述。开始还找不到地方发，某国内一级学报，回答说他们不搞理论，欢迎算法，软件和系统的研究。只到了98，99年有关的综述才开始得以在学校（武汉汽车工业大学，现武汉理工大学）的学报以及‘模式识别和人工智能’，“信息与控制”上发表。国内学术界回避对主流理论的批评和讨论可见一斑。

Simon Edelman在2001年在为社会及行为学的国际百科全书介绍Marr的生平时说，对Marr的引证的比对他理解的多，他对理论神经生理学的影响比人们估计的更大。他的在神经生物学的主流杂志上被作为脑计算理论的创始人。Marr的学派曾经坚持特殊的视觉计算理论，认为执行视觉任务需要在系统内重建一个内部模型。现在的研究者使用在70年代还没有出现的技术和概念作研究，大量神经生物学和行为学的新发现的积累，提供了新的理论出现的基础，说明视觉并不要求几何重建。

Marr的重建表象的实验基础来源于Julesz用RDS作的立体视觉实验，RDS实验说明不需要单眼形体知觉，只要有视差，就能引起深度感。Marr正是依据这一点，用立体几何的方法推出根据立体图对两幅图中对应点的视差计算该点深度的，这个方法的关键就是要从立体图对中找到同一实际点的对应点，称为对应性问题，是重建理论工程实现的中最关键问题。也就是说，Marr的表象之所以是原物的重建（复制），不仅是因为Aristotle的哲学和70-80年代计算机图论的影响，而且是因为有Julesz用RDS作的立体视觉实验，有从初看起来有可能实现的计算基础。

但这一个基础被80年代末以来关于遮挡问题的研究几乎完全否定了。1，在Marr的理论中被当作噪声抛弃的单眼区，经过一代人的心理物理实验的证实是产生深度感的最重要原因，是不能被抛弃的，视差连续性条件不能满足。2，加拿大约克大学的Hiroshi Ono 和他的同事们用实验定量的测量了双眼融合时遮挡物体和背景的变化，得出了双眼融合时，由于遮挡图像的线索，视阈的一部分位移和压缩完成融合。武汉理工的王天珍提出了双眼融合时的视动反馈模型，不但将解剖上发现的两个视系统有机联合起来，也合理解释了遮挡存在时双眼融合产生立体视，竞争，或者引发复视的原因。这样Marr约束性条件中的唯一性也就不存在了；3，多伦多大学及约克大学生理学家用RDS实验发现（2003，Strabismus，11，1，9-16）脑搜索匹配图像在整个2D网膜区，而不是沿着内极线，这样Marr的信徒们提出的内极线假说也没有了实验依据。

2002年的欧洲视知觉会议（ECVP‘02），举办了一个关于Marr的理论的专题讨论：标题为“MARR‘S VISION-20 YEARS AFTER”，S Ullman 作了一个回顾，他说Marr的观念，在80年代是领先的，90年代已经被2 D直接研究替代，但是他定义视觉研究的三个层次，但在一些特殊领域的经典工作仍然是有意义的。

从2002年到现在，又是10 多年过去，视觉机理的研究依然还在路上，但是Marr的3D重建理论虽然已经淡出了，但是他提倡的，不能就事论事，要用表象来一般性地研究视问题，却大大推动了视觉理论研究。

§4-4 视觉表象研究

§4-4-1概述

Marr在视觉计算一书中强调，视觉研究不能老是就事论事凭经验，用胡凑法解具体问题，需要高端大气上档次，要探索一般视觉的规律，要研究物体如何在视系统中被表象，虽然他的重建表现已经渐渐淡出，但是他提倡对视觉表象研究的重视，却被视觉理论界广泛接受。

从80年代以来，不少学者对于视觉表象进行了深入的研究，著名的研究者除了Marr以外，还有Irving Biederman，Michael Tarr，NK Logothtis，T Poggio，Shimon Edelman等。通过系统的研究，学者们对什么是视觉表象，已经有了哪些模型，怎么分类，在90年代逐渐清楚起来。表象模型的分类主要是是按视觉表象坐标中心的选取来分（DI Perrett）。按此标准，表象理论分为两大类，一类是物体中心（又称为视图不变，视图独立）模型，代表人物是Marr和 Biederman。模型大部分是80年代或者更早一些时候提出，因为受CAD（计算机辅助设计，Computer Aided Design ）及计算机图论（Computer Graphics）的影响认为视觉表象（视觉系统中存贮的物体信息）是物体和景物的复制，或者是有关标准基元的组合关系。最著名的是Marr的3D重建表象和Biederman用基元识别理论（RBC-Recognition by Components）。

Marr的3D重建表象没有得到心理物理的实验结果支持（S Edelman，1994）；基于视差的计算又被遮挡问题的研究所挑战；计算机视觉的实践也不支持，现在渐渐被淡忘。但是Biederman的识别被基元理论由于得到他本人和其他学者心理物理实验部分结果的支持，还有市场，Biederman本人也还在坚持这方面的工作。

另一种表象模型的坐标系建立在观察者处，称为观察者中心表象（视图特定），也称为视图相关模型，这样的模型，将从每一个特殊角度看到的某个物体的不同图像作为不同物体看待，从理论上讲，要求系统的内存是个天文数字，改进的办法是用几个特殊的特征视图用插值法作为计算模型的基础。这部分模型的支持者不少是从事实际实验研究的的神经生理学家，如DI Perrett，NK Logothetis，对3D重建模型持批评和改进态度的Edelman，T Poggio 也在其中。

§4-4-2物体中心模型

因为学术界认为物体识别就是比较感官输入信息与物体内部信息的过程，内部的表象应该能够说明一个物体的恒常性，能从改变的2D网膜图像中抽取不变的3D 结构。但是观察者中心理论将物体的每一个投射到网膜上的2D图像作为一个新的不同物体，使得存储量达到天文数字，克服这个缺点的办法就是用物体中心理论，物体中心模型系统的坐标不是以观察者为参考系的，而是以物体本身作为长轴。

视觉的物体中心模型来源于一个共同的假设，认为视系统中存储的世界的表象就是物体的几何复制。主要的流派是Marr的3D重建模型和Biederman的RBC。Marr的3D重建表象前面已经介绍的很多了，这里主要简单介绍Biederman的基元识别理论（RBC-Recognition by Components）。

这个理论又称为基元结构描述理论（GSD-Geon-Structural-Descriptions）。基元结构描述理论假设人类的视系统，是用原始的称为基元（geons）的体积基元间的结构关系来表示基本层的物体类的。它的关键特点是，同样物体被推出的表象就与观察点无关，只要是出现在图像中知觉特征有同样的构造。因此单个物体的表象必须包括几个特征或者质的视图，每一个组成一个不同的GSD，每一个的观察点仅仅为着一个有限范围的观察点。
2007年MJ Tarr 在心理学进展（Annu. Rev. Psychol. 58：75-96）杂志上回顾从80年代来视物体识别的进展，评价Marr的模型，说他提不出实验支持，但是Biederman的RBC 因为作了实质性的改进，得到自己和其他人的心理实验支持。但是作为一个80年代基本层可行的识别模型，仅仅解释观察者如何识别基本层的物体，但无法应用到一般物体识别方面，还是不能适应时代的进步。

Biederman本人一直到2014年还有文章和书出版，还在坚持自己的基元结构描述理论（GSD），认为神经生理学在猴的IT （inferior temporal cortex ）和FMRI决定的人的LOC（lateral occipital complex）缺损，细胞表示的高度不变性都支持他的理论。

§4-4-3观察者中心模型

观察者中心表象理论考虑3D物体作为该物体2D 视图的集合。心理物理和神经生理学的实验结果基本都支持这种理论。观察者中心理论编码依赖观察者相对被识别物体的位置，观察者中心描述物体是从物体被看见的特殊观察点着眼的，因此观察者中心表象需要能从各个不同的透视图识别物体。这样的编码提出了一个问题，一个物体不同的视图可能被当作不同的物体存储，为了识别需要的2D视图就将是一个天文数字。NK Logothtis等通过大量心理物理和电生理实验，发现动物和人识别的能力（误差率和反映时）是物体网膜投影的函数，即与新视图偏离熟悉视图的角度有明显的函数关系。解决的办法是找一些分开一定角度的基本视图作为框架，利用数学插值法构建模型。NK Logothtis，T Poggio，Michael Tarr，等都是支持者。

§4-5 祖母细胞-不变的视表象

近代科学史上几乎没有任何概念，像“祖母细胞”一样在理论上，受到如此长期的谩骂攻击，但它反映的现象又被如此多的实验神经生理学家反复用实验证实，引起一场长达40多年的祖母细胞之争，延续至今，没有定论。

一切可以追溯到1947年加拿大脑外科医生Penfield 的报告，他在报告中说他在1938年治疗癫痫病人时发现，患者过去的视听经验能被手术电极激活。此后刺激皮层时会引起过去视听经验的现象多次发生，到了60年代，已经能定位在颞叶皮层。从那时起神经外科医生，神经生理学家就注意上了颞叶，知道那儿的细胞有着特殊的再现视场景的功能。
1967年经历过二战，且有过在军队里处理大量头部负伤病人经验的波兰条件反射学派的神经心理，生理学家，Jerzy Konorski 写了“脑的整合活动”一书，书中他推测脑中一些特殊的部位存在一些细胞，单个神经元能对复杂的视刺激，如：脸，手，感情表示，活动物体，地点敏感，他称之为灵性细胞（gnostic），并指出了它们分布的区域，例如，面孔区就在腹颞皮层（ventral temporal cortex）空间域在后顶皮层（posterior parietal cortex），这都为后来的行为实验和电生理实验证实。

1969年MIT的神经生理学家Jerry Lettvin 在“知觉及知识的生物学基础”课堂上为了调动学生的兴趣，即兴根据有关灵性细胞的研究编了一个“母亲细胞“的故事，故事里的母亲细胞有这样的特点：第一，它们分布在脑中一定部位；第二，数量大约18000多；第三，它们只对特定的事物母亲发放，切不论显示的图像中母亲的发型，衣着，场合，照明，是正面还是侧面，这些细胞不仅对母亲的图像发放，对母亲的声音，名字也发放，有语义功能，像概念。故事中主人公脑中的母亲细胞都被切掉，因此，他失去了母亲的概念，故事中的神经外科专家只能研究祖母细胞了。

这个小品立即引起年轻学生极大兴趣，故事不胫而走，“祖母细胞”很快风靡了神经生理学界，就连大名鼎鼎的英国皇家学会会员Barlow 也是这个故事的粉丝，在他的“知觉心理的神经元教义”一文中直接引用了“祖母细胞”这个概念。

其实在“祖母细胞”流行之前，就已经有不少科学家发现猴的IT 细胞对一些特定视物体发放。

科学发现的路艰辛又漫长，不象一些人看见的在斯德哥尔陌领奖会上的荣耀。根据CG Gross 2007年的回顾，从65年开始，他们研究团队就发现在猴的IT 部位，一些细胞对面孔敏感，手脸检测器也相继被戏剧性地发现。他们的发现最开始登载在“科学”（1969）和“神经生理”（1972）杂志上，但是很长时间无人再理会他们，直到12年后DI Perrett 开始报告IT的面孔选择细胞。

虽然年轻学生，和一线有关神经科学家们（生理学家，神经工程师，外科专家）对祖母细胞偏爱有加，但是反对的声音立刻出现。除了前面提过的计算视觉理论界的泰斗Marr 的嘲笑和批评，PDP（并行分布式处理-parallel distributed processing）理论的创始人McClelland，及其他一些心理学，神经生理学的理论界人士也纷纷著文反对祖母细胞说。祖母细胞的问题在于它的信息加工机制是不明确的，反对之声到了LH Finkel能在与Barlow为了书评争论时，公开指责他相信臭名昭著的祖母细胞（nature 1988），大名鼎鼎的Barlow只能举出Gross，Perrett Roll等同事的实验工作来回击。正如1973年Colin Blackmore 说的这一争论已经变为一场旷日持久的所谓祖母细胞问题之争。

一边是一线工作的神经科学家，另一边是一些所谓的理论学家，这一争论持续了40多年，其间FMRI技术使用给了科学家们很大的帮助，神经生理学，神经解剖学，神经病理学有了长足的发展。两条视通道的假说（what，where）被证实。但是这并不能说服祖母细胞的反对者。

到了2005年，Nature刊登了加州理工的RQ Quiroga，C Korch和UCLA 的I Fried ，MIT 的G Krieman的文章，报道他们如何在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞，如对影星安妮斯登，对总统克林顿，对悉尼大剧院发放的细胞。这些细胞有着概念细胞的功能，不论刺激是该影星的正面，侧面，背面，不论服饰和照明，甚至是有该影星名字的图片，只要是呈现有关该影星的视刺激，该患者的某些IT细胞就会放电。这些细胞和Lettvin故事中的祖母细胞完全一致，视图不变，且有语义功能。但是就是发现这个现象的Quiroga也不敢称这些细胞是祖母细胞。这些细胞被称为“脑中视物体的不变的视表象。Charles Connor 在评论这个研究时，说没人愿意被说成相信臭名昭著的祖母细胞，但是现在事实摆在这儿，大家不得不改变看法，但是祖母细胞只是一种稀疏编码的极限，从实验结果看来这些细胞不是关于视表象的，不是视结构的几何变换，不是编码基于视觉表观的记忆，而是编码基于概念的记忆。但是他质疑个别细胞层次能够形成这样的抽象的，记忆基于的表象。

2009年Bristol 大学实验心理系的Jeffrey Bowers，在心理学回顾杂志上发文顶祖母细胞，认为祖母细胞所反映的局域模型在生物上是可行的，引起了新一轮的论战。参加的不但有神经网络的创始人之一的McClelland，还有Quiroga和他的团队。这样正常的学术争论反映一个问题，祖母细胞的信息加工机理是不清楚的，祖母细胞到底是怎样表象一个外部物体的。

王天珍在2001年IEEE的国际神经网络大会上发文，根据她对视频图像的研究，提出了一个模型，解释祖母细胞是如何形成的。她首先根据对视频流的心理物理实验（口头报告法）提出物体在脑中表象的形成遵循两个法则：一个是时空连续性法则；另一个是多感官接近联想法则。通过这两个法则就能把同一个物体不同条件下的图形以至声音文字联系起来。其次，她根据她在90年代初为汉字识别提出的版式并行检索法解决了多幅图像存贮检索时天量存贮量的问题。04年她的研究小组又做了视频跟踪研究，解决了视频流中人物确定的问题，从原则上解释了祖母细胞是如何形成的。06年根据对遮挡问题的研究，她提出了视动反馈模型，将脑中两个视通道联系起来。从神经生理和神经解剖的角度解释了祖母细胞的信息加工的具体路径。

视觉研究的前世今生（五）
[size=16]▼[/size]

§5 视觉研究在中国

§5-1中国古时侯的视觉研究

中国有史以来最早的视觉研究可以追朔到孔子。先秦郑国人列御寇（公元前450-公元前375年）著“列子”，其中“列子汤问”记载孔子东游时，看见两个小孩争辩，是中午还是早上太阳离人近？”一个说：我认为太阳刚升的时候离人近，因为像伞盖一样大，而中午远，因为看起来只有盘子大。另一个说：不对，太阳刚升时天很凉，到了中午像煮开了锅一样热。所以中午近，孔子不能回答。“这个故事不仅非常有哲理，而且在自然科学研究方面也含义深长。前面一个小孩说的有关距离知觉，至今，就是一些专家也不能回答的很周全。后一个不仅关于视觉，更主要涉及天文，气象，地理，也是个大问题。孔子专攻人际关系，社会学，不能回答很自然。但说明春秋时期，学者对视觉的思考和研究就很深入了，不会比希腊差。但是汉武帝罢黜百家独尊儒术，使得中国的自然科学研究包括视觉研究落后了。但是有关应用方面还是有不少亮点，比如眼镜的发明，一般科学史上都提到意大利，但是依据北宋沈栝（1031-1095）的梦溪笔谈，可知那时就对凸凹镜成像原理解释得很清楚，而且1260年马可波罗游记中描叙了中国老人戴着眼镜看小字的景象，因此也有人认为眼镜是从中国传到欧洲的。

§5-2中国近现代视觉研究

满清末年西学东渐，柏克莱的“视觉新论“也在1934年被关文运教授翻译出来，在1935年由商务印书馆出版，我个人认为这算是现代视觉研究在中国的开始。该书在57年由于批判的需要被再版，至今没有新的译本出现。该书的出版使中国学生知道了距离知觉研究的过往，了解了距离知觉产生的原因。对中国现代知觉心理学有影响。

后来战事连连，直到解放后，科学院建立，视觉研究才由贝时璋主持的生物物理所和潘菽主持的心理所从新开始。

贝时璋不但是科学大家也是战略科学家，他高瞻远瞩主要表现在两个方面：1，生物物理所成立时人员的选用：所成立时录用人员不拘于生物学科，使得大量不同学科的人员（物理，数学，自动化，计算机）能在同一个研究机构工作，有利于新发明，新思想产生；2，生物物理所建立时选址：生物物理所选址与心理所相邻。我去时，两所不仅相邻，而且从一所的草坪就可以直达另一所，一所的研究人员散步思考问题时就可能和另一所的研究人员交流，53年院系调整后理工科的学生不懂文科的缺陷，看来就由地理位置的优势得到了改善，生物物理本来就是交叉学科，再与心理学研究接邻，不同学科思想碰撞出成果的可能就更大，现在看来正是一步高棋。生物物理所的视觉研究组就是在这样的背景下，79年由原来由贝时璋院士亲自抓的理论组（59年，生物控制论组，仿生组）基础上成立，组长为郑竺英教授。当时正是世界上视觉研究热，经过文革的洗礼，重新成立的理论组的方向就定义为视觉研究。

郑竺英是中国名教育家郑晓沧的女儿，贝时璋的关门弟子，浙大1950年生物系毕业。中国的视觉研究能有今天的水平，她功不可没。中国有句成语，“海纳百川，有容乃大，壁立千仞，无欲则刚”。用这句话来形容郑竺英教授是很合适的。

1959年她担任生物物理所理论组组长，当时的目标是生物控制论，但由于时局的缘故很快改名为仿生室，下分生物原形组，数学模拟组，电子模型组。进了很多年轻人，78年后改为视觉的信息加工研究室，她担任室主任，目标视觉信息加工，最多时下设十个课题组，由于她心胸豁达，业务精湛，外语好又善于协调人际关系，能够调动各方面的力量，该室成绩斐然：

1，姚国政，刘磊，汪云九翻译了Marr 的“视觉计算理论”引领了中国计算机视觉研究；
2，郑竺英从80年代开始不仅将Julesz的RDS引入国内，引导了国内立体视觉的研究，而且与海军总医院的颜少明医生合作提出了立体视觉的颜氏检测标准；
3王书荣鸟类峡核研究，刁云程猫视皮层细胞方向研究，郭爱克关于果蝇的研究都走在当时国内的前沿。
4，吴新年关于遮挡问题的研究，吴新年研究遮挡问题时，已经退休了，副研究员。

为了把Gillam 等关于遮挡问题的研究介绍进国内，他以汪与九的名义带博士生，填补了国内这方面研究的空缺，敬业和追求真理的精神令人敬佩，后来接着他对遮挡问题研究的有王天珍和中南民族大学生医所的杨仲乐。

郑竺英老师除了引领了生物物理所的视觉研究，也指导了浙江大学的视觉研究，王天珍后来在遮挡问题上的研究，也是因为她的指引。

视觉研究小组后来由郭爱克，刁云程负责，郭后来到上海神经所，刁生病后，视觉研究室也就慢慢地取消了，代以脑与认知研究国家实验室，负责人是陈霖院士，他因80年代坚持整体识别而著名。脑与认知研究国家实验室主要以FMRI 为实验手段研究人类的认知功能，包括视觉，其中用FMRI对成千中老年人的海马随年龄萎缩的概率统计研究，对汉字识别时脑区活动情况的研究都在国内外领先。但是现在国外对FMRI研究也有不同看法认为分辨率太低，无法精准说明视觉信息到底是如何加工的。

心理所的荆其诚教授从60年代就研究年代就研究距离知觉，研究双眼辐合，87年出版了专著“人类的视觉”。对视觉研究在中国的发展起了推动作用。

80年代心理所在汉字识别方面作了不少工作，汉字是表意文字，形音义结合，和拼音文字的学习机理不同，它的视知觉研究很有意义，当时有个俞柏林研究员作了很多研究工作，很有意思但英年早逝，非常可惜。

北京大学心理系的系主任沈政教授养了一群猴子，用微电极实验研究IT上细胞对图形的反映，实验结果猴子的颞叶细胞对熟悉的研究员和饲养员放电。在国内一直领先。但不知他退休后工作是否还能继续？

华东师范大学的郭可敬在汉字认知的信息处理方面做了很多工作。让学术界知道汉字认知和拼音文字不同，反映视觉和听觉加工脑机制的不同。

在南方引领视觉研究的是复旦的生命科学院，院长寿天德教授，学术渊博，治学严谨，他原来在中国科技大学工作，后来调来复旦，研究猫关键期的视剥夺对猫的皮层脑细胞功能的影响，是中国第一本神经生理学的作者，影响很大，很多从事视觉研究的博士说，我们是读着寿老师的书入门的。著有“视觉信息处理的脑机制”等专著。

计算机视觉国内影响比较大的是自动化所的马颂德老师。

另外军事医学科学院的徐广第教授，64年发明的双眼合像视标解决了飞行员的高空近视，著有‘眼科屈光学“一书。

而温州医学院视光学院的王光霁主编的“双眼视觉学“填补了这方面的空白。

跋
[size=16]▼[/size]

总的来说，改革开放后，视觉研究突飞猛进，但是第一流的研究并不多。自己的感受，国外对于学术争论很开放，你再有名，别人不同意你的观点，只要言之有理有椐，就可以批评，就像CVGID 90年代组织的两次大论战，言辞的尖锐，在国内是不可想象的。

但是国内学术界的内耗也是外界不能理解的。有的人担任行政职务时间比较长，得罪了人，研究做得再好，院士就是上不去。有的人开始共事不错，后来为了一些事，硬是把另外人排出单位去。这二十年就更厉害，胜者为王，当了领导，人家的成绩都是他的，通吃。现在的院士有几个不是先当官后当院士。如此下去怎么能有一流的成绩出来呢？老的大师不提，现在只要多几个郑竺英，寿天德，学术研究就会更有成绩。

总算在年前赶完了，就是它了，30年的工作基本在这儿，我尽力了。不足错误肯定有，输入文字和标点符号更不用提，现在顾不得这些，先拿出来，是驴子是马先溜一溜。

0 推荐

359 浏览

0评论

视觉研究的前世今生（上）

视觉研究

机械自动化类密泰传动系统 2016-12-19 13:30 发表了文章来自相关话题

0 推荐

492 浏览

0评论

视觉研究的前世今生（下）

视觉研究

机械自动化类密泰传动系统 2016-12-19 13:30 发表了文章来自相关话题

1，姚国政，刘磊，汪云九翻译了Marr 的“视觉计算理论”引领了中国计算机视觉研究；
2，郑竺英从80年代开始不仅将Julesz的RDS引入国内，引导了国内立体视觉的研究，而且与海军总医院的颜少明医生合作提出了立体视觉的颜氏检测标准；
3王书荣鸟类峡核研究，刁云程猫视皮层细胞方向研究，郭爱克关于果蝇的研究都走在当时国内的前沿。
4，吴新年关于遮挡问题的研究，吴新年研究遮挡问题时，已经退休了，副研究员。

更多...

年月

视觉研究的前世今生（上）

视觉研究

视觉研究的前世今生（下）

视觉研究

视觉研究的前世今生（上）

视觉研究

视觉研究的前世今生（下）

视觉研究

标签描述

相关话题

年 月

视觉研究

视觉研究的前世今生（上） 视觉研究

视觉研究的前世今生（下） 视觉研究

视觉研究的前世今生（上） 视觉研究

视觉研究的前世今生（下） 视觉研究

标签描述

相关话题

年月

视觉研究的前世今生（上）

视觉研究

视觉研究的前世今生（下）

视觉研究

视觉研究的前世今生（上）

视觉研究

视觉研究的前世今生（下）

视觉研究