谷歌如何使用人工智能来改变谷歌翻译这项颇受欢迎的服务,以及机器学习如何重塑计算。

7.1_.jpg


序言:你所读到的就是你自己


在十一月初的某个周五晚上,Jun Rekimoto(东京大学人机交互领域的杰出的教授)正准备在线演讲,他突然注意到社交媒体滚动条上有一些特别的内容。这些内容是关于谷歌翻译的,这项流行的机器翻译服务最近突然有了大幅改善。


Rekimoto开始研究谷歌翻译并用它做了一些测试,测试结果令他非常震惊。虽然已经夜深,但谷歌翻译取得的进展依然让Rekimoto久久无法入睡。


Rekimoto在一篇博客中写了他的初步发现。首先,他用谷歌翻译翻译了《了不起的盖茨比》中的一些句子,并与1957年Takashi Nozaki译版和最新的Haruki Murakami的译版进行对比。Rekimoto后来通过电子邮件向我解释,Murakami的版本语言非常细腻,具有独特的“Murakami风格”。相比之下,谷歌的翻译虽然有些不自然,但是对他来说“更透明”。


Rekimoto博客的后半部分从日译英的方向测试了谷歌翻译。他先是自己用日语翻译了海明威的《乞力马扎罗的雪》的开头部分,然后把这段话通过谷歌翻译转译成英语。他列出了此版本与海明威的原版,并让读者猜测哪个版本是机器完成的。


NO. 1:

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.


NO. 2:

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.


即使是以英语为母语的人,也很难分辨出第二段是由机器完成的。这两段翻译是如此的相近,Rekimoto甚至觉得这很神奇。因为Rekimoto非常熟悉谷歌翻译之前的能力,甚至在24小时前,谷歌只能翻译成下面这段话:


Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, “Ngaje Ngai” in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard.Whether the leopard had what the demand at that altitude, there is no that nobody explained.


Rekimoto在Twitter上向他的十万个粉丝公布了他的发现,在接下来的几个小时里,成千上万的人发出他们使用机器翻译的结果。有些是比较成功的,但也有些是非常滑稽的。


在东京破晓之时,谷歌翻译登上了日本Twitter热度榜的第一位,甚至连人气动漫和人气偶像少女的被挤了下去。每个人都很惊奇:谷歌翻译为何能如此让人刮目相看?


四天之后,来自世界各地的上百名记者、企业家和广告客户齐聚于谷歌的伦敦办公室中,观看谷歌的特别发布会。客人们的甜点是印有翻译标志的幸运饼干,每个人的面前还放有一张纸条,一面写着不同国家的短语,另一面邀请客人们下载谷歌翻译的软件。桌子上还摆放了甜甜圈和冰沙盘,旁边的标语牌标注了各种国家的风味。过了一会,所有人来到了一个豪华的黑暗剧场中。

7.2_.jpg

上图:Sundar Pichai,谷歌的首席执行官,在他加利福尼亚州山景城的办公室外。


伦敦市长Sadiq Khan首先上台演讲。演讲的开始,市长提到他有个朋友觉得市长就像谷歌一样。于是市长问朋友:“为什么?因为我什么都懂?”朋友否认道:“不是的,是因为你就像谷歌一样,总是试图把我的话补充完。”观众们纷纷被市长的幽默逗笑。随后,谷歌的首席执行官Sundar Pichai上台发表演讲。


Pichai此行的目的之一就是启动谷歌伦敦国王大道的新大楼,预示着公司完成了去年提出的转型计划的初始阶段。Pichai曾经多次在不同场合说过谷歌的未来将以“AI为先”,这在理论上听起来很复杂,引发了许多学者的推测。在实践生产中意味着,未来谷歌将不再依靠传统计算编程来生产产品,而是“机器学习”。


谷歌公司中有一个鲜少提及的部门,谷歌大脑。这个部门成立于五年前,一直遵循着一个原理:人工“神经网络”能够像婴儿一样,通过不断的尝试和犯错来认知这个世界,最终拥有像人类一样的灵活性。这其实并不是一个新理论,早在现代计算机初步发展的20世纪40年代就出现了。但当时大部分科学家并不看重,认为它过于深奥。直到2011年,谷歌大脑证明了将这个强大的方法运用在人工智能领域里可以解决此前几十年的棘手问题。例如,此前谷歌手机在语音识别方面一直效果不是很好,直到谷歌将机器学习算法移植到手机平台后,语音识别精度已经可以和人类媲美。而在图像识别领域也同样取得了良好的效果。一年前,谷歌大脑就已经将这些核心技术成功运用在消费级产品里。


谷歌翻译于2006年首次亮相,目前已经成为谷歌最可靠和最流行的应用之一。每天,谷歌翻译会面对 5 亿个月度活跃用户的 1400 亿个不同语种的单词。现在它已经不是座位一个独立的应用存在,更是已经集成到Gmail、Chrome 及许多其它谷歌产品中了,谷歌将它作为其数字商务中的一个无缝贴合的部分。Pichai在台上讲到,直至叙利亚难民危机之时,公司才意识地区间的翻译交流是何等重要。他背后屏幕的陡峭的曲线图显示,阿拉伯语与德语互译的翻译请求最近增长了五倍之多。(这个结果也符合Pichai的内心想法,他在印度出生成长,那里有几十种不同的语言。)谷歌翻译此后也在逐步增加新的语言和功能,但是过去的四年,发展速度正在逐年减缓。


截至到上个周末,谷歌翻译已经在美国、欧洲、亚洲等地区完成了基于人工智能的转换,包括西班牙语、葡萄牙语、法语、德语、中文、日语、韩语及土耳其语在内的语言与英语的互译。而其它上百种语言也即将实现互译,谷歌预计将会以每月八个的速度在年底前更新完毕。而对于谷歌工程而言,只花费九个月的时间就完成这一重大革新无疑是一个惊喜。AI系统一个通宵所取得的进展就相当于过去所取得的进展之和。


Pichai对含蓄的古典文学尤为偏爱,一个月前,他曾告诉我,在他加利福尼亚州山景城的办公室里,有些文字还是需要谷歌翻译来辅助显示,毕竟并不是所有人都像物理学家Robert Oppenheimer一样能读原版的《博伽梵歌》。因此在伦敦的发布会上,幻灯片上出现了博尔赫斯的经典名言:“Uno no es lo que es por lo que escribe, sino por lo que ha leído.”


Pichai大声地读出旧版谷歌翻译翻译出来的拙劣的句子:“One is not what is for what he writes, but for what he has read.”

而在大屏幕的右边,新的AI系统版本则翻译的更加优雅:“You are not what you write, but what you have read.”


这是有一个对新版的谷歌翻译非常恰当的描述:在某种意义上,谷歌翻译是第一条可以通过学习理解任何事物的机器。


谷歌以AI为中心重组公司。在过去的四年中,谷歌、Facebook、苹果、亚马逊、微软和中国百度等六家公司都围绕AI人才展开了一场军备竞赛,尤其是在大学。企业纷纷到顶尖的学术院校挖掘人才,给人才以丰富的资源和极大的自由。在硅谷,Facebook的CEO Mark Zuckerberg会亲自通过电话和视频聊天软件跟公司最优异的研究生进行会话,七位数的起薪根本不在话下。参加人工智能最重要的学术会议的人数增加了近四倍。大家所关注的不仅仅是小小的创新,还有该如何掌控全新的计算平台:无处不在的人工智能。


我们好像理所当然地就开始使用“人工智能”这一短语,但它其实一直是引发争议的根源。想象一下,如果你回到20世纪70年代,在大街上拦住一个路上,拿住智能手机并向她展示手机里的谷歌地图。你可能需要不停地向她解释,你并不是穿着奇怪的巫师,从口袋里掏出的手机也不是什么黑色护身符,它只是一个比阿波罗时光机更强大的电脑。实际上,谷歌地图就是能跟她展示什么是“人工智能”的例子。在某种意义上,谷歌地图确实是人工智能的例子。它能帮你规划从酒店到机场的路线,而且比人类能完成得更快更好。它还能做一些人类显然不能做的事情:它可以判断交通状况;规划最佳路线;在你走错路时,它能重新定位并进行路线的重新规划。


实际上,如今没有人会把谷歌地图跟高贵的“AI”相提并论。所以我们在使用“智能”这个词的时候,是带“情感”色彩的。人工智能可以区别HAL和其它任何用织机或手推车就可以做出的东西。我们能自动化一项任务,涉及到的相关技能会转变为单纯的机制。现在,谷歌地图似乎还不能称之为人工智能,充其量是机器人:它只接受一个明确的需求(从一个地方到另一个地方),并尽力满足这种需求。因此,“人工智能”的所对应的实际应用其实范围很小。


Pichai的终极目标是区分AI应用和“通用人工智能”。通用人工智能不涉及对显式指令的忠实遵守,它是为一般情况下的一般用途而设计通用工具。Pichai认为,他公司的未来取决于通用人工智能。想象一下,如果你告诉谷歌地图,“我想去机场,但需要在中途停一下给我的侄子买礼物。”一个通用的智能服务,就像三年前的电影《她》中,由Scarlett Johansson配音的那个无处不在的助手一样,她像好朋友一样了解你的情况:你侄子的年龄,你通常喜欢给孩子买什么礼物,以及哪里有能买礼物的商店。但是,一个真正聪明的地图能做一些好朋友考虑不到的事,比方说,你侄子学校的孩子里,最近流行什么玩具。如果聪明的机器能够辨别一些错综复杂的数据,从中找到过去我们做过的事情中暗藏的规律性,那么它就可以推断我们的想法。


AI助手是人工智能的新浪潮,苹果的Siri、Facebook的M,还有亚马逊的Echo都是机器学习的产物,作用都很相似。然而,机器学习并不一定只局限于此。今年,三星的医学成像子公司宣布其新的超声设备能够检测乳腺癌。公司也在招贤纳士,以扩大计算机的工业应用。DeepMind于2014年被谷歌收购,AlphaGo在围棋游戏中击败了人类围棋大师,尽管当时人类预测人工智能要想战胜人类还需要10年。


1950年,Alan Turi吴恩达在那篇著名的文章中提出了一个人工智能的测试:一台计算机是否能在5分钟的文本交流中成功地欺骗人类。一旦机器可以在两种自然语言之间流利地翻译,机器就能很好地“理解”人类语言,从而与人类进行对话。谷歌大脑的成员们正推动和协助监督翻译项目,他们相信这样的机器将会成为通用人工智能的助手。


谷歌的研究人员和工程师团队从最初的一两个人,扩大到三四人,甚至后来扩大到一百多人,他们在这一领域取得了巨大进步。接下来要讲的关于谷歌团队的故事非常少见,因为它跟我们对硅谷的通常印象有所不同。它并不是一些俗套的剧情。它不是一个关于技术能解决所有问题的故事,也不是一个技术会毁灭世界的故事。它跟颠覆无关,至少不是通常意义上的颠覆。


事实上,这个故事又包含了三个相关的故事,这三个故事在谷歌翻译成功转型为AI的过程中融合在一起,它们分别是:技术故事,制度故事和关于思想演变的故事。技术故事是关于一个公司的一个产品团队,以及他们对旧产品进行改进、测试并形成全新版本的过程,而且他们只用了别人预期的约为四分之一的时间就完成了这个过程。制度故事是关于该公司内的一个虽然规模不大但很有影响力的人工智能团队,以及他们凭借对一些旧的、未经证实的和广泛不适用的计算观念的直觉信念,超越了几乎其他所有公司的过程。思想的故事是关于坚持不懈的认知科学家、心理学家和工程师,他们长期以来用看似不合理的信念,最终激发了我们对技术和理论的理解,以及意识本身的范式转变。


第一个故事是谷歌翻译的故事,发生在山景城,时间跨度为九个月,故事解释了机器翻译发生的转变。第二个故事是谷歌大脑及其众多竞争对手的故事,发生在硅谷,时间跨度为五年,它解释了整个领域的转型。第三个故事是深度学习的故事,发生在苏格兰、瑞士、日本和加拿大等大部分地区的遥远实验室,时间跨度长达七十年,它可能非常有助于改变人类的自我认知。


这三个故事都跟人工智能有关。七十年的故事是关于我们对人工智能的期待。五年的故事是关于人工智能在不久的将来会带来什么。九个月的故事是关于人工智能现在可以做什么。这三个故事本身都是对概念的证明,而所有这一切都只是开始。




第一部分:学习机器


1、谷歌大脑的诞生

虽然Jeff Dean的职位是高级研究员,但是事实上,他才是谷歌大脑团队的领导者。 Dean有着长而窄的脸,深深的眼睛并且十分热情。作为医学人类学家和公共卫生流行病学家的儿子,Dean成长时期几乎周游了世界各地,包括明尼苏达州、夏威夷、波士顿、阿肯色州、日内瓦、乌干达、索马里、亚特兰大等地。在高中和大学期间,他写的软件就被世界卫生组织所采用。自1999年以来,他一直在谷歌工作,当时他才25岁,从那时起,他几乎参与了谷歌所有重大项目中核心软件系统的开发。作为公司的元老级人物,Jeff Dean Facts已经成了公司开玩笑的对象。以Chuck Norris的事实模式为例:“Jeff Dean的PIN是pi的最后四位数字。”“当Alexander Graham Bell发明电话时,他接到了一个来自Jeff Dean的未接来电。”“Jeff Dean在最高级别为10的系统中晋升到了11级。“(最后一个是真的。)

7.3_.jpg

上图:谷歌工程师和谷歌大脑的领导者Jeff Dean。

来源:纽约时报的Brian Finke




2011年初的一天,Dean在谷歌校园的“微型车间”之一,也就是山景城大楼的共享休息室,遇见了年轻的斯坦福计算机科学家吴恩达教授,他兼任谷歌公司的顾问。吴恩达跟Dean介绍了Marvin项目(以著名的AI先锋Marvin Minsky命名),在这个项目中,他协助谷歌建立了一种基于大脑架构的柔韧的数字网格的“神经网络”。1990年,Dean在明尼苏达大学读本科的时候,也曾经研究过该技术的原始版本,当时神经网络的概念已经开始流行。在过去的五年中,神经网络领域从事相关研究工作的学者数量开始再次增长。吴恩达告诉Dean,Marvin项目是由谷歌的秘密X实验室负责研究的,目前已经取得了一些可观的进展。


Dean对此很感兴趣,决定花自己“20%”的时间来投入这个项目,每名谷歌员工都要将自己20%的时间贡献给他或她的核心工作以外的工作。很快,Dean向吴恩达推荐了有着神经科学背景的Greg Corrado。(在研究生院的课堂上,Corrado粗略地学习了该技术,但他对此很感兴趣,他开玩笑说道:“那天我上课的时候很专心。”)在春天,他们团队又多了一名吴恩达的得意研究生Quoc Le,他是项目团队的第一个实习生。在那之后,一些谷歌工程师用“谷歌大脑”来形容Marvin项目。


术语“人工智能”是在1956年夏天在达特茅斯的一种宪法惯例中诞生的,当时大多数研究人员认为创造AI的最佳方法是写一个非常大而全面的程序,将逻辑推理的规则和有关世界的知识写入其中。比方说,如果你想把英语翻译成日语,你需要把所有的英语语法规则、牛津英语词典中包含的所有定义、所有的日语语法规则,和日语字典中的所有单词都编入计算机。这种观点通常被称为“符号化AI”。因为它的认知定义是基于符号逻辑的,但它已经有些过时,只能算作是“好的老式的AI”。


这种老式方法有两个主要问题。一是,它非常耗费人力和时间;二是,它只有在规则和定义非常清楚的领域(比如数学或象棋)才真正起作用。然而,如果翻译采用这种方法,效果会很差,因为我们平时说的话没办法跟词典上的规则和定义完全对应。比方说,这样的系统可能会把“农业部长”翻译为“农业牧师”。但是,对于数学和国际象棋来说,这种老式方法就很奏效。


不过,这种老式方法的系统确实有限。在20世纪80年代,卡内基梅隆的机器人研究员指出,让计算机做成人能做的事情很简单,但让计算机做一个1岁的小孩可以做的事情却几乎是不可能的,比如拿起一个球或识别一只猫。到了20世纪90年代,尽管计算机能够在国际象棋上战胜世界冠军,我们离真正的人工智能还差得远。


关于AI,还有另外一种看法,计算机的学习是自下而上(从数据),而不是从上到下(从规则)学习。这个概念可追溯到20世纪40年代初,研究人员发现灵活自动智能的最佳模型就是人类大脑本身。毕竟,大脑只不过是很多神经元的集合体,神经元之间可能会相互传递电荷,或者不会传递。重要的不是单个神经元本身,而是它们之间的连接方式。这种结构很简单,为大脑提供了丰富的适应性优势。大脑可以在信息量少或缺失的情况下工作;它在承受重大的损害时,也不会完全失去控制;它可以用非常有效的方式存储大量的知识;它可以区分不同的模式,但同时保留必须的混乱来处理歧义。


所以人类开始试图用电子元件来模仿这种结构,1943年研究表明,简单的人工神经元排布可以执行基本的逻辑功能。至少在理论上,神经元可以模仿人类的方式。实际上,神经元会根据试错把相互之间的突触连接调节得更强或更弱。人工神经网络也可以做类似的事情,在不断试错的基础上逐步改变人工神经元之间的数字关系。人工神经网络不需要使用固定规则来预编程,相反,它会改变自身以反映所输入的数据中的模式。


这种观点认为人工智能是进化得来,而不是创造出来的。如果你想要一个灵活而且能适应环境的机制,不能一开始就教它国际象棋。必须从非常基本的能力,如感官知觉和运动控制开始,长此以往更先进的技能才有可能出现。人类并不是通过记忆字典和语法书来学习和理解语言的,所以我们有什么理由要让计算机通过这样的方式来学习呢?


谷歌大脑是第一个对这种思维方式进行商业投资的机构。Dean、Corrado和吴恩达利用闲暇时间进行合作并对此展开研究,很快他们便取得了进展。他们从最新的理论大纲和自20世纪八九十年代以来的已有框架中提取了他们的模型的搭建灵感,他们还利用了谷歌巨大的数据储备和庞大的计算基础设施。他们利用网络上大量的“标记”数据,让计算机不断改进从而更好地匹配现实。


某天,Dean告诉我说:“动物进化出眼睛是个巨大的发展。”我们像往常一样坐在会议室,他在白板画了一个复杂的时间线,展示了谷歌大脑以及它与神经网络的历史关系。“现在,计算机也有了眼睛,我们能够借助眼睛让计算机识别图片。机器人的能力将得到巨大提升。他们将能够在一个未知的环境中,处理各种不同的问题。”这些他们正在研发的能力可能看起来很原始,但它们的影响是深远的。

7.4_.jpg

上图:Geoffrey Hinton,他在谷歌多伦多办事处提出的想法为谷歌翻译的神经网络方法奠定了基础。 图片来源:《纽约时报》的Brian Finke




2、重量级实习生


正如Dean所说,谷歌大脑诞生一年后,就在研发具有1岁小孩智力的机器中取得了不错的成绩。谷歌的语音识别团队将其旧系统的一部分转换为神经网络,并因此取得了该系统20年来的最好成效。该系统识别对象的能力提高了一个数量级。这不是因为谷歌大脑的研究人员在短短一年内就产生了很棒的新想法,而是因为谷歌终于在该领域投入了资源和人力。


Geoffrey Hinton的到来让谷歌大脑发展更为迅猛。在谷歌大脑成立的第二年,Hinton被招聘到了谷歌大脑,而吴恩达离开了谷歌(吴恩达现在领导百度1300人的AI团队)。Hinton只能离开多伦多大学在谷歌任职三个月,因此由于奥术合同的原因,他不得不被聘为实习生。在实习培训中,辅导人员说“输入您的LDAP(目录访问协议)”,他问道:“什么是LDAP?”在场其他所有25岁的职员,尽管他们可能刚刚弄清深度学习是人工智能的必要条件,都在想“那个老家伙是谁?为什么他连LDAP是什么都不知道?”


Hinton说道:“在午餐时间,团队成员里有个人惊呼‘Hinton教授!我选修了你的课程!你居然在这里?’”从那以后,大家才不对Hinton议论纷纷。


几个月后,Hinton和他的两个学生在一个称为ImageNet的开源集合运行的大型图像识别竞赛中展示了惊人的成果,他们让计算机不仅能识别猴子,而且能够区分蜘蛛猴和吼猴,以及各种不同品种的猫。谷歌很快就向Hinton和他的学生发起了聘用书,他们接收了谷歌的聘用。Hinton说道:“我本以为谷歌对我们的知识产权感兴趣,结果没想到是对我们这几个人感兴趣。”


Hinton来自英国的传统家族,像Darwins一样,他们家族非常注重教育。他伟大的曾祖父是George Boole,他在符号逻辑方面的基础工作为计算机打下基础;Hinton的祖父是一位著名的外科医生,Hinton的父亲是一位热爱冒险的昆虫学家,Hinton的父亲的表哥是洛斯阿拉莫斯研究所的研究员,等等。而Hinton曾在剑桥和爱丁堡大学读数,然后又到卡内基梅隆大学学习,最后他又到多伦多大学。(他的工作长期以来一直受到加拿大政府的慷慨支持。)我在他的办公室对他进行了采访,他顶着一头成熟的诺埃尔加拉格尔风格的黄到褪色的头发,穿着一件宽松的条纹衬衫,椭圆形的眼镜滑落到高挺的鼻子尖端。他开口说道:“计算机会比美国人更早地理解讽刺为何物。”


19世纪60年代末,Hinton在剑桥大学读本科时,就一直致力于研究神经网络,他是该领域的先驱。但大多数时候,每当他谈及机器学习,人们都觉得他在满口胡言。人们之所以觉得神经网络荒谬,主要是因为感知机(Perceptron)被过度炒作,感知机是一个人工神经网络,是康奈尔心理学家Frank Rosenblatt于20世纪50年代后期提出的。《纽约时报》曾报道,感知机的赞助商美国海军期望它“能够走路、说话、看、写作,甚至再造自己,并意识到自己的存在”。结果证明这是不切实际的。美国的Marvin Minsky曾在1954年的普林斯顿论文中研究过神经网络,但是他对于布朗克斯科学当代的Rosenblatt对神经范式的夸张描述已经厌倦了。(他也在争取国防部的投资。)Minsky与MIT的同事一起出版了一本书,来证明有一些简单问题是感知器永远不能解决的。


Minsky对感知机的抨击只是一个“层”的网络,在后来的生活中,他阐述了与当代深度学习非常相似的想法。Hinton认为,如果使用多层神经网络,就能够完成复杂的任务。神经网络的最简单的描述是,它是一个机器,能在数据中发现模式并进行分类或预测。如果只有一层神经网络,你可以找到简单的模式,但如果有多层神经网络,你应该去找模式中的模式。在图像识别的领域,主要使用的是“卷积神经网络”。(这是在1998年的一篇开创性论文中阐述的,其主要作是Yann LeCun,他在多伦多大学读博士后,是Hinton的学生,现在是Facebook人工智能实验室的负责人。)网络的第一层负责学习识别“边缘”的基本视觉效果,也就是判断一个东西(一个像素上)是否有东西。网络的每个连续层都在前一层中寻找模式。边缘的图案可以是圆形也可以是矩形,圆形或矩形的图案可能是面部。这种方法或多或少地以越来越抽象的方式将信息组合在一起,从视网膜中的光感受器将信息返回到大脑的视觉皮层。在每个步骤中,不相关的细节会被丢弃,因为如果几个边缘和圆圈合在一起成为一张面部,你无需知道发现面部的位置,只需要知道它是一张脸。


多层“深度”神经网络的问题是试错法部分非常复杂。对于单层神经网络来说,这很容易。想象一下,如果你正在和一个孩子玩。你告诉孩子,“拿起绿色的球,把它放入盒子A中”,孩子拿起一个绿色的球,但把它放入了盒子B。你会说,“再试一次把绿色球放在盒子A中”,孩子会再次尝试把球放入了盒子A中。


现在想象你告诉孩子,“拿起一个绿色的球,穿过三号门,然后把绿色的球放入盒子A。”孩子却拿起一个红色的球,穿过了二号门,把红色的球放入盒子B。那么你该如何纠正孩子呢?你不能只是不断重复初始指示,因为孩子不知道他到底错在哪一步。在现实生活中,你可以先举起红球和绿球,说“这是红球,这是绿球”。但是,机器学习的重点是避免这种明确的指导。Hinton和其他几个人研究了解决方案(或者,对旧的方案进行了改造)。对于这个分层错误问题,在20世纪70年代末和80年代初,计算机科学家重新开始对神经网络感兴趣。Hinton说道:“人们对此非常兴奋,但我们的研究超出了他们的兴趣。”很快,计算机科学家们又跟以前一样认为Hinton这样的人是怪人和神秘主义者。


这种想法在哲学家和心理学家中仍然很受欢迎,他们称之为“连接主义”或“并行分布式处理”。Hinton告诉我说,“有几个人对这个想法保持热情,这很好,因为这是真正的人工智能。但在心理学领域,很多人相信这种想法,但却没能力实现它。”尽管加拿大政府一直大力支持,但Hinton也没能实现这个想法。“因为没有足够的计算机资源或足够的数据,我们只能自我安慰道:‘是的,如果我们有这样的前提条件,这个想法肯定是行得通的。’但这却并不是一个非常有说服力的论据。”




3、深层解读深度学习


当Pichai提到“人工智能优先(A.I. First)”概念时,他不仅仅是在说谷歌的战略计划,更是把这个长期不可行的想法扔给了公司。Pichai在资源分配上,确保了像Dean和Hinton这样的人才有足够的计算资源和数据资源可用。每个大脑大约有1000亿个神经元,每个神经元与其他10000个神经元相连,这意味着大脑内突触的数量在100万亿和1000万亿之间。对于20世纪40年代提出的简单人工神经网络来说,根本不可能实现这样规模的网络。虽然目前我们也远没达到构建这种规模网络的能力,但谷歌Brain的投资让我们至少实现了可以媲美小鼠大脑的人工神经网络。


然而,理解网络规模的重要性之前,你必须了解一些技术细节,如机器智能究竟对数据做了什么。其实,我们对人工智能的恐惧,主要来自于我们认为它像一个反社会天才在图书馆挖掘知识,然后,或许某一天,曾经只会玩回形针的机器会像对待蚂蚁或莴苣一样轻松杀死人类。但这并不是人工智能的工作方式,它们所做的只是搜索并寻找共同点——首先是基本模式,然后逐渐变复杂。真正最大的危险在于,我们人类最初给它灌输的信息是否就包含个人偏见。


如果只是想了解一二,可以直接阅读下一节(内容是关于猫的),如果想理解相关技术,那请继续阅读。(当然,本节内容也是关于猫。)


如果你想在老式的符号化AI模型上生成一个“猫识别器”。那么首先,你必须花大量时间预先对机器详细明确地说明什么是“猫”。告诉机器,一只猫有四条腿、尖尖的的耳朵、晶须和尾巴等。机器将这些信息存储在内存中的“Cat”区域。接下来,提供一张图片,让机器判断是否是猫。判断过程中,首先,机器必须分离出图像中不同的元素;然后,利用内存中存储的规则处理这些元素。规则如下:如果(腿 = 4)且(耳朵 = 尖)且(胡须 = 有)且(尾巴 = 有)且(表情= 高傲),那么(猫 = 是)。但如果你提供一张苏格兰折耳猫的图片呢?我们符号化 AI模型就会根据“耳朵 != 尖”判断图片上不是猫。 这样的识别水平比蹒跚学步的小孩都差。


而现在,如果用神经网络做这个实验,就根本不需要通过一系列预先定义的规则进行判别,也根本不需要专门的空间来存储“猫”的信息,包含大量相互连接着的开关的大型blob会解决这一切。在blob的一端提供输入(待识别图像),另一端提供输出(标记信息)。然后,机器将自动化工作,通过不断调试相互连接的开关,最终将输入正确映射到对应的输出。训练过程就像是在迷宫中挖掘一系列隧道,隧道两端连接的是正确的输入和输出。可用的训练数据越多,挖掘的隧道数量和复杂性就越大。训练过程一旦完成,blob中有了足够多的隧道,神经网络就能稳定处理数据并作出可靠预测。这就是“监督学习(Supervised Learning)”。


神经网络之所以需要如此多的神经元和数据,因为它以一种类似民主的方式工作。例如,你想训练可识别五种类型物体的神经网络,它由数百万“选民”(神经元)组成,每位选民都有五张不同的卡片,分别是:猫、狗、蜘蛛猴、勺子、除颤器。拿出一张图片,问:“这是猫,狗,蜘蛛猴,勺子还是除颤器?”所有神经元分组进行投票,最终得票最多的作为最终结果:“一只狗?”


你告诉它:“不!是只猫。重新计算。”


然后,神经网络退回一步,确定哪些神经元投票“猫”,哪些不是。那些投票“猫”的神经元,下次如果还投“猫”,其权重加倍。除此之外,该神经网络也必须能准确判别其他物体类别,如狗和除颤器。而神经网络之所以如此灵活,是因为每个单独的个体针对不同的输出贡献的权重不一样。其实,最关键的不是个体投票,而是这种投票模式。如果Joe, Frank 和Mary一起投票,那就是一只狗;如果Joe, Kate和Jessica一起投票,那就是一只猫;而如果Kate, Jessica 和Frank一起投票,图片上就是一个除颤器。神经网络只需要注册大量可识别信号,这些信号表示:图片中该像素区域是“猫”。“选民”越多,投票次数就越多,微弱信号也越可能被注册。简单来说,就是如果只有Joe, Frank 和Mary三个选民,你可能仅限于区分猫、狗和除颤器;而如果有数百万选民,不同选民之间有数十亿连接,那么你就可以对数据精确分类。经过训练的“选民”组合甚至可以识别未标记图片(或许不那么精确)。


计算科学领域之所以不接受这些理念,部分原因在于机器的输出仅仅是基于模式的预测,它并不完美,而且机器永远无法确切地定义什么是“猫”。只有在看到猫的时候,机器才知道那是猫。神经元“选民”通过数百万张猫图像的训练,它们可以识别出在阳光下打盹的快乐小猫,和躲在垃圾箱阴影中的生气小猫。实际上,你需要大量的神经元“选民”和足够的已标记数据,前者用来确保神经网络可以捕捉到非常微弱的信号,如苏格兰折耳猫垂下的耳朵,后者用来尽可能确保神经网络已“见过”所有相似场景。


但是,需要注意的是,神经网络的输出结果具有概率性,这意味着它并不适用于所有任务。如果神经网路把猫误认为狗,或者偶尔推送了错误的电影,这都不是大事,但如果应用于无人驾驶,神经网络1%的失误率可能就酿成了悲剧。类似担忧还有很多。监督学习是基于已标记数据进行反复试验的过程。机器完成的只是学习过程,而人为因素仍然决定了最初对训练数据的分类。例如,训练数据中,图片上是一位男士和一位女士,某人将该图片标记为“一位女士和她的老板”,这种关系标记将影响所有后续的模式识别。因此,人类错误标记才会导致训练数据错误。机器可能通过重罪定罪数据,来确定信贷候选人贷款资格。但如果重罪定罪数据本身就是不公平的(如数据是基于歧视性禁毒法),那么机器输出的可贷款人名单也是不可靠的。


图像识别网络与我们的小猫识别器一样,也是深度学习的一种,但常常把它作为教学示例,因为人类可直观了解到图像识的具体过程:先找图像边缘,然后识别圆圈,接着识别脸。这意味着其中有错误保护措施。例如,早期,谷歌发现他们的图像识别软件无法单独识别出杠铃,哪怕用大规模运动器材图像集对其训练,结果也是一样。通过可视化工具观察发现,由于训练集中所有哑铃都是附在手臂上的,所以机器没有学习到“哑铃”的概念,而是“哑铃+手臂”的整体概念。改进一下,向训练集中加入单独的“杠铃”照片,问题就解决了。但并不是所有问题都这么容易。




4、猫识别论文


谷歌Brain部门在一到两年时间内,成功让机器具备了1岁小孩的智能。随后,该部门成功从谷歌X实验室“毕业”,并成为了更高级的研究机构。(谷歌X实验室负责人曾经指出,Brain取得的成就,让整个实验室的努力没有白费。)当时,谷歌Brain仍然只有10人不到,而对于未来,也只有一个模糊的概念。但即使在那时,他们都在积极思考接下来会发生什么。就像人一样,学会认识皮球后,我们会为之满足一段时间,但迟早,人类会产生关于皮球的问题。这就是语言产生的原因。


这一领域中,Brain迈出的第一步是发表了猫识别论文,正是这篇论文,Brain闻名世界。


这篇论文展示了一个具有超过十亿个“突触”连接的神经网络。虽然与人类大脑相比,它小了好几个数量级,但它比当时任何公开的神经网络都要大好几百倍。这个神经网络可以处理原始的、未标记数据,并识别高级的人类概念。谷歌Brain的研究人员向该神经网络展示了几百万的静态帧(来自YouTube视频),然后神经网络的感觉中枢开始运转,生成了一个稳定的模型。像小孩或花栗鼠一样聪明,该模型可以迅速识别出猫的脸。研究人员并没有预先向该神经网络输入关于“猫”概念,它直接与现实世界交互并获取“猫”这一定义。(研究人员发现,这一神经网络与核磁共振(M.R.I.)很相像,猫的脸部阴影会激发人工神经元“投票”的热情。)大多数机器学习都受限于已标记数据的数据量。但这篇论文却显示,该神经网络可以处理原始未标记数据,有时甚至是人类都还没建立起概念的数据。这不仅仅是猫识别研究的重大突破,更是整个人工智能的显著进步。


猫识别论文的第一作者是Quoc Le。Le个头不高,身形偏瘦,说话温和但语速很快,经常穿着闪亮的黑皮鞋,而且面带神秘的微笑。他在越南长大,父母都是农民,小时候家里甚至都没有电。他从小就表现出了过人的数学能力,后来,他就读于一所磁铁学校学习科学。上世纪90年代末,Le还在上学,那时候他就试图构建一个聊天机器人。他在想,这有多难呢?

“但实际上,”他告诉我,“非常不简单。”


毕业后,Le离开了越南,前往澳大利亚堪培拉的一所大学学习,主要研究机器视觉这类人工智能任务。当时人工智能的主要做法是,提前给机器灌输相关概念(如,边缘),这让他感觉像是在作弊。当时的Le不知道,全世界有很多计算机科学家和他的想法一样——机器可以从零开始学习。2006年,Le任职于德国的马克斯普朗克研究所生物控制部门。在当时的一个阅读小组中,他读到了Geoffrey Hinton写的两篇论文,他觉得自己豁然开朗。


“这两篇文章引起了争议,”他告诉我。“非常大的争议。”我们在一个小型内部会议室里,天花板又窄又高,屋子里有一张小桌子和两块白板。Le看了眼他画在背后白板上的曲线,又回过头来轻声地说,“我从没见到过这么大的争议”。


他记得,当时在阅读小组里站起来,然后说,“这就是未来。”但在当时,这是个不受欢迎的决定。Le在澳大利亚的导师不能完全理解他的想法,写邮件问到,“你为什么决定做这个?”


“那时,我想不到怎么回答这个问题,”Le说。“因为,我只是好奇。文章中提出了一个成功的范式,老实说,我只是对这个新范式感到好奇。那时还是2006年,这样的观点非常罕见。”然后,Le 加入了斯坦福的吴恩达团队,接着他开始沿着 Hinton 的道路探索。“到了2010年年底,我确信会有事情发生。”


不久之后,Le成为了Brain的首位实习生。在Brain,他继续着自己的论文工作,也就是后来发表的猫论文的前身。在一个简单层面上,Le只是想看看计算机能否被训练并自主识别给定图像中的绝对必要的信息。他向神经网络输入了一张YouTube上的静态图片。然后,指示神经网络丢弃一些信息,但并不说明哪些信息应该保留哪些应该丢弃。神经网络随机丢弃了一些信息。接着,Le又说:“刚刚是开玩笑的。现在基于你刚刚保留下来的信息,重新构建初始图像。”这种方式就像他先要求机器找到一种方式“总结”图像,然后,基于总结的信息回溯原始图像。如果总结的都是些不相关信息(如天空的颜色),而不是关键信息(如有没有胡须),计算机就无法有效重构原始图像。计算机的反应就像我们远古的祖先,他们在逃跑中建立起对剑齿虎的印象。而Le的神经网络与我们的祖先的方式不同,它需要不断地尝试。从数学角度来说,每次尝试后,它都选择不同的信息进行优化,而且表现地越来越好。然而,神经网络是个黑盒子,它确实生成了某种范式,但人类并不能直观地理解这些范式。


猫论文发表后,引起了极大凡响,而Le并未感觉到自己掌握了业界的话语权。但他强烈感觉到,应该继续自己早年聊天机器人的想法。发表了猫论文后,Le意识到,如果神经网络可以总结图片信息,那么它或许也可以总结语句信息。在接下来两年中,这一想法深深印在Le和Tomas Mikolov(Le在Brain的同事)的脑海中。


那段时间,Brain团队占据了好几个办公室,甚至一度占用了高管的地方。随后,他们收到了管理处的邮件,要求他们不要在Larry Page和Sergey Brin的 办公室门口的沙发上睡觉。后来,他们被安排到街对面的研究楼里工作,在那里,研究人员专心研究,而不必应付同事间礼貌而无效率的交谈。当然在这一过渡期,谷歌的竞争对手们也在奋力前行。(Le神情严肃地一遍一遍提及他与Tomas Mikolov的亲密合作。最后我忍不住问道,“他离开了?”Le点点头,回答道:“去了Facebook”。)

7.5_.jpg

上图:2012年的谷歌 Brain团队。他们发表了著名的“猫论文”,演示论文中的神经网络处理未标记数据。研究人员向该神经网络提供几百万的静态帧(来自YouTube视频),神经网络生成了一个稳定的模型并且识别出猫。


那段时间,他们极力想构造出不仅能执行简单的静态图片分类任务,也能处理复杂的任务(如自然语言或音乐)的神经网络架构。他们的许多观点在上世纪九十年代就出现了,Le和他的同事们专门回顾了那些被忽略的概念,希望能从中得到启发。他们知道,一旦建立了一个具有基本语言预测功能的模型,也就可以基于此完成各种其他类型智能任务,如预测电子邮件的合适回复或者预测谈话过程。你可以侧重于那些从表面看起来很像思维过程的任务。
 
 
来源:人工智能学家
 
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
北京大数据产业投资基金正式发布 扎克伯格启用AI“管家
圣诞节太多小孩被机器人吸引
 
智造家
智造家二维码.jpg