本月累计签到次数:

今天获取 积分

AI

AI

445 浏览

当AI变成宣传武器:继续深扒大数据公司Cambrige Analytica

智能科技类 一见你就笑 2017-03-30 16:33 发表了文章 来自相关话题

 “这简直就是台宣传机器。它一个个地拉拢公众,使他们拥护某个立场。如此程度的社会工程,我还是头一次得见。他们用情绪作为缰绳,套住人们,然后就再也不松手了。”乔纳森·奥尔布赖特(Jonathan Albright)教授说。



奥尔布赖特是美国伊隆大学的助理教授兼数据科学家。唐纳德·特朗普当选美国总统后,他开始探究假新闻网站泛滥的幕后真相。我们采访了包括奥尔布赖特在内的业内专家,包括牛津大学计算机政治宣传项目主任萨缪尔·沃利(Samuel Woolley),以及英国国王学院的媒体、传播与权力中心主任马丁·摩尔(Martin Moore)。



从中我们发现,事情不只几篇假新闻这么简单。假新闻只是一小块拼图。它与其他拼图一道,构成了一幅更大、更黑暗的图景——人工智能变成武器,被用于操控我们的意见和行为,以实现特定的政治和商业目的。



利用大数据分析、人工智能程序、机器人水军、Fecebook“暗帖”(dark post;定向投放给特定用户的帖子)和A/B对照实验,一家名为Cambrige Analytica的公司制造出了一台,无形的机器它抓住选民的不同个性,实现了舆论的大规模引导和转向。



在过去,这些技术都曾被单独运用过,可一旦集结起来,它们就成了一台坚不可摧的选民操控机器。很快,它创造的这种机器就会大行其道,变成全球各国选举中的决定性因素之一。





Cambridge Analytica首席执行官亚历山大·尼克斯在2016年的康科迪亚峰会上的演讲


去年,Cambrige Analytica仅仅是小试牛刀便创造了辉煌的战绩。在它的辅佐下,唐纳德·特朗普登上美国权力巅峰;英国脱欧运动一锤定音;泰德·克鲁兹(Ted Cruz)也曾在2016年短时崛起,一跃进入共和党初选的第一阵营。



对于这家公司,目前我们只知道它是由保守派和“另类右派”政治势力控制。这些势力也与特朗普政府有着千丝万缕的联系。



比如,美国的默瑟家族既是Cambridge Analytica的大老板之一,也是特朗普的大金主之一。史蒂夫·班农——特朗普的首席战略师、白宫国家安全理事会的成员——又是Cambridge Analytica的董事会成员。此前,Cambridge Analytica的首席技术官(CTO)还一直担任美国共和党全国代表大会的代理CTO。



眼下,Cambridge Analytica正全速挺进美国商业市场,也在与欧洲、亚洲和拉美的右翼政党和政府讨论合作事宜。



其实,拥有这个能耐的科技公司并不只有Cambridge Analytica一家,只不过目前最炙手可热的就数它了。这家公司浮出水面,代表着一个新时代的到来。今后无论你是想要在政治或商业上取得成功,就必须要理解Cambridge Analytica的那套玩法,以及理解它创造的那种AI宣传机器。在这个充斥着极化、孤立、水军和暗帖的世界中,这家公司所代表的东西,亦即武器化的AI宣传机器,已经成为政治和商业成功的新前提。



关于Cambridge Analytica本身,以及这种机器的其中某些个方面——机器人水军、假新闻、微定向——媒体的报道已经汗牛充栋。但如果聚合在一起,这些技术会变得多么强大?在未来的竞选和商业宣传中,它们的影响力会达到何种程度?对于这个层面的问题,据我们所知,目前还没有人进行过综合的考察。



在过去的竞选宣传中,人们借助新闻媒体,将文字作为武器,在纸媒、电台和电视上相互讨伐。而这种新武器所带来的,是远远更加阴暗的东西—一因人而异、自我调整、致人上瘾的宣传活动。近十年来,硅谷致力于构建的种种平台,目的就是让用户对数字内容成瘾,但还仅仅是停留在商业层面。2016年,特朗普及其盟友率先在政治层面将它用了起来。



我们步入了一个全新的时代。在未来,我们还能否实现文明的、建设性的对话,就看我们能否理解这个时代,并准确把握它的脉搏了。






欢迎进入AI变成宣传武器的新时代



第一部分:当大数据监视邂逅计算机心理学


这年头,但凡是家像模像样的公司都在收集并购买大数据,但Cambridge Analytica开发了一种模型,可将数据转化为个性档案,用于预测你的行为,并最终改变它们。这个模型是怎么开发出来的呢?



这个事情要从2013年讲起。当时还在剑桥大学心理测量学中心读博士的迈克尔·科辛斯基(Michal Kosinski)公布了一项突破性的研究。它能够将Facebook用户的“点赞”记录,与他们开发的“五大性格特质”(OCEAN;最常用的一种个性特质问卷)评分模型相匹配。



然后,他们便可以仅靠一个人在Facebook上的点赞行为,判断出此人的性别、性取向、政治倾向和个性特质。






这套模型仅凭某用户在Facebook上的十个‘赞’,它就能对一个人的个性特质作出判断,准确率超过此人同事对他的了解;凭借70个“赞”,就足以赛过其好友;150个赞赛过父母;300赞赛过另一半;再多一点,它甚至能赛过此人对自己的了解。



过了没多久,剑桥大学的另一位教授亚历山大·高根(Aleksandr Kogan)找到科辛斯基,撮合他将这套分析工具授权给SCL Elections——一家自称专业操纵选举的公司。对科辛斯基的实验室来说,这笔授权费不是一个小数目,但由于不放心该公司的意图,他最后还是回绝了。



为了开发这个模型,科辛斯基及其同事花了多年的心血,但这些方法和结果既已发布,SCL Elections要复制起来也不难了。而且,他们似乎就是这样做的。



根据英国《卫报》的调查,2014年初,就在科辛斯基拒绝邀约的几个月后,SCL转而与高根达成合作关系。高根通过众包平台Amazon Mechanical Turk,向每位参与者支付1美元,让他们做一份五大个性测试。



不过,事情没那么简单——参与者必须向高根开放所有Facebook数据的访问权。他们被告知:数据将被用于研究。很多参与测试的人可能没有意识到,他们的Facebook好友也在不知不觉中被拉进了测试,数据也被收集走了。



正是高根搜集的这些“研究数据”催生了Cambridge Analytica。它很快就从SCL Elections中分拆了出来。



最早的这批数据固然宝贵,但仅仅是个开端——对Cambridge Analytica来说,它只是种子,用来孵化自己的模型,以便日后脱离五大个性测试,直接分析用户个性。



在成功地验证这些概念后,Cambridge Analytica便开始大举收购互联网用户的年龄、购物习惯、土地所有权等各类数据,乃至他们去哪个教堂、光顾哪些店面、订阅什么杂志,通通收入囊中——这些都可以从各种数据中间商,以及兜售个人信息的第三方机构处买到。



Cambridge Analytica将这些数据与选民名册、网络公开数据——包括Facebook的点赞在内——聚合起来,一起投入个性预测模型。



Cambridge Analytica公司CEO亚历山大·尼克斯(Alexander Nix)就曾经在一次演讲中吹嘘说,凭借其个性模型,该公司足以给美国的所有成年人建立个性档案。



“Twitter和Facebook都被用来收集很多反馈数据,因为围绕某个话题,光回复、转发还不算,人们一兴奋,就把自己的论点和老底全发出来了。”奥尔布赖特解释说。




第二部分:专挑情绪下手的自动化互动脚本


收集有关选民个性的海量数据还不是Cambridge Analytica的与众不同之处,关键要看他们拿数据做什么。







“行为是受个性驱动的。你越了解个性对行为的驱动作用,就越能理解人们为何做出某一决定,以及该决定是如何做出的。”尼克斯向彭博社的萨莎·艾森伯格(Sasha Issenburg)解释说。“我们称之为行为学微定向,这可是我们的秘密武器。”







利用这些个性档案,Cambridge Analytica不仅能知道哪些选民最有可能改变立场,或改变支持对象;还能预测并改变他们未来的行为。



据Vice网站报道,科辛斯基最近正与一名同事合作开展新研究,探讨这些方法的有效性。从早期研究结果看,他们发现:在Facebook上使用个性定向,点击量最多可增加63%;由广告带来的咨询或购买等行为最多可增加1400次。



在技术和媒体生态系统中,有一些研究人员长期观察着Cambridge Analytica的政治传播活动,并发现了一个不断膨胀的自适应型在线网络,它正以政治传播领域内前所未见的规模,进行着自动化的选民操控。



“他们(特朗普竞选团队)每天投放4到5万条内容略有差异的广告,然后反复评估用户的反馈,并依据这些反馈作出调整,”国王学院的马丁·摩尔说,“这些操作都是完全不透明的,针对某个特殊的地理范围,他们爱投多少,就投多少。这个范围最小可以精确到五英里。”



传统民调机构可能会直接问你:你打算把票投给谁?但Cambridge Analytica依据的不是言语,而是行动。它跟踪人们在网络上的举动,以及表现出来的兴趣,恰如其分地呈现出差异性的广告,旨在利用每个人的个性特质,改变他们的行为。



该公司CEO尼克斯去年在一篇专栏文章中写道:“举个例子,我们的模型发现,爱荷华州存在那么一小部分选民,他们强烈认为,公民在投票站投票时,应出示身份证件。”



“我们又借助另外的数据模型,给竞选团队给出建议,教他们如何抓住这个小众议题,按照每个人的独特个性,随机应变地施加影响力,激励人们行动起来,投票给克鲁兹。有的人个性反复无常,不喜欢从一而终,对这群人,我们可以说:投票时出示一下身份证件,就跟买箱啤酒一样简单。有的人传统观念根深蒂固,我们就可以说:投票时出示身份证件,难道不是我们生活在民主国家的众多特权之一吗?”



对Cambridge Analytica而言,反馈是即时的,应对过程也是自动化的:这人是宾州的一个摇摆选民,他有没有点击关于希拉里邮件门的广告?点击了?那就显示更多的内容,强调希拉里如何失责。没有?自动脚本就换个标题试试,也许换个切入点——比如针对此人容易听信权威的特质。于是,标题就换成了:《情报部门高官一致认为:希拉里电邮门危及国家安全》。


以上很多都是靠Facebook暗帖来实现的,只有被定向投放的人才能看见。



基于用户对这些帖子的反响,Cambridge Analytica就能知道,在特朗普的政治宣传中,哪些讯息在哪个地方最能引起共鸣。特朗普竞选路线的安排也参考了这些信息。



如果在密歇根州肯特郡,你定向投放了三篇有关让就业回归美国的文章,而73%的定向选民都点击了其中一篇——那还等什么,赶紧在那儿安排一场特朗普竞选集会!不讲别的,就讲经济复苏。



希拉里的竞选团队采取了传统的民调方法,当特朗普安排在“蓝墙”州(历来倒向民主党的几个州,包括密歇根、宾夕法尼亚和威斯康辛等)举行集会时,希拉里阵营差点笑掉大牙。但根Facebook暗帖的互动情况,Cambridge Analytica察觉到其中有机可乘。



看看下图就知道,特朗普最后当上总统,关键就在于密歇根、宾夕法尼亚和威斯康辛这几个州的倒戈。






从2012年大选到2016年大选,美国各州共和党/民主党获胜比例的变化幅度



Cambridge Analytica也把暗帖部署到了民主党的关键选民群体中,用来降低这些人的投票率。“在这场大选中,暗帖被用来抑制黑人选民投票。”记者麦肯齐·芬克(McKenzie Funk)在《纽约时报》的社论中写道。


“据彭博社报道,特朗普团队向特定黑人选民投放广告,反复提及希拉里把黑人称为‘超级掠夺者’。在迈阿密的小海地社区,它则定向投放2010年海地地震内容,突出当时克林顿基金会的丑事。”


暗帖只有特定用户可见,除了Cambridge Analytica和特朗普团队,没有人能追踪这些广告的内容,自然不用受到政府部门的监管和大众的监督。只有那几百万个被定向的用户看过它们,真正是做到了阅后即焚。



在临近投票前几周,一个竞选团队可以针对最关键的那些摇摆选民发起暗帖攻势,未来大选中的“黑天鹅”就会是这样诞生。




第三部分:假新闻网络基础设施化

 
2016年美国大选结果出炉后,奥尔布赖特开始探究“假新闻问题”。作为研究的一部分,他探究了306个假新闻网站,弄清了它们的相互关系,以及它们与主流新闻生态网络的联系。他从中发现一个网络:一个由2.3万个网页和130万个超链接构成的网络。







“假新闻和极度偏激的多频道网络内的站点,”奥尔布赖特写道,“其节点规模非常之小——这意味着,它们严重依赖链接,这些链接指向主流媒体、社交网络和信息来源(大多都处在网络的‘中央’),但这些网站相互之间的链接却很少。”


这些网站并非由哪一个独立实体拥有或运营,他说,但联合起来,它们可以将搜索引擎优化(SEO)玩得游刃有余,谁只要搜索与大选相关的词组——特朗普、希拉里、犹太裔、穆斯林,堕胎、奥巴马医保——他们就可以立刻提升假新闻和偏激新闻的可见度。


“这个网络按需激活,以传播各种虚假、极度偏激且夹带政治私货的信息。”奥尔布赖特写道。


然而,更令他震惊的是,这个假新闻网络形成了一个强大的基础设施,使Cambridge Analytica这样的网站得以追踪选民,不断完善其个性定向模型。


“我把这些网站上的追踪器都找了出来,结果就震惊到无语了。每次你在Facebook上给这类帖子点一个赞或者访问类似的网页,你就被脚本盯上了。像Cambridge Analytica这种通过数据挖掘进行政治运作的公司,就可以准确定向个人,在网络上贴身跟踪着你,向你发送高度定制化的政治宣传信息。”

 
在去年的美国大选中,假新闻和偏激新闻站点组成的地下网络掀起了一股浩荡的政治宣传浪潮,而Cambridge Analytica正是其中的弄潮儿。用户点击查看的假新闻越多,它的个性互动算法就能把你缠得越紧。
 

虚假内容网站,自动化政治讯息测试,个性档案……这些技术协同作用,并迅速传播到其他数字媒介。奥尔布赖特的最近一项研究专注于这样一种人工智能:它们能围绕新闻和实事,自动创建Youtube视频。


这种AI能响应Facebook和Twitter上的热门话题,配上图像和副标题,并附上计算机生成的配音。短短几天之内,它们就通过19个不同的Youtube频道,发布了近8万则这样的视频。


考虑到这种技术的飞速发展,技术社群要做好心理准备:过不了多久,AI宣传就会进入移动聊天app,还有虚拟现实和增强现实场景,操控人们的情感。

 


第四部分:机器人水军佣兵集团

 
如果说,在这台自动化政治宣传机器的构建中,假新闻网络为它搭建了基础设施,那么机器人水军和各种虚假的社交媒体账号就充当了它的马前卒。


文章开头提到的牛津大学计算机政治宣传项目的研究主任塞缪尔·沃利,过去几年就一直在研究机器人水军在线上传播中扮演的角色——它们由谁创造、如何运作,以及要达到何种目的。


在2016年的美国大选前夕,沃利和他在牛津大学的团队发现,偏向特朗普的政治宣传严重依赖机器人水军。到大选日那天,相对于希拉里,特朗普的机器人水军存在5:1的数量优势。


“贯穿这场大选的,是机器人账号的战略性使用,其中以特朗普竞选团队最为明显。在大选辩论期间,程序员们对内容呈现的时机进行精细微调,战略性地占领亲希拉里的主题标签,大选一结束,这些账号就全都销声匿迹了。”沃利团队在研究报告中称。


至于这些机器人账号是不是Cambridge Analytica动用的,我们无从得知。沃利说:“机器人水军往往都是买来的,或是由外包出去,因为这些‘外围工人’跟竞选团队关系很远,也就不受选举委员会监管。”


在团队主要研究员菲利普·霍华德(Philip Howard)的带领下,沃利和同事们自2010年起,就开始追踪这类机器人账号的使用。这个过程中,他们接触过黑客、机器人水军制造者、政治活动者,试图了解他们,理解他们的工作和动机。到最后,这些努力变成了一个由上百名机器人账号制造者组成的线人网络,让沃利团队能及时了解这个地下世界的新动向。 


这其中就包括机器人账号被用于政治宣传运动的消息,来源正是这些账号的制造者。随着越来越多的国际政治领袖开始使用机器人水军网络,来作为他们的竞选工具之一,沃利团队开始追踪事态进展。


这些线人让我们看到这样一个世界:由政府、咨询公司(这些公司的老板或高管通常都处在政府官员最内层的人脉圈子)和个人组成的国际网络,他们构建并维护巨大的机器人水军网络,放大宣传效果,传播与对手针锋相对的讯息,谁要是对他们的服务对象构成威胁,就设法使之噤声。


这些机器人水军也分三六九等。最普通的Twitter机器人账号就完全是个自动程序——专门转发特定账号的帖子,帮助推广特定观念或观点。它们还能鉴别出使用特定关键词或主题标签的Twitter用户,自动回复其推文,文案都是预先写好的。


另一方面,比较高端的机器人水军反而由真人运作的成份更高。他们扮成个性鲜明的路人甲,针对具体内容或话题,跟其他用户展开互动,旨在改变对方的观点。在网络上,他们也有好友和关注者。Facebook或Twitter很难找出并封杀这些账号。


沃利估计,一个人独立工作,最多可同时维护400个传统的Twitter机器人账号;Facebook对虚假账号相对查得更严,所以一个人最多只能同时管理10到20个这样的账号。


因此,这些水军网络常同时服务于多个政治运动。在英国脱欧公投期间,牛津大学的团队观察发现,一个曾参与影响以巴冲突舆论的水军网络被重新激活,为脱欧阵营摇旗呐喊。那些个人页面纷纷更新,反映最新的争论焦点,个性签名也纷纷更改,与最新的效忠对象保持一致——英国就这样走上了脱欧之路。




AI宣传机器的未来


2016年的美国大选已然结束,但武器化的AI政治宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。



目前,特朗普和Cambridge Analytica将对手甩出了好几条街。收集的个人数据越多,Cambridge Analytica和特朗普政府就越能从网络效应中受益。



特朗普个人账号@realDonaldTrump和美国总统官方账号@POTUS发出的每一条推文,不论是宣布还是捍卫他们采取的行动,都会迎来反对和争论的声浪。但哪怕是像这样的负面互动,对特朗普政府来说,也是宝贵的资产,因为每一条一时冲动发出的推文,都可以作为心理特质实验。



未来政治比的不是候选人,也不是财力,甚至都不是大数据。大数据谁都能获取,就连2016年败选的希拉里也不例外。



从今往后,一场大选谁胜谁负,决定性因素将是候选人如何运用这些数据,来完善其机器学习算法,以及自动化互动策略。到2018和2020年,大选所比的不再是观点,而是看谁能自动化地改变人们的行为。



谁要想推行变革,就得理解这种新的现实。只有理解这一点,以及构建更加完善的自动化互动系统,放大真实的人类激情,而不是操控它们,全球各地的其他候选人和事业才有竞争的希望。



不久的将来,这种AI宣传将如何在社会中传播开来?对此,我们采访了政治战略师、技术专家,以及机器学习专家。我们希望联手读者,针对未来可能发生的场景展开一番设想。以下列出几个潜在后果,算是抛砖引玉了。




后果1:舆情变成高频交易


拜股票交易算法所赐,很多股市和大宗商品市场中的交易都不再依靠人类来定夺。一些人认为,这样的交易系统也不再能充当价值的风向标。它们成了高频交易算法的斗法之所,这些算法试图影响价格,或在不断变动的价格中,寻找微小的获利空间。


在不久的将来,类似的情况也可能发生在商业宣传和公共辩论之中。舆论不再是官方通告和意见之争,而变成了算法之争,其部署都以左右舆情为目的。


眼下这种算法已经存在于金融市场,它们能实时分析数百万条社交网络发言和网络新闻,并基于市场情绪,在几毫秒的时间内,完成交易。算法交易和“算法舆论”已经紧密联系起来。日后,它们还会进一步整合。




后果2:专抓软肋的个性化、自动化宣传


假设2020年,特朗普在竞选连任时,并不具备最有说服力的政治讯息,但这些政治讯息变成2.5亿个算法版本,针对美国的每一个选民,同步实时更新,经过个性化定制,精准契合政治宣传对象的世界观,专攻他们性格上的薄弱点。


过不了多久,能说会道的政客就会销声匿迹,信口雌黄的政治和企业机器人水军却迎来寒武纪般的生命大爆发,它们操控人的手段也越来越高明。




后果3:困在自己的舒适区?试试困在机器人水军营造的虚拟世界里!


试想2020年,你发现自己最喜欢的社交网络意见群里其实一个真人都没有,只有几千个机器人水军,不断印证你的观点,让你以为“找到了组织”,这将是怎样一副景象?也许,你将永远身在其中而不自知。
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:人工智能学家 查看全部

1.jpg

 “这简直就是台宣传机器。它一个个地拉拢公众,使他们拥护某个立场。如此程度的社会工程,我还是头一次得见。他们用情绪作为缰绳,套住人们,然后就再也不松手了。”乔纳森·奥尔布赖特(Jonathan Albright)教授说。



奥尔布赖特是美国伊隆大学的助理教授兼数据科学家。唐纳德·特朗普当选美国总统后,他开始探究假新闻网站泛滥的幕后真相。我们采访了包括奥尔布赖特在内的业内专家,包括牛津大学计算机政治宣传项目主任萨缪尔·沃利(Samuel Woolley),以及英国国王学院的媒体、传播与权力中心主任马丁·摩尔(Martin Moore)。



从中我们发现,事情不只几篇假新闻这么简单。假新闻只是一小块拼图。它与其他拼图一道,构成了一幅更大、更黑暗的图景——人工智能变成武器,被用于操控我们的意见和行为,以实现特定的政治和商业目的。



利用大数据分析、人工智能程序、机器人水军、Fecebook“暗帖”(dark post;定向投放给特定用户的帖子)和A/B对照实验,一家名为Cambrige Analytica的公司制造出了一台,无形的机器它抓住选民的不同个性,实现了舆论的大规模引导和转向。



在过去,这些技术都曾被单独运用过,可一旦集结起来,它们就成了一台坚不可摧的选民操控机器。很快,它创造的这种机器就会大行其道,变成全球各国选举中的决定性因素之一。

2.JPG

Cambridge Analytica首席执行官亚历山大·尼克斯在2016年的康科迪亚峰会上的演讲


去年,Cambrige Analytica仅仅是小试牛刀便创造了辉煌的战绩。在它的辅佐下,唐纳德·特朗普登上美国权力巅峰;英国脱欧运动一锤定音;泰德·克鲁兹(Ted Cruz)也曾在2016年短时崛起,一跃进入共和党初选的第一阵营。



对于这家公司,目前我们只知道它是由保守派和“另类右派”政治势力控制。这些势力也与特朗普政府有着千丝万缕的联系。



比如,美国的默瑟家族既是Cambridge Analytica的大老板之一,也是特朗普的大金主之一。史蒂夫·班农——特朗普的首席战略师、白宫国家安全理事会的成员——又是Cambridge Analytica的董事会成员。此前,Cambridge Analytica的首席技术官(CTO)还一直担任美国共和党全国代表大会的代理CTO。



眼下,Cambridge Analytica正全速挺进美国商业市场,也在与欧洲、亚洲和拉美的右翼政党和政府讨论合作事宜。



其实,拥有这个能耐的科技公司并不只有Cambridge Analytica一家,只不过目前最炙手可热的就数它了。这家公司浮出水面,代表着一个新时代的到来。今后无论你是想要在政治或商业上取得成功,就必须要理解Cambridge Analytica的那套玩法,以及理解它创造的那种AI宣传机器。在这个充斥着极化、孤立、水军和暗帖的世界中,这家公司所代表的东西,亦即武器化的AI宣传机器,已经成为政治和商业成功的新前提。



关于Cambridge Analytica本身,以及这种机器的其中某些个方面——机器人水军、假新闻、微定向——媒体的报道已经汗牛充栋。但如果聚合在一起,这些技术会变得多么强大?在未来的竞选和商业宣传中,它们的影响力会达到何种程度?对于这个层面的问题,据我们所知,目前还没有人进行过综合的考察。



在过去的竞选宣传中,人们借助新闻媒体,将文字作为武器,在纸媒、电台和电视上相互讨伐。而这种新武器所带来的,是远远更加阴暗的东西—一因人而异、自我调整、致人上瘾的宣传活动。近十年来,硅谷致力于构建的种种平台,目的就是让用户对数字内容成瘾,但还仅仅是停留在商业层面。2016年,特朗普及其盟友率先在政治层面将它用了起来。



我们步入了一个全新的时代。在未来,我们还能否实现文明的、建设性的对话,就看我们能否理解这个时代,并准确把握它的脉搏了。






欢迎进入AI变成宣传武器的新时代



第一部分:当大数据监视邂逅计算机心理学


这年头,但凡是家像模像样的公司都在收集并购买大数据,但Cambridge Analytica开发了一种模型,可将数据转化为个性档案,用于预测你的行为,并最终改变它们。这个模型是怎么开发出来的呢?



这个事情要从2013年讲起。当时还在剑桥大学心理测量学中心读博士的迈克尔·科辛斯基(Michal Kosinski)公布了一项突破性的研究。它能够将Facebook用户的“点赞”记录,与他们开发的“五大性格特质”(OCEAN;最常用的一种个性特质问卷)评分模型相匹配。



然后,他们便可以仅靠一个人在Facebook上的点赞行为,判断出此人的性别、性取向、政治倾向和个性特质。

3.jpg


这套模型仅凭某用户在Facebook上的十个‘赞’,它就能对一个人的个性特质作出判断,准确率超过此人同事对他的了解;凭借70个“赞”,就足以赛过其好友;150个赞赛过父母;300赞赛过另一半;再多一点,它甚至能赛过此人对自己的了解。



过了没多久,剑桥大学的另一位教授亚历山大·高根(Aleksandr Kogan)找到科辛斯基,撮合他将这套分析工具授权给SCL Elections——一家自称专业操纵选举的公司。对科辛斯基的实验室来说,这笔授权费不是一个小数目,但由于不放心该公司的意图,他最后还是回绝了。



为了开发这个模型,科辛斯基及其同事花了多年的心血,但这些方法和结果既已发布,SCL Elections要复制起来也不难了。而且,他们似乎就是这样做的。



根据英国《卫报》的调查,2014年初,就在科辛斯基拒绝邀约的几个月后,SCL转而与高根达成合作关系。高根通过众包平台Amazon Mechanical Turk,向每位参与者支付1美元,让他们做一份五大个性测试。



不过,事情没那么简单——参与者必须向高根开放所有Facebook数据的访问权。他们被告知:数据将被用于研究。很多参与测试的人可能没有意识到,他们的Facebook好友也在不知不觉中被拉进了测试,数据也被收集走了。



正是高根搜集的这些“研究数据”催生了Cambridge Analytica。它很快就从SCL Elections中分拆了出来。



最早的这批数据固然宝贵,但仅仅是个开端——对Cambridge Analytica来说,它只是种子,用来孵化自己的模型,以便日后脱离五大个性测试,直接分析用户个性。



在成功地验证这些概念后,Cambridge Analytica便开始大举收购互联网用户的年龄、购物习惯、土地所有权等各类数据,乃至他们去哪个教堂、光顾哪些店面、订阅什么杂志,通通收入囊中——这些都可以从各种数据中间商,以及兜售个人信息的第三方机构处买到。



Cambridge Analytica将这些数据与选民名册、网络公开数据——包括Facebook的点赞在内——聚合起来,一起投入个性预测模型。



Cambridge Analytica公司CEO亚历山大·尼克斯(Alexander Nix)就曾经在一次演讲中吹嘘说,凭借其个性模型,该公司足以给美国的所有成年人建立个性档案。



“Twitter和Facebook都被用来收集很多反馈数据,因为围绕某个话题,光回复、转发还不算,人们一兴奋,就把自己的论点和老底全发出来了。”奥尔布赖特解释说。




第二部分:专挑情绪下手的自动化互动脚本


收集有关选民个性的海量数据还不是Cambridge Analytica的与众不同之处,关键要看他们拿数据做什么。

4.jpg



“行为是受个性驱动的。你越了解个性对行为的驱动作用,就越能理解人们为何做出某一决定,以及该决定是如何做出的。”尼克斯向彭博社的萨莎·艾森伯格(Sasha Issenburg)解释说。“我们称之为行为学微定向,这可是我们的秘密武器。”

5.jpg



利用这些个性档案,Cambridge Analytica不仅能知道哪些选民最有可能改变立场,或改变支持对象;还能预测并改变他们未来的行为。



据Vice网站报道,科辛斯基最近正与一名同事合作开展新研究,探讨这些方法的有效性。从早期研究结果看,他们发现:在Facebook上使用个性定向,点击量最多可增加63%;由广告带来的咨询或购买等行为最多可增加1400次。



在技术和媒体生态系统中,有一些研究人员长期观察着Cambridge Analytica的政治传播活动,并发现了一个不断膨胀的自适应型在线网络,它正以政治传播领域内前所未见的规模,进行着自动化的选民操控。



“他们(特朗普竞选团队)每天投放4到5万条内容略有差异的广告,然后反复评估用户的反馈,并依据这些反馈作出调整,”国王学院的马丁·摩尔说,“这些操作都是完全不透明的,针对某个特殊的地理范围,他们爱投多少,就投多少。这个范围最小可以精确到五英里。”



传统民调机构可能会直接问你:你打算把票投给谁?但Cambridge Analytica依据的不是言语,而是行动。它跟踪人们在网络上的举动,以及表现出来的兴趣,恰如其分地呈现出差异性的广告,旨在利用每个人的个性特质,改变他们的行为。



该公司CEO尼克斯去年在一篇专栏文章中写道:“举个例子,我们的模型发现,爱荷华州存在那么一小部分选民,他们强烈认为,公民在投票站投票时,应出示身份证件。”



“我们又借助另外的数据模型,给竞选团队给出建议,教他们如何抓住这个小众议题,按照每个人的独特个性,随机应变地施加影响力,激励人们行动起来,投票给克鲁兹。有的人个性反复无常,不喜欢从一而终,对这群人,我们可以说:投票时出示一下身份证件,就跟买箱啤酒一样简单。有的人传统观念根深蒂固,我们就可以说:投票时出示身份证件,难道不是我们生活在民主国家的众多特权之一吗?”



对Cambridge Analytica而言,反馈是即时的,应对过程也是自动化的:这人是宾州的一个摇摆选民,他有没有点击关于希拉里邮件门的广告?点击了?那就显示更多的内容,强调希拉里如何失责。没有?自动脚本就换个标题试试,也许换个切入点——比如针对此人容易听信权威的特质。于是,标题就换成了:《情报部门高官一致认为:希拉里电邮门危及国家安全》。


以上很多都是靠Facebook暗帖来实现的,只有被定向投放的人才能看见。



基于用户对这些帖子的反响,Cambridge Analytica就能知道,在特朗普的政治宣传中,哪些讯息在哪个地方最能引起共鸣。特朗普竞选路线的安排也参考了这些信息。



如果在密歇根州肯特郡,你定向投放了三篇有关让就业回归美国的文章,而73%的定向选民都点击了其中一篇——那还等什么,赶紧在那儿安排一场特朗普竞选集会!不讲别的,就讲经济复苏。



希拉里的竞选团队采取了传统的民调方法,当特朗普安排在“蓝墙”州(历来倒向民主党的几个州,包括密歇根、宾夕法尼亚和威斯康辛等)举行集会时,希拉里阵营差点笑掉大牙。但根Facebook暗帖的互动情况,Cambridge Analytica察觉到其中有机可乘。



看看下图就知道,特朗普最后当上总统,关键就在于密歇根、宾夕法尼亚和威斯康辛这几个州的倒戈。

6.jpg


从2012年大选到2016年大选,美国各州共和党/民主党获胜比例的变化幅度



Cambridge Analytica也把暗帖部署到了民主党的关键选民群体中,用来降低这些人的投票率。“在这场大选中,暗帖被用来抑制黑人选民投票。”记者麦肯齐·芬克(McKenzie Funk)在《纽约时报》的社论中写道。


“据彭博社报道,特朗普团队向特定黑人选民投放广告,反复提及希拉里把黑人称为‘超级掠夺者’。在迈阿密的小海地社区,它则定向投放2010年海地地震内容,突出当时克林顿基金会的丑事。”


暗帖只有特定用户可见,除了Cambridge Analytica和特朗普团队,没有人能追踪这些广告的内容,自然不用受到政府部门的监管和大众的监督。只有那几百万个被定向的用户看过它们,真正是做到了阅后即焚。



在临近投票前几周,一个竞选团队可以针对最关键的那些摇摆选民发起暗帖攻势,未来大选中的“黑天鹅”就会是这样诞生。




第三部分:假新闻网络基础设施化

 
2016年美国大选结果出炉后,奥尔布赖特开始探究“假新闻问题”。作为研究的一部分,他探究了306个假新闻网站,弄清了它们的相互关系,以及它们与主流新闻生态网络的联系。他从中发现一个网络:一个由2.3万个网页和130万个超链接构成的网络。

7.jpg



“假新闻和极度偏激的多频道网络内的站点,”奥尔布赖特写道,“其节点规模非常之小——这意味着,它们严重依赖链接,这些链接指向主流媒体、社交网络和信息来源(大多都处在网络的‘中央’),但这些网站相互之间的链接却很少。”


这些网站并非由哪一个独立实体拥有或运营,他说,但联合起来,它们可以将搜索引擎优化(SEO)玩得游刃有余,谁只要搜索与大选相关的词组——特朗普、希拉里、犹太裔、穆斯林,堕胎、奥巴马医保——他们就可以立刻提升假新闻和偏激新闻的可见度。


“这个网络按需激活,以传播各种虚假、极度偏激且夹带政治私货的信息。”奥尔布赖特写道。


然而,更令他震惊的是,这个假新闻网络形成了一个强大的基础设施,使Cambridge Analytica这样的网站得以追踪选民,不断完善其个性定向模型。


“我把这些网站上的追踪器都找了出来,结果就震惊到无语了。每次你在Facebook上给这类帖子点一个赞或者访问类似的网页,你就被脚本盯上了。像Cambridge Analytica这种通过数据挖掘进行政治运作的公司,就可以准确定向个人,在网络上贴身跟踪着你,向你发送高度定制化的政治宣传信息。”

 
在去年的美国大选中,假新闻和偏激新闻站点组成的地下网络掀起了一股浩荡的政治宣传浪潮,而Cambridge Analytica正是其中的弄潮儿。用户点击查看的假新闻越多,它的个性互动算法就能把你缠得越紧。
 

虚假内容网站,自动化政治讯息测试,个性档案……这些技术协同作用,并迅速传播到其他数字媒介。奥尔布赖特的最近一项研究专注于这样一种人工智能:它们能围绕新闻和实事,自动创建Youtube视频。


这种AI能响应Facebook和Twitter上的热门话题,配上图像和副标题,并附上计算机生成的配音。短短几天之内,它们就通过19个不同的Youtube频道,发布了近8万则这样的视频。


考虑到这种技术的飞速发展,技术社群要做好心理准备:过不了多久,AI宣传就会进入移动聊天app,还有虚拟现实和增强现实场景,操控人们的情感。

 


第四部分:机器人水军佣兵集团

 
如果说,在这台自动化政治宣传机器的构建中,假新闻网络为它搭建了基础设施,那么机器人水军和各种虚假的社交媒体账号就充当了它的马前卒。


文章开头提到的牛津大学计算机政治宣传项目的研究主任塞缪尔·沃利,过去几年就一直在研究机器人水军在线上传播中扮演的角色——它们由谁创造、如何运作,以及要达到何种目的。


在2016年的美国大选前夕,沃利和他在牛津大学的团队发现,偏向特朗普的政治宣传严重依赖机器人水军。到大选日那天,相对于希拉里,特朗普的机器人水军存在5:1的数量优势。


“贯穿这场大选的,是机器人账号的战略性使用,其中以特朗普竞选团队最为明显。在大选辩论期间,程序员们对内容呈现的时机进行精细微调,战略性地占领亲希拉里的主题标签,大选一结束,这些账号就全都销声匿迹了。”沃利团队在研究报告中称。


至于这些机器人账号是不是Cambridge Analytica动用的,我们无从得知。沃利说:“机器人水军往往都是买来的,或是由外包出去,因为这些‘外围工人’跟竞选团队关系很远,也就不受选举委员会监管。”


在团队主要研究员菲利普·霍华德(Philip Howard)的带领下,沃利和同事们自2010年起,就开始追踪这类机器人账号的使用。这个过程中,他们接触过黑客、机器人水军制造者、政治活动者,试图了解他们,理解他们的工作和动机。到最后,这些努力变成了一个由上百名机器人账号制造者组成的线人网络,让沃利团队能及时了解这个地下世界的新动向。 


这其中就包括机器人账号被用于政治宣传运动的消息,来源正是这些账号的制造者。随着越来越多的国际政治领袖开始使用机器人水军网络,来作为他们的竞选工具之一,沃利团队开始追踪事态进展。


这些线人让我们看到这样一个世界:由政府、咨询公司(这些公司的老板或高管通常都处在政府官员最内层的人脉圈子)和个人组成的国际网络,他们构建并维护巨大的机器人水军网络,放大宣传效果,传播与对手针锋相对的讯息,谁要是对他们的服务对象构成威胁,就设法使之噤声。


这些机器人水军也分三六九等。最普通的Twitter机器人账号就完全是个自动程序——专门转发特定账号的帖子,帮助推广特定观念或观点。它们还能鉴别出使用特定关键词或主题标签的Twitter用户,自动回复其推文,文案都是预先写好的。


另一方面,比较高端的机器人水军反而由真人运作的成份更高。他们扮成个性鲜明的路人甲,针对具体内容或话题,跟其他用户展开互动,旨在改变对方的观点。在网络上,他们也有好友和关注者。Facebook或Twitter很难找出并封杀这些账号。


沃利估计,一个人独立工作,最多可同时维护400个传统的Twitter机器人账号;Facebook对虚假账号相对查得更严,所以一个人最多只能同时管理10到20个这样的账号。


因此,这些水军网络常同时服务于多个政治运动。在英国脱欧公投期间,牛津大学的团队观察发现,一个曾参与影响以巴冲突舆论的水军网络被重新激活,为脱欧阵营摇旗呐喊。那些个人页面纷纷更新,反映最新的争论焦点,个性签名也纷纷更改,与最新的效忠对象保持一致——英国就这样走上了脱欧之路。




AI宣传机器的未来


2016年的美国大选已然结束,但武器化的AI政治宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。



目前,特朗普和Cambridge Analytica将对手甩出了好几条街。收集的个人数据越多,Cambridge Analytica和特朗普政府就越能从网络效应中受益。



特朗普个人账号@realDonaldTrump和美国总统官方账号@POTUS发出的每一条推文,不论是宣布还是捍卫他们采取的行动,都会迎来反对和争论的声浪。但哪怕是像这样的负面互动,对特朗普政府来说,也是宝贵的资产,因为每一条一时冲动发出的推文,都可以作为心理特质实验。



未来政治比的不是候选人,也不是财力,甚至都不是大数据。大数据谁都能获取,就连2016年败选的希拉里也不例外。



从今往后,一场大选谁胜谁负,决定性因素将是候选人如何运用这些数据,来完善其机器学习算法,以及自动化互动策略。到2018和2020年,大选所比的不再是观点,而是看谁能自动化地改变人们的行为。



谁要想推行变革,就得理解这种新的现实。只有理解这一点,以及构建更加完善的自动化互动系统,放大真实的人类激情,而不是操控它们,全球各地的其他候选人和事业才有竞争的希望。



不久的将来,这种AI宣传将如何在社会中传播开来?对此,我们采访了政治战略师、技术专家,以及机器学习专家。我们希望联手读者,针对未来可能发生的场景展开一番设想。以下列出几个潜在后果,算是抛砖引玉了。




后果1:舆情变成高频交易


拜股票交易算法所赐,很多股市和大宗商品市场中的交易都不再依靠人类来定夺。一些人认为,这样的交易系统也不再能充当价值的风向标。它们成了高频交易算法的斗法之所,这些算法试图影响价格,或在不断变动的价格中,寻找微小的获利空间。


在不久的将来,类似的情况也可能发生在商业宣传和公共辩论之中。舆论不再是官方通告和意见之争,而变成了算法之争,其部署都以左右舆情为目的。


眼下这种算法已经存在于金融市场,它们能实时分析数百万条社交网络发言和网络新闻,并基于市场情绪,在几毫秒的时间内,完成交易。算法交易和“算法舆论”已经紧密联系起来。日后,它们还会进一步整合。




后果2:专抓软肋的个性化、自动化宣传


假设2020年,特朗普在竞选连任时,并不具备最有说服力的政治讯息,但这些政治讯息变成2.5亿个算法版本,针对美国的每一个选民,同步实时更新,经过个性化定制,精准契合政治宣传对象的世界观,专攻他们性格上的薄弱点。


过不了多久,能说会道的政客就会销声匿迹,信口雌黄的政治和企业机器人水军却迎来寒武纪般的生命大爆发,它们操控人的手段也越来越高明。




后果3:困在自己的舒适区?试试困在机器人水军营造的虚拟世界里!


试想2020年,你发现自己最喜欢的社交网络意见群里其实一个真人都没有,只有几千个机器人水军,不断印证你的观点,让你以为“找到了组织”,这将是怎样一副景象?也许,你将永远身在其中而不自知。
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:人工智能学家
476 浏览

联想成立人工智能实验室,挖来AI大牛就能玩转AI了吗?

智能科技类 机器猫 2017-03-27 16:07 发表了文章 来自相关话题

 
如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
  
 
 
 
近日联想宣布成立人工智能实验室,由近期加盟的徐飞玉博士负责实验室的研发工作。据了解,加入联想前,徐飞玉博士曾担任德国人工智能研究中心语言技术实验室文本分析研究组负责人以及首席研究员,自1998年就在上述机构工作,擅长多语言信息系统、大数据分析、文本挖掘、问答系统和NLP技术移动应用等领域研究。
 
 

正式成立人工智能实验室会让研究组织更集中,多少意味着对AI研发的加码,更重要的是,有利于吸纳AI人才。
 
 

去年以来,业内频繁有科技企业挖角AI技术大牛的消息。2016年底微软吸纳了前微软亚洲研究院常务副院长芮勇博士加盟,担任联想CTO。
 
 

而就在联想成立人工智能实验室的消息公布后一日,英特尔也宣布设立AI产品事业部和应用实验室,这意味着英特尔已经将所有AI相关的业务整合到了一个部门。
 
 

一位业内人士对36氪称,“AI的发展在过去经历了几番起落,成果并不令人满意,英特尔、IBM这些大公司在历史上都曾经开始过AI实验室,而后又关停。” 不过大公司们在押注这一轮浪潮不会轻易退去。
 
 

未来所有的公司都是人工智能公司,对于具备一定实力的企业,人工智能实验室也是行业标配。就像“互联网+”之后,已经很难用一条线去划分互联网公司和传统公司。如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
 
 

硬件设备厂商未来的战场在物联网。因此追赶AI的风口颇为辛苦,但不得不为。
 
 

不过在研发和销售自有品牌电脑前,联想靠为惠普、IBM等国际PC巨头做代理起家。强大的销售体系是联想的基因,但联想从未以擅长前沿技术的研发闻名。
 
 

联想和联想研究院未来的创新方向,在于“设备+云”。杨元庆此前曾在公开场合表示,“联想要打造更高级、具有“云大脑”的下一代终端设备,不仅能听懂、看懂人类的语言,会和用户用语音进行自然交互,而且还能借助云端和大数据分析数据,为用户提供的服务从被动变成主动。”
 
 

不过这个目标,远不是挖来几个AI大牛就可以实现的。另外,尽管语音识别、语音合成技术目前已经相对成熟,但智能设备所依托的语意理解,人机交互,仍是需要长期投入来攻克。联想能否玩的转人工智能,还要看这家公司的决心。
 
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:微信公众号 36氪  孙然  查看全部

1.jpg

 
如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
  
 
 
 
近日联想宣布成立人工智能实验室,由近期加盟的徐飞玉博士负责实验室的研发工作。据了解,加入联想前,徐飞玉博士曾担任德国人工智能研究中心语言技术实验室文本分析研究组负责人以及首席研究员,自1998年就在上述机构工作,擅长多语言信息系统、大数据分析、文本挖掘、问答系统和NLP技术移动应用等领域研究。
 
 

正式成立人工智能实验室会让研究组织更集中,多少意味着对AI研发的加码,更重要的是,有利于吸纳AI人才。
 
 

去年以来,业内频繁有科技企业挖角AI技术大牛的消息。2016年底微软吸纳了前微软亚洲研究院常务副院长芮勇博士加盟,担任联想CTO。
 
 

而就在联想成立人工智能实验室的消息公布后一日,英特尔也宣布设立AI产品事业部和应用实验室,这意味着英特尔已经将所有AI相关的业务整合到了一个部门。
 
 

一位业内人士对36氪称,“AI的发展在过去经历了几番起落,成果并不令人满意,英特尔、IBM这些大公司在历史上都曾经开始过AI实验室,而后又关停。” 不过大公司们在押注这一轮浪潮不会轻易退去。
 
 

未来所有的公司都是人工智能公司,对于具备一定实力的企业,人工智能实验室也是行业标配。就像“互联网+”之后,已经很难用一条线去划分互联网公司和传统公司。如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
 
 

硬件设备厂商未来的战场在物联网。因此追赶AI的风口颇为辛苦,但不得不为。
 
 

不过在研发和销售自有品牌电脑前,联想靠为惠普、IBM等国际PC巨头做代理起家。强大的销售体系是联想的基因,但联想从未以擅长前沿技术的研发闻名。
 
 

联想和联想研究院未来的创新方向,在于“设备+云”。杨元庆此前曾在公开场合表示,“联想要打造更高级、具有“云大脑”的下一代终端设备,不仅能听懂、看懂人类的语言,会和用户用语音进行自然交互,而且还能借助云端和大数据分析数据,为用户提供的服务从被动变成主动。”
 
 

不过这个目标,远不是挖来几个AI大牛就可以实现的。另外,尽管语音识别、语音合成技术目前已经相对成熟,但智能设备所依托的语意理解,人机交互,仍是需要长期投入来攻克。联想能否玩的转人工智能,还要看这家公司的决心。
 
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:微信公众号 36氪  孙然 
957 浏览

十位中国AI界最值得关注的科学家

智能科技类 烈酒暖心 2017-03-21 12:19 发表了文章 来自相关话题

百度首席科学家吴恩达在今年4月的一次演讲中说,“我们处在一个独特时期,这是一个人工智能将会改变世界的时期,如果你知道怎么运用人工智能,你今天的一个决策将有可能在接下来十年里改变世界。”
 

今年是人工智能60周年。尽管在一个多世纪之前,就已经有了人工科学这个概念,但“人工智能”一词最初是在1956年达特茅斯学会上提出的。
 

中国自80年代成立人工智能学会,发展至今已取得引人注目的进步。(图:世界人工智能发展历史)






造就为大家搜集了十位推动中国人工智能发展的领军人物。
 
 

吴恩达供职于:百度






擅长领域:深度学习


人工智能和机器学习领域国际上最权威的学者之一。2008年,吴恩达入选《麻省理工科技创业》杂志评选出的科技创新35俊杰,入选者均35岁以下的35个世界上最顶级的创新者之一。“计算机和思想奖”的获得者。
 

2013年,吴恩达入选《时代》杂志年度全球最有影响力100人,成为16位科技界代表之一。 吴恩达的研究领域是机器学习和人工智能,重点是深度学习。
 

2014年百度在AI的研发投入将近70亿,同年5月吴恩达担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
 

2015年底,吴恩达带领百度硅谷人工智能实验室(SVAIL)开发出深度语音识别系统。(Deep Speech 2,该系统能通过简单学习算法准确的识别英语和汉语,并且转录普通话片段的准确率有时可以超越人类。)
 

美国知名期刊《麻省理工科技评论》将语音接口列为2016年十大突破技术,百度最新研究成果DeepSpeech2位列其中。
 

吴甘沙 






供职于:驭势科技
擅长领域:智能驾驶
 

英特尔中国研究院的第一位“首席工程师”,原任嵌入式软件实验室总监的他凭借在并行编程环境Ct/Array Building Blocks等技术领域内的突出贡献成功当选英特尔首席工程师。
 

2015年,吴甘沙离开任职16年的英特尔,在股东格灵深瞳协助下,和国家智能车未来挑战赛前冠军团队负责人姜岩等一同创办了一家智能驾驶公司——驭势科技(Uisee),以辅助驾驶为主要研发方向,为汽车品牌提供成熟的无人驾驶解决方案。
 

一方面真正做到让出行者无歧视,使得包括残疾人在内的所有人都可以驭车出行,另一方面要减少车祸伤亡,提升道路通行能力,在保障出行安全的前提下,极大提高出行效率。
 
 

汤晓鸥






供职于:香港中文大学
擅长领域:计算机视觉、模式识别、视频处理
应用:图像搜索引擎
 

1990年于中国科学技术大学获学士学位,1996年于麻省理工学院(MIT)获博士学位。现于香港中文大学信息工程系任终身教授。
 

2005到2007年,于微软亚洲研究院担任视觉计算组主任。他的研究领域包括多媒体、计算机视觉、模式识别及视频处理,已在这些领域发表论文200余篇。同微软合作已申请近40 项专利。
同微软亚洲研究院合作研发的图像识别技术已被用于微软图像搜索引擎,成为世界上第一项图像识别技术被用于大规模商业应用。
 

2015年,香港中文大学由欧阳万里、王晓刚、和汤晓鸥教授带领的 DeepID-Net 团队在ImageNet (此项竞赛对计算机深度学习影响深远,任何在 ImageNet 上取得的技术进步都会给其它计算机视觉问题带来重要影响)大规模物体检测任务比赛中,以50.3%的成绩一举超越谷歌,达到全球最高的检测率。
 

在此之前,汤晓鸥和王晓刚教授带领的 DeepID 团队在 LFW 人脸识别挑战上也有过战胜 Facebook,并在全世界首次实现人脸识别算法超越人眼识别准确率的经历。
 

余凯






供职于:地平线
擅长领域:语音识别,计算机视觉等
 

地平线机器人技术创始人兼首席执行官。曾任百度IDL常务副院长,百度研究院副院长,兼任负责百度图片搜索产品的高级总监。
 

余凯组建并领导了中国第一家以深度学习为核心的大数据人工智能研发机构IDL。曾带领的团队在语音识别,计算机视觉,互联网广告,网页搜索排序等互联网核心业务上取得突破性进展,并因此创纪录的连续三次荣获百万美金“百度最高奖”。
 

2014年以来,余凯还领导了百度大脑、自动驾驶、BaiduEye、 以及DuBike等一系列创新项目,在国内外业界产生重大影响。除在工业界所取得成就以外,余凯还是机器学习领域的国际顶尖学者,发表论文被引用超过7000次,曾在斯坦福大学等著名高校授课。
 

2015年离开百度创立了地平线机器人公司,是一家主打机器人专用“大脑”芯片研发的科技公司,致力于打造“机器人时代的Intel”。
 
 

姚期智






供职于:清华大学擅长领域:理论计算机科学
世界著名计算机学家,2000年图灵奖得主,美国科学院院士,美国科学与艺术学院院士,中国科学院外籍院士, 2004年起在清华大学任全职教授。
 

姚期智的全职回国,填补了国内计算机学科的空白:这不只是因为他无可争议的学术地位,更因为在他所从事的算法和复杂性领域,当时几乎还看不到中国国内学者的身影。而这一领域既是美国理论计算机科学的主流方向,又是计算机界最高奖项——“图灵奖”获奖人数最多的一个方向。
 

在清华大学先后创办计算机科学实验班(姚班)、理论计算机科学研究中心(ITCS)、交叉信息研究院(IIIS)和量子信息中心(CQI)。姚期智为人工智能领域输送了诸多人才,比如人脸识别技术的云服务平台Face++的三位创始人均毕业于清华大学姚期智实验班。
 
 

山世光






供职于:中科院
擅长领域:人脸识别
 

现为中科院智能信息处理重点实验室研究员、博士生导师。主要从事图像处理与理解、计算机视觉、模式识别、智能人机交互界面等相关研究工作,特别是与人脸识别相关的研究工作。
 

迄今已在国际/国内期刊、国际会议上发表/录用学术论文100余篇,其中IEEE Trans. on PAMI, IEEE Trans. on Image Processing等国际期刊论文30余篇。山博士所完成的人脸识别研究成果获得多项国家研究成果。
 

 
胡郁






供职于:科大讯飞
擅长领域:语音识别
 

科大讯飞公司高级副总裁、讯飞研究院院长。正高级工程师职称,在国内外核心期刊和重要国际会议上发表相关论文40余篇。
 

自1997年以来,从事智能语音核心技术研究及语音数据库建设工作,参与多项国家“863”、自然科学基金、安徽省、部级等重大项目的研发。
 

1999年,作为创始人之一创立安徽科大讯飞信息科技股份有限公司(以下简称“科大讯飞公司”)。
 

2008年6月至今,负责领导科大讯飞公司语音合成、语音识别、语音分析、语音评测、声纹语种、语音信号处理等智能语音核心技术的研究及公司整体经营管理,其领导研发的智能语音技术及系统、产品等,分别荣获国家信息产业重大技术发明奖、国家科学技术进步奖各一次,并多次荣获安徽省、部级,合肥市级科技进步奖。
 

颜水成






供职于:新加坡国立大学、360人工智能研究院
擅长领域:深度学习、人脸识别
应用:智能摄像头、行车记录仪
 

新加坡国立大学副教授,2015年加入360担任首席科学家,负责建立和领导360人工智能研究院。
颜水成教授曾入选汤森路透发布的“2014年世界最具影响力科学家”,同时2014和2015两次入选ISI Highly-cited researchers。此外,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。
 

由于在计算机视觉,机器学习和多媒体等领域的杰出贡献,颜水成被授予新加坡青年科学家奖 (YSA)和青年教授研究成就奖。
 

徐波






供职于:中科院
擅长领域:语音信息处理
 

现任中国科学院自动化所所长、高科技创新中心主任和数字内容技术中心主任。长期从事语音语言信息处理方面的研究,曾作为中文代表加入口语翻译国际合作计划C-StarIII计划,极大地推进了国内口语翻译技术的发展,形成了国际合作新模式;
 

2005开始致力于把语音语言技术应用于网络海量内容处理,目前已经成功应用于广电内容监测和教育自动测评等,已申请发明专利40余项,获得发明专利授权30余项。
 

徐波带领中国科学院自动化研究所和戴尔中国共同成立“人工智能与先进计算联合实验室”,实验室面向人工智能领域开展研究。
 

重点关注认知功能模拟、类脑智能信息处理等领域的新计算架构研究和应用,利用深度学习等技术手段,重点在视频大数据、生物特征识别、语音语言处理、机器翻译等多个领域开展创新研究。
 

黄晓庆






供职于:达闼科技
擅长领域:智能终端、流媒体、多业务移动软交换等
 

达闼科技创始人兼CEO、CTO。曾任中国移动研究院院长,“千人计划”国家特聘专家。他开发了世界第一套运营商级流媒体交换及IPTV系统。
 

黄晓庆曾在美国贝尔实验室任职,曾任美国UT斯达康公司高级副总裁兼首席技术官。他创新性地提出了“网络即交换”的软交换理论,发起成立了国际软交换组织,开发了世界第一套软交换系统,开发了世界第一套运营商级流媒体交换及IPTV系统。
 

他领导中国移动通信研究院进行技术创新和研发,提出了为运营商建设下一代移动互联网的网络、应用和终端三大基础设施的战略构想,推动TD-LTE成为B3G国际主流标准,开发了终端核心基础软件(OMS)。
 

黄晓庆于2015年从中国移动研究院离职,创办了达闼科技,主要从事云端智能机器人研究、生产制造及服务。




近年来,人工智能领域的科学家都纷纷掀起了“海归潮”、“创业潮”——我们看到,吴恩达等领军人物纷纷接起国内抛来的橄榄枝,坐镇巨头科技公司。
 

而像吴甘沙、余凯等纷纷加入创业军,研发各类人工智能产品。数据显示,2015年末,中国在人工智能领域有近百家创业公司,约65家获得29.1亿元投资, 覆盖了工业机器人、服务机器人、智能硬件等硬件产品层,智能客服、商业智能(BI)等软件/服务层,视觉识别、机器学习等技术层。
 

根据统计,2015年中国AI市场规模约12亿人民币,2020年市场规模将增至91亿元。



在视觉、语音识别方面,中国可以说是处于国际领先地位。以百度、科大讯飞为代表的两大巨头在语音视频率突破95%。



当未来已来,当我们沉浸入这智能的世界,中国的科学家和创业者们正在撕开机器与人的边界,探寻一种灵性、一种价值、一种无限的可能性。
 
 
 
更多内容请关注:www.imefuture.com





  查看全部

1.JPG


百度首席科学家吴恩达在今年4月的一次演讲中说,“我们处在一个独特时期,这是一个人工智能将会改变世界的时期,如果你知道怎么运用人工智能,你今天的一个决策将有可能在接下来十年里改变世界。”
 

今年是人工智能60周年。尽管在一个多世纪之前,就已经有了人工科学这个概念,但“人工智能”一词最初是在1956年达特茅斯学会上提出的。
 

中国自80年代成立人工智能学会,发展至今已取得引人注目的进步。(图:世界人工智能发展历史)

2.jpg


造就为大家搜集了十位推动中国人工智能发展的领军人物。
 
 

吴恩达供职于:百度

3.jpg


擅长领域:深度学习


人工智能和机器学习领域国际上最权威的学者之一。2008年,吴恩达入选《麻省理工科技创业》杂志评选出的科技创新35俊杰,入选者均35岁以下的35个世界上最顶级的创新者之一。“计算机和思想奖”的获得者。
 

2013年,吴恩达入选《时代》杂志年度全球最有影响力100人,成为16位科技界代表之一。 吴恩达的研究领域是机器学习和人工智能,重点是深度学习。
 

2014年百度在AI的研发投入将近70亿,同年5月吴恩达担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
 

2015年底,吴恩达带领百度硅谷人工智能实验室(SVAIL)开发出深度语音识别系统。(Deep Speech 2,该系统能通过简单学习算法准确的识别英语和汉语,并且转录普通话片段的准确率有时可以超越人类。)
 

美国知名期刊《麻省理工科技评论》将语音接口列为2016年十大突破技术,百度最新研究成果DeepSpeech2位列其中。
 

吴甘沙 

4.JPG


供职于:驭势科技
擅长领域:智能驾驶
 

英特尔中国研究院的第一位“首席工程师”,原任嵌入式软件实验室总监的他凭借在并行编程环境Ct/Array Building Blocks等技术领域内的突出贡献成功当选英特尔首席工程师。
 

2015年,吴甘沙离开任职16年的英特尔,在股东格灵深瞳协助下,和国家智能车未来挑战赛前冠军团队负责人姜岩等一同创办了一家智能驾驶公司——驭势科技(Uisee),以辅助驾驶为主要研发方向,为汽车品牌提供成熟的无人驾驶解决方案。
 

一方面真正做到让出行者无歧视,使得包括残疾人在内的所有人都可以驭车出行,另一方面要减少车祸伤亡,提升道路通行能力,在保障出行安全的前提下,极大提高出行效率。
 
 

汤晓鸥

5.jpg


供职于:香港中文大学
擅长领域:计算机视觉、模式识别、视频处理
应用:图像搜索引擎
 

1990年于中国科学技术大学获学士学位,1996年于麻省理工学院(MIT)获博士学位。现于香港中文大学信息工程系任终身教授。
 

2005到2007年,于微软亚洲研究院担任视觉计算组主任。他的研究领域包括多媒体、计算机视觉、模式识别及视频处理,已在这些领域发表论文200余篇。同微软合作已申请近40 项专利。
同微软亚洲研究院合作研发的图像识别技术已被用于微软图像搜索引擎,成为世界上第一项图像识别技术被用于大规模商业应用。
 

2015年,香港中文大学由欧阳万里、王晓刚、和汤晓鸥教授带领的 DeepID-Net 团队在ImageNet (此项竞赛对计算机深度学习影响深远,任何在 ImageNet 上取得的技术进步都会给其它计算机视觉问题带来重要影响)大规模物体检测任务比赛中,以50.3%的成绩一举超越谷歌,达到全球最高的检测率。
 

在此之前,汤晓鸥和王晓刚教授带领的 DeepID 团队在 LFW 人脸识别挑战上也有过战胜 Facebook,并在全世界首次实现人脸识别算法超越人眼识别准确率的经历。
 

余凯

6.jpg


供职于:地平线
擅长领域:语音识别,计算机视觉等
 

地平线机器人技术创始人兼首席执行官。曾任百度IDL常务副院长,百度研究院副院长,兼任负责百度图片搜索产品的高级总监。
 

余凯组建并领导了中国第一家以深度学习为核心的大数据人工智能研发机构IDL。曾带领的团队在语音识别,计算机视觉,互联网广告,网页搜索排序等互联网核心业务上取得突破性进展,并因此创纪录的连续三次荣获百万美金“百度最高奖”。
 

2014年以来,余凯还领导了百度大脑、自动驾驶、BaiduEye、 以及DuBike等一系列创新项目,在国内外业界产生重大影响。除在工业界所取得成就以外,余凯还是机器学习领域的国际顶尖学者,发表论文被引用超过7000次,曾在斯坦福大学等著名高校授课。
 

2015年离开百度创立了地平线机器人公司,是一家主打机器人专用“大脑”芯片研发的科技公司,致力于打造“机器人时代的Intel”。
 
 

姚期智

7.JPG


供职于:清华大学擅长领域:理论计算机科学
世界著名计算机学家,2000年图灵奖得主,美国科学院院士,美国科学与艺术学院院士,中国科学院外籍院士, 2004年起在清华大学任全职教授。
 

姚期智的全职回国,填补了国内计算机学科的空白:这不只是因为他无可争议的学术地位,更因为在他所从事的算法和复杂性领域,当时几乎还看不到中国国内学者的身影。而这一领域既是美国理论计算机科学的主流方向,又是计算机界最高奖项——“图灵奖”获奖人数最多的一个方向。
 

在清华大学先后创办计算机科学实验班(姚班)、理论计算机科学研究中心(ITCS)、交叉信息研究院(IIIS)和量子信息中心(CQI)。姚期智为人工智能领域输送了诸多人才,比如人脸识别技术的云服务平台Face++的三位创始人均毕业于清华大学姚期智实验班。
 
 

山世光

8.JPG


供职于:中科院
擅长领域:人脸识别
 

现为中科院智能信息处理重点实验室研究员、博士生导师。主要从事图像处理与理解、计算机视觉、模式识别、智能人机交互界面等相关研究工作,特别是与人脸识别相关的研究工作。
 

迄今已在国际/国内期刊、国际会议上发表/录用学术论文100余篇,其中IEEE Trans. on PAMI, IEEE Trans. on Image Processing等国际期刊论文30余篇。山博士所完成的人脸识别研究成果获得多项国家研究成果。
 

 
胡郁


9.JPG


供职于:科大讯飞
擅长领域:语音识别
 

科大讯飞公司高级副总裁、讯飞研究院院长。正高级工程师职称,在国内外核心期刊和重要国际会议上发表相关论文40余篇。
 

自1997年以来,从事智能语音核心技术研究及语音数据库建设工作,参与多项国家“863”、自然科学基金、安徽省、部级等重大项目的研发。
 

1999年,作为创始人之一创立安徽科大讯飞信息科技股份有限公司(以下简称“科大讯飞公司”)。
 

2008年6月至今,负责领导科大讯飞公司语音合成、语音识别、语音分析、语音评测、声纹语种、语音信号处理等智能语音核心技术的研究及公司整体经营管理,其领导研发的智能语音技术及系统、产品等,分别荣获国家信息产业重大技术发明奖、国家科学技术进步奖各一次,并多次荣获安徽省、部级,合肥市级科技进步奖。
 

颜水成

10.jpg


供职于:新加坡国立大学、360人工智能研究院
擅长领域:深度学习、人脸识别
应用:智能摄像头、行车记录仪
 

新加坡国立大学副教授,2015年加入360担任首席科学家,负责建立和领导360人工智能研究院。
颜水成教授曾入选汤森路透发布的“2014年世界最具影响力科学家”,同时2014和2015两次入选ISI Highly-cited researchers。此外,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。
 

由于在计算机视觉,机器学习和多媒体等领域的杰出贡献,颜水成被授予新加坡青年科学家奖 (YSA)和青年教授研究成就奖。
 

徐波

11.jpg


供职于:中科院
擅长领域:语音信息处理
 

现任中国科学院自动化所所长、高科技创新中心主任和数字内容技术中心主任。长期从事语音语言信息处理方面的研究,曾作为中文代表加入口语翻译国际合作计划C-StarIII计划,极大地推进了国内口语翻译技术的发展,形成了国际合作新模式;
 

2005开始致力于把语音语言技术应用于网络海量内容处理,目前已经成功应用于广电内容监测和教育自动测评等,已申请发明专利40余项,获得发明专利授权30余项。
 

徐波带领中国科学院自动化研究所和戴尔中国共同成立“人工智能与先进计算联合实验室”,实验室面向人工智能领域开展研究。
 

重点关注认知功能模拟、类脑智能信息处理等领域的新计算架构研究和应用,利用深度学习等技术手段,重点在视频大数据、生物特征识别、语音语言处理、机器翻译等多个领域开展创新研究。
 

黄晓庆

13.jpg


供职于:达闼科技
擅长领域:智能终端、流媒体、多业务移动软交换等
 

达闼科技创始人兼CEO、CTO。曾任中国移动研究院院长,“千人计划”国家特聘专家。他开发了世界第一套运营商级流媒体交换及IPTV系统。
 

黄晓庆曾在美国贝尔实验室任职,曾任美国UT斯达康公司高级副总裁兼首席技术官。他创新性地提出了“网络即交换”的软交换理论,发起成立了国际软交换组织,开发了世界第一套软交换系统,开发了世界第一套运营商级流媒体交换及IPTV系统。
 

他领导中国移动通信研究院进行技术创新和研发,提出了为运营商建设下一代移动互联网的网络、应用和终端三大基础设施的战略构想,推动TD-LTE成为B3G国际主流标准,开发了终端核心基础软件(OMS)。
 

黄晓庆于2015年从中国移动研究院离职,创办了达闼科技,主要从事云端智能机器人研究、生产制造及服务。




近年来,人工智能领域的科学家都纷纷掀起了“海归潮”、“创业潮”——我们看到,吴恩达等领军人物纷纷接起国内抛来的橄榄枝,坐镇巨头科技公司。
 

而像吴甘沙、余凯等纷纷加入创业军,研发各类人工智能产品。数据显示,2015年末,中国在人工智能领域有近百家创业公司,约65家获得29.1亿元投资, 覆盖了工业机器人、服务机器人、智能硬件等硬件产品层,智能客服、商业智能(BI)等软件/服务层,视觉识别、机器学习等技术层。
 

根据统计,2015年中国AI市场规模约12亿人民币,2020年市场规模将增至91亿元。



在视觉、语音识别方面,中国可以说是处于国际领先地位。以百度、科大讯飞为代表的两大巨头在语音视频率突破95%。



当未来已来,当我们沉浸入这智能的世界,中国的科学家和创业者们正在撕开机器与人的边界,探寻一种灵性、一种价值、一种无限的可能性。
 
 
 
更多内容请关注:www.imefuture.com

智造家二维码.jpg

 
527 浏览

让人工智能发明自己的语言:OpenAI语言理解研究新方向

智能科技类 盛世流光 2017-03-17 15:29 发表了文章 来自相关话题

OpenAI 研究人员认为:人工智能只有将学习的语言与实践相结合才能真正理解语言,而不是从巨大语料库中找寻语言模式。作为人工智语言之旅的第一步,我们应该研究人工智能是否可以通过交互合作自发产生一种简单的语言作为其通信工具,该研究的两篇论文已经发表在arXiv 上(见文末)。



让人工智能发明自己的语言


OpenAI 刚刚发布了让人工智能体在简单环境中自创语言的研究论文。通过给予人工智能互相交流的能力,并提出一个通过交流才能实现的奖励目标,研究人员利用强化学习和精巧的实验设计让人工智能有了自己的语言。


目前,人工智能发明的语言相对简单,具有基础与合成性的特征。基础(Grounded)意味着该语言中的单词有关环境中说话者直接经历的东西。例如:单词「树」与树的图像或其他体验之间的联系;合成性(Compositional)意味着说话者可以将多个单词组合成句子以表示特定想法,例如让另一个人工智能体去到特定位置。






在研究中,人工智能体存在于一个简单的 2D 世界,可以做出移动、观察、与其他人工智能交流等动作。在图中,1号智能体在观察中心点的时候正在说话。


为了训练人工智能体交流的能力,研究者将实验设计成必须进行合作的形式——多智能体强化学习问题。人工智能体存在于具有简单特征的 2D 世界中,每个智能体都有自己的目标:可以是观察一个物体,或是移动到特定的位置,甚至是向另一个人工智能体发出指令让它移动到特定的位置。每一个人工智能都可以向所有人工智能发出信息。每个人工智能获得的奖励分数会被相加计算,随后反馈给各个智能体,这种方式可以鼓励它们的协作。


在每一个时间步里,强化学习智能体可以选择作出两种类型的动作:a. 环境动作,如移动和观察;b. 交流动作,如向其他所有智能体发言。注意:尽管研究者发现人工智能体提出了对应于对象和其他智能体的单词,以及像「看看」或「转到」等动词,但这些单词是由one-hot vector 表示的抽象符号——研究者将这些矢量以英语单词表示以标注它们的含义。在每一个时间步之前,人工智能体都会先处理上一个时间步其他智能体发出的信息,并获知世界中所有物体的位置。交流的信息被存储在人工智能体自有的循环神经网络中,听到的单词会被记住。






在时间步发展中,t=0 时红色智能体对其他智能体说了一个单词以表示红色界标(图中深红色),随后在t=1 时又说了相当于「去(Goto)」的单词,在 t=2 时它说:「绿色智能体」。绿色智能体听到了这些指令,立即移动到了红色界标的位置。


可区分的动作(信息由类似于单词的符号组成)在互不交汇的信道之中传递。这样,每个信道在每个时间步上都是畅通的,可以保证信息能被传递到所有智能体那里。这种方式是通过稍稍改变信息的内容,让智能体在接受信息时可以获得额外奖励达成的。智能体通过计算关于未来奖励的梯度和收到信息中奖励的变化预期决定自己的下一步动作(例如:这些信息中的哪一个能让奖励变多?)。如果一个智能体意识到另一个智能体发出另一种信息可以更好地完成任务,前者就会告诉后者如何换一种说法。换句话说,人工智能体在任务中会提出这样的问题:「我们应该如何交流才能获得最好的奖励?」


通过使人工智能体发送一个实数向量或者相互发送二进制值的连续近似,再或者使用非微分通信和训练,之前的努力成功获取了这种可微分通信。在训练中研究者使用Gumbel-Softmax 策略来近似带有连续性表征的分离性通信决策,这使研究者们得到了两全其美的结果。在训练中可微分通道意味着智能体可用连续性表征快速学习相互之间如何通信,结果就是在训练结束之后汇聚了分离性输出,这些输出的可阐释性更强,并具有组合性的特点。在下面的视频中,OpenAI展示了如何进化语言以拟合其处境的复杂性:一个人工智能体不需要通信;两个智能体发明了一个词的短语以在处理简单任务时,相互协作;三个智能体创造了包含多个词的句子以用于完成更具挑战性的任务。








通过设计实验影响语言的进化


所有的研究走过的道路都是曲折的。OpenAI 的智能体一开始经常会发明不具有合成性特征的语言。即使智能体成功发明了想要的语言,其解决方案也会经常具有「个人特征」。


研究人员遇到的第一个问题就是智能体创造单一话语并将其映射到空间而产生意义这一倾向。这种莫尔斯电码类的语言很难解密并是一种非合成性(non-compositional)语言。为了纠正这一点,研究员对每个语句添加微小的成本,并对快速完成任务添加了优先权。这样的设置就能鼓励智能体更简洁地进行交流,同时也将拥有更大的词汇量。


研究员遇到的另一个问题是智能体会试图使用单个单词编码整个句子的意义。之所以会发生这样的问题,是因为研究者们赋予了智能体使用大型词汇库的能力。通过大型词汇库,智能体最终会创造出单一话语进而编码整个句子的的意义(如「红色智能体,去蓝色界标」)。虽然这对智能体十分有用,但这种方法要求词汇量的大小与句子长度成指数型地增长,并且与创造人类可解释的(interpretable)人工智能这一目标不相符。为了防止智能体创造出这种语言,研究员们通过给已流行单词加上偏好而压缩单词量的规模,这一灵感来源于「句法交流的演变(Theevolution of syntactic communication)」。研究员们给予特定单词的奖励与这个单词之前所出现的频率成比例。


最后,研究员还发现了一些智能体并不基于颜色,而会基于其他特征如空间位置等线索发明界标参照(landmarkreferences)。例如,智能体会发明一些「top-most」或「left-most」等指代二维坐标系统位置信息的词。虽然这些行为是非常具有创造性的,但其在特定环境中的实现是十分具体的,并且如果从本质上改变智能体所处的地理构成,那么系统就会出现问题。为了解决这个问题,研究者们将智能体放置在以自身为原点的坐标系(智能体之间没有共享的坐标系)。这个做法就解决了方向问题,智能体们也就能有自身的色彩属性指向界标。




不能说话?让我为你指路。听不到?让我做你的向导


当智能体不能通过文本相互交流,并且必须在模拟环境中执行物理运动时,该训练法同样能运作。在接下来的动图中,研究员们展示了智能体指向点的即时情况或指导其他智能体去目标的情况,在极端情况下智能体会看不见它们的目标。











从上到下:人工智能智能体通过指向将目标的位置信息通知另一个智能体;较小的智能体引导更大的智能体朝向目标;智能体将一个盲目的智能体推向一个目标。




推论语言和基底语言


如今,很多人已经将机器学习应用到与语言相关的任务中,也取得了巨大成功。大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成以及其他领域取得了重要成就。所有这些研究方法都是给系统输入海量文本数据,系统从中提取特征并发现模式。虽然这类研究已经产生了无数个发明与创新,但仍然有些缺点,这与所学语言的表征质量有关。越来越多的研究证明,如果以这种方式用某种语言训练计算机,机器并不会深入理解该语言与真实世界的连接方式。该研究试图解决这一根本问题,方法就是训练智能体发明与他们自己对世界的感知紧密联系的语言。


训练语言模型却没基础,这些计算机就像 John Searle 中文房间(Chinese Room)隐喻所描述的机器,它们将输入的文本与类似词典的东西(通过分析海量文本数据所得)进行比较。但是,仍然不清楚的是,这些计算机的想法有多少是关于文本表征内容的,既然它们从未离开过房间,也能与文本描述的世界互动。



中文房间实验


一个对汉语一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。


John Searle 认为,尽管房里的人可以以假乱真,让房外的人以为他确确实实说汉语,他却压根不懂汉语。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能通过手册理解中文一样,计算机也不可能通过程序来获得理解力。既然计算机没有理解能力,所谓「计算机于是便有智能」便更无从谈起了。




展望下一步


OpenAI 希望该研究能让我们开发出这样的机器,它能够拥有与自己生活经验密切联系的语言。如果我们以这一实验为基础慢慢增加环境复杂性,扩大智能体被允许的活动范围,或许可以创造出一种表达性语言,其中会包含超越这里基础动词和名字的观念。


随着这种被发明出来的语言不断变得复杂,如何为人类解释这些语言就会变成一种挑战。这也是为什么下一个项目中,RyanLowe 和 Igor Mordatch 打算研究如何借由让智能体与说英语的智能体交流,这将让被发明的语言与英语连接起来。这将会自动将他们的语言翻译成我们听得懂的话。这也属于交叉学科的研究内容,跨域人工智能、语言学以及认知科学,也是他们即将与UC Berkeley 的研究人员合作研究的部分内容。


论文:Emergence of Grounded Compositional Language in Multi-Agent Populations









摘要:

通过在大型语料库中构建统计学模式,机器学习在包括机器翻译、问答系统(questionanswering)及情感分析(sentiment analysis)的自然语言处理方面已取得了巨大成功。然而,对于和人交互的智能体(agents)来说,仅仅构建统计学模式还远远不够。在本论文中,我们研究了基础合成语言(groundedcompositional language)能否以及如何在多智能体中作为完成目标的一个手段而出现。为此,我们提出了一种可以生成基础合成语言的多智能体学习环境和方法。这种语言表征为智能体随时间而做出的抽象离散符号流(abstractdiscrete symbols),但其还是具有定义词汇和句法的一致结构(coherent structure)。我们也发现,当语言通信不可用时,指向(pointing)和引领(guiding)等非言语(non-verbal)通信方式也就出现了。

论文:A Paradigm for Situated and Goal-Driven Language Learning






 

摘要:

在不同语境中灵活使用语言及与其他个体交流复杂思想是人类智能十分突出的属性。自然语言会话的研究应聚焦于设计可与上述语境整合并与人高效协作的通信智能体。


在该论文中,我们提出了一个通用性情境语言学习(general situated languagelearning)范式,其设计目的在于打造一个与人高效协作的鲁棒性语言智能体。该会话范式(dialogue paradigm)基于语言理解的实用性定义而构建。语言只是智能体在环境中完成目标的工具之一。只有当智能体运用语言高效完成目标,我们才说智能体「理解」了语言。在该定义下,智能体的通信成功(communicationsuccess)减少了其在环境中完成任务的成功。


这一设置通过和许多传统的自然语言任务对比,最大化了由静态数据集衍生的语言学目标。这样的应用经常因为将语言具化为自己的终止而犯错。这些任务优先独立度量语言智能(通常是语言能力的一种,按照乔姆斯基的说法(1965)),而不是在真实情景中度量模型的有效性。实用性定义(utilitariandefinition)由强化学习最近的成功而引发。在强化学习的设定中,智能体将真实世界的任务中的成功度量最大化,而无需语言行为(linguisticbehavior)的直接监督。
 
 
 
更多内容请关注:www.imefuture.com 





 
 
 
来源:微信公众号 机器之心 查看全部
OpenAI 研究人员认为:人工智能只有将学习的语言与实践相结合才能真正理解语言,而不是从巨大语料库中找寻语言模式。作为人工智语言之旅的第一步,我们应该研究人工智能是否可以通过交互合作自发产生一种简单的语言作为其通信工具,该研究的两篇论文已经发表在arXiv 上(见文末)。



让人工智能发明自己的语言


OpenAI 刚刚发布了让人工智能体在简单环境中自创语言的研究论文。通过给予人工智能互相交流的能力,并提出一个通过交流才能实现的奖励目标,研究人员利用强化学习和精巧的实验设计让人工智能有了自己的语言。


目前,人工智能发明的语言相对简单,具有基础与合成性的特征。基础(Grounded)意味着该语言中的单词有关环境中说话者直接经历的东西。例如:单词「树」与树的图像或其他体验之间的联系;合成性(Compositional)意味着说话者可以将多个单词组合成句子以表示特定想法,例如让另一个人工智能体去到特定位置。

1.jpg


在研究中,人工智能体存在于一个简单的 2D 世界,可以做出移动、观察、与其他人工智能交流等动作。在图中,1号智能体在观察中心点的时候正在说话。


为了训练人工智能体交流的能力,研究者将实验设计成必须进行合作的形式——多智能体强化学习问题。人工智能体存在于具有简单特征的 2D 世界中,每个智能体都有自己的目标:可以是观察一个物体,或是移动到特定的位置,甚至是向另一个人工智能体发出指令让它移动到特定的位置。每一个人工智能都可以向所有人工智能发出信息。每个人工智能获得的奖励分数会被相加计算,随后反馈给各个智能体,这种方式可以鼓励它们的协作。


在每一个时间步里,强化学习智能体可以选择作出两种类型的动作:a. 环境动作,如移动和观察;b. 交流动作,如向其他所有智能体发言。注意:尽管研究者发现人工智能体提出了对应于对象和其他智能体的单词,以及像「看看」或「转到」等动词,但这些单词是由one-hot vector 表示的抽象符号——研究者将这些矢量以英语单词表示以标注它们的含义。在每一个时间步之前,人工智能体都会先处理上一个时间步其他智能体发出的信息,并获知世界中所有物体的位置。交流的信息被存储在人工智能体自有的循环神经网络中,听到的单词会被记住。

2.jpg


在时间步发展中,t=0 时红色智能体对其他智能体说了一个单词以表示红色界标(图中深红色),随后在t=1 时又说了相当于「去(Goto)」的单词,在 t=2 时它说:「绿色智能体」。绿色智能体听到了这些指令,立即移动到了红色界标的位置。


可区分的动作(信息由类似于单词的符号组成)在互不交汇的信道之中传递。这样,每个信道在每个时间步上都是畅通的,可以保证信息能被传递到所有智能体那里。这种方式是通过稍稍改变信息的内容,让智能体在接受信息时可以获得额外奖励达成的。智能体通过计算关于未来奖励的梯度和收到信息中奖励的变化预期决定自己的下一步动作(例如:这些信息中的哪一个能让奖励变多?)。如果一个智能体意识到另一个智能体发出另一种信息可以更好地完成任务,前者就会告诉后者如何换一种说法。换句话说,人工智能体在任务中会提出这样的问题:「我们应该如何交流才能获得最好的奖励?」


通过使人工智能体发送一个实数向量或者相互发送二进制值的连续近似,再或者使用非微分通信和训练,之前的努力成功获取了这种可微分通信。在训练中研究者使用Gumbel-Softmax 策略来近似带有连续性表征的分离性通信决策,这使研究者们得到了两全其美的结果。在训练中可微分通道意味着智能体可用连续性表征快速学习相互之间如何通信,结果就是在训练结束之后汇聚了分离性输出,这些输出的可阐释性更强,并具有组合性的特点。在下面的视频中,OpenAI展示了如何进化语言以拟合其处境的复杂性:一个人工智能体不需要通信;两个智能体发明了一个词的短语以在处理简单任务时,相互协作;三个智能体创造了包含多个词的句子以用于完成更具挑战性的任务。

3.JPG




通过设计实验影响语言的进化


所有的研究走过的道路都是曲折的。OpenAI 的智能体一开始经常会发明不具有合成性特征的语言。即使智能体成功发明了想要的语言,其解决方案也会经常具有「个人特征」。


研究人员遇到的第一个问题就是智能体创造单一话语并将其映射到空间而产生意义这一倾向。这种莫尔斯电码类的语言很难解密并是一种非合成性(non-compositional)语言。为了纠正这一点,研究员对每个语句添加微小的成本,并对快速完成任务添加了优先权。这样的设置就能鼓励智能体更简洁地进行交流,同时也将拥有更大的词汇量。


研究员遇到的另一个问题是智能体会试图使用单个单词编码整个句子的意义。之所以会发生这样的问题,是因为研究者们赋予了智能体使用大型词汇库的能力。通过大型词汇库,智能体最终会创造出单一话语进而编码整个句子的的意义(如「红色智能体,去蓝色界标」)。虽然这对智能体十分有用,但这种方法要求词汇量的大小与句子长度成指数型地增长,并且与创造人类可解释的(interpretable)人工智能这一目标不相符。为了防止智能体创造出这种语言,研究员们通过给已流行单词加上偏好而压缩单词量的规模,这一灵感来源于「句法交流的演变(Theevolution of syntactic communication)」。研究员们给予特定单词的奖励与这个单词之前所出现的频率成比例。


最后,研究员还发现了一些智能体并不基于颜色,而会基于其他特征如空间位置等线索发明界标参照(landmarkreferences)。例如,智能体会发明一些「top-most」或「left-most」等指代二维坐标系统位置信息的词。虽然这些行为是非常具有创造性的,但其在特定环境中的实现是十分具体的,并且如果从本质上改变智能体所处的地理构成,那么系统就会出现问题。为了解决这个问题,研究者们将智能体放置在以自身为原点的坐标系(智能体之间没有共享的坐标系)。这个做法就解决了方向问题,智能体们也就能有自身的色彩属性指向界标。




不能说话?让我为你指路。听不到?让我做你的向导


当智能体不能通过文本相互交流,并且必须在模拟环境中执行物理运动时,该训练法同样能运作。在接下来的动图中,研究员们展示了智能体指向点的即时情况或指导其他智能体去目标的情况,在极端情况下智能体会看不见它们的目标。

4.gif


5.gif


从上到下:人工智能智能体通过指向将目标的位置信息通知另一个智能体;较小的智能体引导更大的智能体朝向目标;智能体将一个盲目的智能体推向一个目标。




推论语言和基底语言


如今,很多人已经将机器学习应用到与语言相关的任务中,也取得了巨大成功。大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成以及其他领域取得了重要成就。所有这些研究方法都是给系统输入海量文本数据,系统从中提取特征并发现模式。虽然这类研究已经产生了无数个发明与创新,但仍然有些缺点,这与所学语言的表征质量有关。越来越多的研究证明,如果以这种方式用某种语言训练计算机,机器并不会深入理解该语言与真实世界的连接方式。该研究试图解决这一根本问题,方法就是训练智能体发明与他们自己对世界的感知紧密联系的语言。


训练语言模型却没基础,这些计算机就像 John Searle 中文房间(Chinese Room)隐喻所描述的机器,它们将输入的文本与类似词典的东西(通过分析海量文本数据所得)进行比较。但是,仍然不清楚的是,这些计算机的想法有多少是关于文本表征内容的,既然它们从未离开过房间,也能与文本描述的世界互动。



中文房间实验


一个对汉语一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。


John Searle 认为,尽管房里的人可以以假乱真,让房外的人以为他确确实实说汉语,他却压根不懂汉语。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能通过手册理解中文一样,计算机也不可能通过程序来获得理解力。既然计算机没有理解能力,所谓「计算机于是便有智能」便更无从谈起了。




展望下一步


OpenAI 希望该研究能让我们开发出这样的机器,它能够拥有与自己生活经验密切联系的语言。如果我们以这一实验为基础慢慢增加环境复杂性,扩大智能体被允许的活动范围,或许可以创造出一种表达性语言,其中会包含超越这里基础动词和名字的观念。


随着这种被发明出来的语言不断变得复杂,如何为人类解释这些语言就会变成一种挑战。这也是为什么下一个项目中,RyanLowe 和 Igor Mordatch 打算研究如何借由让智能体与说英语的智能体交流,这将让被发明的语言与英语连接起来。这将会自动将他们的语言翻译成我们听得懂的话。这也属于交叉学科的研究内容,跨域人工智能、语言学以及认知科学,也是他们即将与UC Berkeley 的研究人员合作研究的部分内容。


论文:Emergence of Grounded Compositional Language in Multi-Agent Populations

6.jpg





摘要:

通过在大型语料库中构建统计学模式,机器学习在包括机器翻译、问答系统(questionanswering)及情感分析(sentiment analysis)的自然语言处理方面已取得了巨大成功。然而,对于和人交互的智能体(agents)来说,仅仅构建统计学模式还远远不够。在本论文中,我们研究了基础合成语言(groundedcompositional language)能否以及如何在多智能体中作为完成目标的一个手段而出现。为此,我们提出了一种可以生成基础合成语言的多智能体学习环境和方法。这种语言表征为智能体随时间而做出的抽象离散符号流(abstractdiscrete symbols),但其还是具有定义词汇和句法的一致结构(coherent structure)。我们也发现,当语言通信不可用时,指向(pointing)和引领(guiding)等非言语(non-verbal)通信方式也就出现了。

论文:A Paradigm for Situated and Goal-Driven Language Learning

7.JPG


 

摘要:

在不同语境中灵活使用语言及与其他个体交流复杂思想是人类智能十分突出的属性。自然语言会话的研究应聚焦于设计可与上述语境整合并与人高效协作的通信智能体。


在该论文中,我们提出了一个通用性情境语言学习(general situated languagelearning)范式,其设计目的在于打造一个与人高效协作的鲁棒性语言智能体。该会话范式(dialogue paradigm)基于语言理解的实用性定义而构建。语言只是智能体在环境中完成目标的工具之一。只有当智能体运用语言高效完成目标,我们才说智能体「理解」了语言。在该定义下,智能体的通信成功(communicationsuccess)减少了其在环境中完成任务的成功。


这一设置通过和许多传统的自然语言任务对比,最大化了由静态数据集衍生的语言学目标。这样的应用经常因为将语言具化为自己的终止而犯错。这些任务优先独立度量语言智能(通常是语言能力的一种,按照乔姆斯基的说法(1965)),而不是在真实情景中度量模型的有效性。实用性定义(utilitariandefinition)由强化学习最近的成功而引发。在强化学习的设定中,智能体将真实世界的任务中的成功度量最大化,而无需语言行为(linguisticbehavior)的直接监督。
 
 
 
更多内容请关注:www.imefuture.com 

智造家二维码.jpg

 
 
 
来源:微信公众号 机器之心
891 浏览

迪士尼乐园的下一个研发方向:打造AI机器人

电气控制类 泡泡鱼 2017-03-17 13:36 发表了文章 来自相关话题

据外媒报道,如果说迪士尼乐园是人们梦想成真的地方,那么John Snoddy就是掌管着人们下一个成真梦想的那个人。Snoddy为华特-迪士尼幻想工工作室的负责人,日前,他在SXSW上跟媒体分享了他们最新的成果。


看起来迪士尼接下来的主流方向将会是AI,像《魔方奇缘》里的变色龙朋友Pascal、《星球大战》的新机器人Jake。
 

据了解,基于AI打造的Pascal是一个小小的机器人,刚好可以用一个手掌拖住。这个绿色的机器人则是工作室为了测试他们所能打造的复杂机器人的最小极限。现在,Pascal可以利用AI自治功能转动眼睛、移动嘴巴以及面部皮肤,另外它还支持手动操控,如使其倾斜身体。
 

Snoddy表示,Pascal不仅仅只是电影里的角色,同时它还是一名表演者。
 

Jake则有点像R2-D2的全自动机器人,它能像一条宠物狗一样在幻想工作室的研发实验室四处游荡。Snoddy表示,Jake项目的研发目的是为了探索机器人自动化的极限。不过眼下的Jake离电影里面展示的机器人还差得远。

 
Snoddy称,为迪士尼乐园打造AI机器人的其中一个好处是游客跟这些机器人互动期间的心态变化,“他们不再会去戳它看看它是怎么运转的,他们则会换一种方式,想要接受愉悦。”




更多内容请关注:www.imefuture.com 





  查看全部
1.JPG

据外媒报道,如果说迪士尼乐园是人们梦想成真的地方,那么John Snoddy就是掌管着人们下一个成真梦想的那个人。Snoddy为华特-迪士尼幻想工工作室的负责人,日前,他在SXSW上跟媒体分享了他们最新的成果。


看起来迪士尼接下来的主流方向将会是AI,像《魔方奇缘》里的变色龙朋友Pascal、《星球大战》的新机器人Jake。
 

据了解,基于AI打造的Pascal是一个小小的机器人,刚好可以用一个手掌拖住。这个绿色的机器人则是工作室为了测试他们所能打造的复杂机器人的最小极限。现在,Pascal可以利用AI自治功能转动眼睛、移动嘴巴以及面部皮肤,另外它还支持手动操控,如使其倾斜身体。
 

Snoddy表示,Pascal不仅仅只是电影里的角色,同时它还是一名表演者。
 

Jake则有点像R2-D2的全自动机器人,它能像一条宠物狗一样在幻想工作室的研发实验室四处游荡。Snoddy表示,Jake项目的研发目的是为了探索机器人自动化的极限。不过眼下的Jake离电影里面展示的机器人还差得远。

 
Snoddy称,为迪士尼乐园打造AI机器人的其中一个好处是游客跟这些机器人互动期间的心态变化,“他们不再会去戳它看看它是怎么运转的,他们则会换一种方式,想要接受愉悦。”




更多内容请关注:www.imefuture.com 

智造家二维码.jpg

 
473 浏览

北京大数据产业投资基金正式发布 扎克伯格启用AI“管家

管理类 扳手哥 2016-12-26 16:09 发表了文章 来自相关话题

【摘要】北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展;国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示;扎克伯格启用AI“管家”,最新最强大数据新闻,尽在本期D-News!

 

政府动态 

 
北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展


由8个机构共同出资设立的“北京大数据产业投资基金”于近日在京正式发布。据了解,该基金由国富大数据资本管理中心管理,首期计划募集100亿元人民币。未来,该基金将通过支持大数据及相关领域的上市公司并购、股权投资等方式,重点支持大数据交易平台、数据资源、技术及行业应用等多个领域,从而进一步推动京津冀地区的大数据产业链整合发展。

国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示


根据《关于请组织申报“互联网+”领域创新能力建设专项的通知》和《关于请组织申报大数据领域创新能力建设专项的通知》,近期,国家发展改革委高技术司组织专家对有关单位申报的“互联网+”和大数据领域国家工程实验室项目进行了评审。根据《国家工程实验室管理办法(暂行)》,并按照上述通知有关支持原则和要求,经竞争择优,初步提出“互联网+”和大数据领域国家工程实验室拟确定承担单位名单。

 

白宫发布《人工智能、自动化和经济》报告


白宫发布了一份关于人工智能、自动化和经济的报告。报告中建议白宫在今年年底前发布一份关于人工智能对经济影响的报告。

 

业界巨头 


学钢铁侠  扎克伯格启用AI“管家”


“脸书”创始人马克·扎克伯格开发出一款名叫“贾维斯”的人工智能程序,能管理其生活起居。控制家里的照明开关和温度、音乐、烤面包以及喂狗等。


谷歌医疗立足眼科,要用人工智能大数据破译糖网病难题


日前,谷歌方面发布公告称,公司旗下医疗团队将正式立足AI眼科,利用人工智能及大数据技术,攻克糖网病难关。说到糖网病,它是“糖尿病视网膜病变”的简称,即糖尿病引起的视网膜血管失调,严重者会引发双目失明。目前,谷歌已经针对该疾病提出了一种基于深度学习的算法,该算法可以在视网膜造影中对糖网病的迹象做出解释,帮助医生做出更专业的诊断。




资本动态


以色列增强现实显示技术公司 Lumus获3000万美元投资

 
以色列增强现实(AR)显示技术公司 Lumus 宣布,他们获得了来自包括 HTC、台湾地区的电子产品制造商广达电脑等公司的 3000 万美元投资。今年 6 月,Lumus 获得了1500 万美元的投资,投资方为盛大集团和中国浙江的水晶光电。拿到这 3000 万美元投资后,Lumus 的融资已经进行到位。Lumus 成立于 2000 年,当时 Lumus 研发出Light-guideOptical Element(LOE),帮助实现AR 显示。2010 年,Lumus 开始为美国空军制造战斗机飞行员头盔中的 AR 部件。历经 15 年的 AR 技术研发后,Lumus 今天终于向消费者和企业产品领域迈进了。


来源:大数据文摘
  查看全部
【摘要】北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展;国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示;扎克伯格启用AI“管家”,最新最强大数据新闻,尽在本期D-News!

 

政府动态 

 
北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展


由8个机构共同出资设立的“北京大数据产业投资基金”于近日在京正式发布。据了解,该基金由国富大数据资本管理中心管理,首期计划募集100亿元人民币。未来,该基金将通过支持大数据及相关领域的上市公司并购、股权投资等方式,重点支持大数据交易平台、数据资源、技术及行业应用等多个领域,从而进一步推动京津冀地区的大数据产业链整合发展。

国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示


根据《关于请组织申报“互联网+”领域创新能力建设专项的通知》和《关于请组织申报大数据领域创新能力建设专项的通知》,近期,国家发展改革委高技术司组织专家对有关单位申报的“互联网+”和大数据领域国家工程实验室项目进行了评审。根据《国家工程实验室管理办法(暂行)》,并按照上述通知有关支持原则和要求,经竞争择优,初步提出“互联网+”和大数据领域国家工程实验室拟确定承担单位名单。

 

白宫发布《人工智能、自动化和经济》报告


白宫发布了一份关于人工智能、自动化和经济的报告。报告中建议白宫在今年年底前发布一份关于人工智能对经济影响的报告。

 

业界巨头 


学钢铁侠  扎克伯格启用AI“管家”


“脸书”创始人马克·扎克伯格开发出一款名叫“贾维斯”的人工智能程序,能管理其生活起居。控制家里的照明开关和温度、音乐、烤面包以及喂狗等。


谷歌医疗立足眼科,要用人工智能大数据破译糖网病难题


日前,谷歌方面发布公告称,公司旗下医疗团队将正式立足AI眼科,利用人工智能及大数据技术,攻克糖网病难关。说到糖网病,它是“糖尿病视网膜病变”的简称,即糖尿病引起的视网膜血管失调,严重者会引发双目失明。目前,谷歌已经针对该疾病提出了一种基于深度学习的算法,该算法可以在视网膜造影中对糖网病的迹象做出解释,帮助医生做出更专业的诊断。




资本动态


以色列增强现实显示技术公司 Lumus获3000万美元投资

 
以色列增强现实(AR)显示技术公司 Lumus 宣布,他们获得了来自包括 HTC、台湾地区的电子产品制造商广达电脑等公司的 3000 万美元投资。今年 6 月,Lumus 获得了1500 万美元的投资,投资方为盛大集团和中国浙江的水晶光电。拿到这 3000 万美元投资后,Lumus 的融资已经进行到位。Lumus 成立于 2000 年,当时 Lumus 研发出Light-guideOptical Element(LOE),帮助实现AR 显示。2010 年,Lumus 开始为美国空军制造战斗机飞行员头盔中的 AR 部件。历经 15 年的 AR 技术研发后,Lumus 今天终于向消费者和企业产品领域迈进了。


来源:大数据文摘
 
496 浏览

吴甘沙最新演讲:AI为互联网行业补坑 自动驾驶前景看好

机械自动化类 喷漆李 2016-12-19 14:21 发表了文章 来自相关话题

2016年12月4日,虎嗅打造的创新创业嘉年华“F&M创新节”在北京举办。活动中,驭势科技CEO吴甘沙发表了题为“互联网到人工智能的第一座高峰”的主题演讲。他指出互联网时代在给大众带来极大便利的同时,也“挖了许多坑”,而“互联网挖的坑需要人工智能来填”。此外,吴甘沙还总结了自己在创业路上的一些经验教训:“你要想明白到达明天的话,可能需要远望后天”。


大数据文摘作为大会合作方,从现场发来第一手资料:


以下内容根据主办方提供速记整理,在不改变原意的前提下有部分删改。









◆ ◆ ◆

“时来天地皆同力,远去英雄不自由”

 

讲座一开始,吴引用了唐朝诗人罗隐《筹笔驿》中的经典名句“时来天地皆同力,运去英雄不自由”,用在此处,并非感慨时运不济,胜败都是由外力决定的。相反,吴表示“2016年开始,我们又将看到新的机会”,很显然,这里只是强调逆天改命并非智者所为,顺应历史的潮流,顺应时代的发展,英雄也不例外。时代的更迭是种必然。

 

吴承认互联网从本质上改变过我们的生活,带给我们了三样东西:

1.解决了信息不对称的问题。建立各种各样的连接,人和信息的连接,人和商品的连接,人和人的连接,人和服务的连接,人和闲置资源的连接等等;

2.使得交易成本最小化。无论是金钱的成本,还是时间的成本最小化;

3.终于能够汇集长尾人群。而不再是头部的高端客户才能从服务当中获益。


我们看到互联网解决的问题主要在于信息普及以及降低交易成本的方面,但是,后者仅涉及交易成本,是整个利益链的其中一环,商品成本还包括生成成本。


“但我们发现发展到现在的阶段,互联网本身也碰到了一些瓶颈。交易成本虽然最小化了,但生产成本还是那样,生产成本就是生产资料和劳动力。”这脑洞有点大啊,这是说消费方式已经确定了,但是驾车的人多余了,车也不一定还用原来的车了,需要进步咯?
 

“拿网约车来讲,网约车带来很多的便利,帮助我们建立了连接,等到补贴过去以后大家发现打车的费用跟出租车没有太大的变化。因为从生产资料跟劳动力这块,互联网并没有带来本质性的变化。网约车汇集长尾人群,但社会总体是不是利益最大化,也许未必。原来这几十万个兼职的司机,在上下班高峰时间不上路的。但他们上路了以后,使得整个道路变的更堵了,所有的这些问题互联网是没有办法解决的。必须得通过人工智能来解决,互联网挖的坑需要人工智能来填。人工智能从本质上来说是用机器来做人能做的事情,生产资料同时是劳动力。”

 
网约车不但没有给人们出行带来多少方便,某种程度上,反倒成了道路堵塞的元凶。因此,人工智能的科技成果能使这些问题很好的解决吗?



◆ ◆ ◆

“互联网挖的坑需要人工智能来填”

 
今年是人工智能革命的特殊一年,在市场规模、辐射面、持续时间的尺度上,跟PC以及互联网同等级别的。人工智能一定要跟具体的行业和产业结合在一起,未来10年智能驾驶是最重要的人工智能产业。 为检验是否能完成这个任务,吴提出了四个明确的标准:

1.市场是不是足够大,是否处在快速增长起的时点;

2.是不是真正解决了客户的痛点。能够提升效率,我们希望做一个产品,它并不是维他命吃了有营养不吃无所谓;

3.那能否创造商业模式创新的空间;

4.护城河是不是足够的宽和深。

 

“逐一来看,市场确实是足够大的,它涉及到了三个万亿美金的市场,全球汽车市场万亿美金,出行市场无论是Uber还是滴滴都是万亿美金的规模,给我们带来的社会整体效益又是万亿美金。

 

摩根斯坦利认为智能驾驶一年可以给美国带来1.3万亿美金的社会效益,相当于美国GDP8%。为什么有如此之大的社会效益,我们不妨做模拟。我们要解决碰到客户痛点的问题和效率问题,我们拿北京规模的城市作为案例。假设说一座城市有600万辆机动车,大部分是私家车,它会带来什么问题?车多带来堵车的问题,堵车导致‘路怒’和违规驾驶,又会导致很多的交通事故。今天每年全世界因为交通事故死亡140万人,中国几乎占1/4,交通事故会使得路更堵,使得百公里的油耗上升,能源浪费,使得空气受到污染。车多又会导致停车很困难,一辆车90%以上的时间是停着的,而且需要两个停车位。根据美国的统计,汽车行驶历程30%-35%为了停车,很多大城市15%以上的土地用来停车,房价更贵。很多年轻人只能生活在远离城市中心的郊区,导致了‘睡城’和上下班的潮汐效应。我们每天大量的时间浪费在路上,北京一天一个人2.5小时在路上,全中国20多亿小时在路上。回去五六年前古埃及人建设大金字塔花了这么长的时间,我们浪费如此多的生产力。为什么大家都要买私家车,因为打车难和贵。我们希望通过科技和人工智能10年的时间改变现状,我们希望10年以后也许这样的城市里,它的机动车保有量从600万辆到300万辆,但其中有200万辆是无人驾驶的出租车。可以真正地解决打车难和贵的问题。

 

首先,我把这200万辆无人驾驶出租车根据大数据的规律,根据全城人群的分布和出行的规律分布在城市的各个角落,保证每个人一叫车两分钟之内可以来车。打车的费用可以降到今天1/3,人力成本去掉,‘空驶’浪费没了,新能源每公里燃料成本比今天的燃料低很多。原来制约无人驾驶重要因素是激光雷达,一台激光雷达今年是70万人民币。但未来5年会降到500美金以下,这意味着大规模的商业化成为可能。从用户端看,这是波士顿咨询集团和达沃斯论坛对全世界很多城市的决策者做的调研。88%的人希望像无人驾驶这样的新技术,可以在未来的10年里得到商业化。真正商业化了以后,可以给我们带来很多的好处。”






那么未来的车是什么样子的?吴大胆假设,“未来车就是这么整齐的在路上走,对道路的利用效率提升,交通事故减少,能源消耗变的更少,因为第一辆车把大部分的封阻挡掉。北京的平均速度20公里,除了堵车还有十字路口和红绿灯,未来如果都是无人驾驶汽车,保证每辆车按照特定的速度,特定次序通行,红绿灯完全可以拿掉的。未来所有的这些车都在路上出行,它对停车位的需求也会大量地减少。即使需要停车,一个小小的停车位就可能停进去。大家知道今天的停车位必须得足够大,因为有很多的新手停不进去,停进去还要有足够的空间下车。未来无人驾驶的出租车并不需要那么多的停车空间,大量的停车空间会被释放出来。

 
商业模式创新空间巨大,10年后汽车可能长的不再像汽车,更像一个商业空间。在这商业空间里可以创造人与信息跟内容和服务接触的触点,未来的车长这样。放一套办公设备就变成了移动的写字楼,交通工具的属性逐渐降低,商业空间的属性逐步提高。未来每一条路和每一辆车可以成为移动地产。


未来10年所有跟人或者物的交通相关的产业都会被重新定义,无论你是出租业、停车业、写字楼还是服务业还是物流。200万辆出租车上下班可以接人,中午可以送餐送货。金融业等所有相关产业都会被重新定义。产业的护城河非常之宽,非常深,不仅是资本和人才的问题,还有品牌数据和专利的壁垒,以及技术。”




◆ ◆ ◆

“号称做智能驾驶,没有从车库开始创业那就是耍流氓!”


吴甘沙接着对他们公司的未来进行了预测:


“我们希望2-3年内成为中国第一家能够在辅助驾驶以及无人驾驶领域商业化的公司,我们从车库开始创业。作为创业公司,如果号称做智能驾驶,没有从车库开始创业那就是耍流氓嘛。


我们是国内唯一能在高速公路上实现100公里时速的辅助驾驶公司,大家可以看到这样的车不仅仅能够在车道里做很好的行驶,还得有自主超车的功能。大部分的时间在中间的车道走,如果前车实在太慢了就自己拐到快车道然后超车,然后再回来。同时,我们也在探索无人驾驶,左边的车适合最后几公里的出行,地铁站出来离家几公里的时候,今天只有黑车和摩的,未来这种小车适合做最后几公里运行。右边的车是我们完全重新设计的,针对共享出行的一款车,大家可以看到两排座椅对着坐,没有方向盘和刹车。研发基地已经开始常态化的测试,明年1月份即将开始试运营。这款车对高科技园区和森林公园,以及主题公园、度假村非常适合。无人驾驶很大的问题就是最小化维护成本,我们在里面做了一个非常有意思的功能,当他发现自己没电的时候,会自己找到一个带无线充电停车位停进去开始充电。”

 
最后,和其他的创业者类似,吴同样深知创业之路的艰辛和悲壮,但是作为有梦想的人,他们的团队也都是一群坚定勇敢、不屈不挠的战士:

 
“智能驾驶未来的前景非常美好,但又是一个非常艰巨的里程。我想引用耐克创始人说的这句话,面临这种挑战‘懦夫从不启程,弱者在途中死去,只有强者会继续前行’。我们不确定会不会成为最后的强者,但我们有相信的力量,我们相信‘相信 ’的力量,希望能够真正有人工智能改变未来的世界。”

 


◆ ◆ ◆

“你要想明白到达明天的话,可能需要远望后天!”


之后主持人补充了一个问题,吴的回答同样精彩。


主持人:互联网与人工智能算是两个领域,您怎样从英特尔的积累推动做无人驾驶和智能驾驶,如何看待未来智能制造市场。


吴甘沙:互联网和人工智能是两领域,过去在英特尔的积累不在互联网。英特尔只是抓住了互联网的前半段机遇,后半段的移动互联网来说英特尔做的不是特别成功。恰恰是这段并不成功的经历让我有更多的反思,我想明白有的时候不能仅仅盯着竞争对手,你需要看清楚这个时代。你要想明白到达明天的话,可能需要远望后天,这是为什么2013年开始我在看人工智能领域。人工智能大家都想象是很理论的东西,很算法的东西,其实未必如此。你要让人工智能落地的话,其实需要做很多的脏活和累活,你需要有很多系统工程的能力,你要有解决规模和成本的能力。我原来在英特尔的很多经验可以非常地有帮助,其实我们公司也是算法+系统工程+汽车电子,形成积木组合式的创新才能做出来。如果只有算法完全做不起来,未来制造也是在智能驾驶中不可或缺的一环。如何可以在这么长的产业链上可以率先推向市场,形成规模和成本的效应,需要智能制造。所以这些也需要我们学习。
 
 
 
 
 
来源:大数据文摘
智造家 查看全部
6.1_.jpg

2016年12月4日,虎嗅打造的创新创业嘉年华“F&M创新节”在北京举办。活动中,驭势科技CEO吴甘沙发表了题为“互联网到人工智能的第一座高峰”的主题演讲。他指出互联网时代在给大众带来极大便利的同时,也“挖了许多坑”,而“互联网挖的坑需要人工智能来填”。此外,吴甘沙还总结了自己在创业路上的一些经验教训:“你要想明白到达明天的话,可能需要远望后天”。


大数据文摘作为大会合作方,从现场发来第一手资料:


以下内容根据主办方提供速记整理,在不改变原意的前提下有部分删改。

6.2_.jpg





◆ ◆ ◆

“时来天地皆同力,远去英雄不自由”

 

讲座一开始,吴引用了唐朝诗人罗隐《筹笔驿》中的经典名句“时来天地皆同力,运去英雄不自由”,用在此处,并非感慨时运不济,胜败都是由外力决定的。相反,吴表示“2016年开始,我们又将看到新的机会”,很显然,这里只是强调逆天改命并非智者所为,顺应历史的潮流,顺应时代的发展,英雄也不例外。时代的更迭是种必然。

 

吴承认互联网从本质上改变过我们的生活,带给我们了三样东西:

1.解决了信息不对称的问题。建立各种各样的连接,人和信息的连接,人和商品的连接,人和人的连接,人和服务的连接,人和闲置资源的连接等等;

2.使得交易成本最小化。无论是金钱的成本,还是时间的成本最小化;

3.终于能够汇集长尾人群。而不再是头部的高端客户才能从服务当中获益。


我们看到互联网解决的问题主要在于信息普及以及降低交易成本的方面,但是,后者仅涉及交易成本,是整个利益链的其中一环,商品成本还包括生成成本。


“但我们发现发展到现在的阶段,互联网本身也碰到了一些瓶颈。交易成本虽然最小化了,但生产成本还是那样,生产成本就是生产资料和劳动力。”这脑洞有点大啊,这是说消费方式已经确定了,但是驾车的人多余了,车也不一定还用原来的车了,需要进步咯?
 

“拿网约车来讲,网约车带来很多的便利,帮助我们建立了连接,等到补贴过去以后大家发现打车的费用跟出租车没有太大的变化。因为从生产资料跟劳动力这块,互联网并没有带来本质性的变化。网约车汇集长尾人群,但社会总体是不是利益最大化,也许未必。原来这几十万个兼职的司机,在上下班高峰时间不上路的。但他们上路了以后,使得整个道路变的更堵了,所有的这些问题互联网是没有办法解决的。必须得通过人工智能来解决,互联网挖的坑需要人工智能来填。人工智能从本质上来说是用机器来做人能做的事情,生产资料同时是劳动力。”

 
网约车不但没有给人们出行带来多少方便,某种程度上,反倒成了道路堵塞的元凶。因此,人工智能的科技成果能使这些问题很好的解决吗?



◆ ◆ ◆

“互联网挖的坑需要人工智能来填”

 
今年是人工智能革命的特殊一年,在市场规模、辐射面、持续时间的尺度上,跟PC以及互联网同等级别的。人工智能一定要跟具体的行业和产业结合在一起,未来10年智能驾驶是最重要的人工智能产业。 为检验是否能完成这个任务,吴提出了四个明确的标准:

1.市场是不是足够大,是否处在快速增长起的时点;

2.是不是真正解决了客户的痛点。能够提升效率,我们希望做一个产品,它并不是维他命吃了有营养不吃无所谓;

3.那能否创造商业模式创新的空间;

4.护城河是不是足够的宽和深。

 

“逐一来看,市场确实是足够大的,它涉及到了三个万亿美金的市场,全球汽车市场万亿美金,出行市场无论是Uber还是滴滴都是万亿美金的规模,给我们带来的社会整体效益又是万亿美金。

 

摩根斯坦利认为智能驾驶一年可以给美国带来1.3万亿美金的社会效益,相当于美国GDP8%。为什么有如此之大的社会效益,我们不妨做模拟。我们要解决碰到客户痛点的问题和效率问题,我们拿北京规模的城市作为案例。假设说一座城市有600万辆机动车,大部分是私家车,它会带来什么问题?车多带来堵车的问题,堵车导致‘路怒’和违规驾驶,又会导致很多的交通事故。今天每年全世界因为交通事故死亡140万人,中国几乎占1/4,交通事故会使得路更堵,使得百公里的油耗上升,能源浪费,使得空气受到污染。车多又会导致停车很困难,一辆车90%以上的时间是停着的,而且需要两个停车位。根据美国的统计,汽车行驶历程30%-35%为了停车,很多大城市15%以上的土地用来停车,房价更贵。很多年轻人只能生活在远离城市中心的郊区,导致了‘睡城’和上下班的潮汐效应。我们每天大量的时间浪费在路上,北京一天一个人2.5小时在路上,全中国20多亿小时在路上。回去五六年前古埃及人建设大金字塔花了这么长的时间,我们浪费如此多的生产力。为什么大家都要买私家车,因为打车难和贵。我们希望通过科技和人工智能10年的时间改变现状,我们希望10年以后也许这样的城市里,它的机动车保有量从600万辆到300万辆,但其中有200万辆是无人驾驶的出租车。可以真正地解决打车难和贵的问题。

 

首先,我把这200万辆无人驾驶出租车根据大数据的规律,根据全城人群的分布和出行的规律分布在城市的各个角落,保证每个人一叫车两分钟之内可以来车。打车的费用可以降到今天1/3,人力成本去掉,‘空驶’浪费没了,新能源每公里燃料成本比今天的燃料低很多。原来制约无人驾驶重要因素是激光雷达,一台激光雷达今年是70万人民币。但未来5年会降到500美金以下,这意味着大规模的商业化成为可能。从用户端看,这是波士顿咨询集团和达沃斯论坛对全世界很多城市的决策者做的调研。88%的人希望像无人驾驶这样的新技术,可以在未来的10年里得到商业化。真正商业化了以后,可以给我们带来很多的好处。”

6.3_.JPG


那么未来的车是什么样子的?吴大胆假设,“未来车就是这么整齐的在路上走,对道路的利用效率提升,交通事故减少,能源消耗变的更少,因为第一辆车把大部分的封阻挡掉。北京的平均速度20公里,除了堵车还有十字路口和红绿灯,未来如果都是无人驾驶汽车,保证每辆车按照特定的速度,特定次序通行,红绿灯完全可以拿掉的。未来所有的这些车都在路上出行,它对停车位的需求也会大量地减少。即使需要停车,一个小小的停车位就可能停进去。大家知道今天的停车位必须得足够大,因为有很多的新手停不进去,停进去还要有足够的空间下车。未来无人驾驶的出租车并不需要那么多的停车空间,大量的停车空间会被释放出来。

 
商业模式创新空间巨大,10年后汽车可能长的不再像汽车,更像一个商业空间。在这商业空间里可以创造人与信息跟内容和服务接触的触点,未来的车长这样。放一套办公设备就变成了移动的写字楼,交通工具的属性逐渐降低,商业空间的属性逐步提高。未来每一条路和每一辆车可以成为移动地产。


未来10年所有跟人或者物的交通相关的产业都会被重新定义,无论你是出租业、停车业、写字楼还是服务业还是物流。200万辆出租车上下班可以接人,中午可以送餐送货。金融业等所有相关产业都会被重新定义。产业的护城河非常之宽,非常深,不仅是资本和人才的问题,还有品牌数据和专利的壁垒,以及技术。”




◆ ◆ ◆

“号称做智能驾驶,没有从车库开始创业那就是耍流氓!”


吴甘沙接着对他们公司的未来进行了预测:


“我们希望2-3年内成为中国第一家能够在辅助驾驶以及无人驾驶领域商业化的公司,我们从车库开始创业。作为创业公司,如果号称做智能驾驶,没有从车库开始创业那就是耍流氓嘛。


我们是国内唯一能在高速公路上实现100公里时速的辅助驾驶公司,大家可以看到这样的车不仅仅能够在车道里做很好的行驶,还得有自主超车的功能。大部分的时间在中间的车道走,如果前车实在太慢了就自己拐到快车道然后超车,然后再回来。同时,我们也在探索无人驾驶,左边的车适合最后几公里的出行,地铁站出来离家几公里的时候,今天只有黑车和摩的,未来这种小车适合做最后几公里运行。右边的车是我们完全重新设计的,针对共享出行的一款车,大家可以看到两排座椅对着坐,没有方向盘和刹车。研发基地已经开始常态化的测试,明年1月份即将开始试运营。这款车对高科技园区和森林公园,以及主题公园、度假村非常适合。无人驾驶很大的问题就是最小化维护成本,我们在里面做了一个非常有意思的功能,当他发现自己没电的时候,会自己找到一个带无线充电停车位停进去开始充电。”

 
最后,和其他的创业者类似,吴同样深知创业之路的艰辛和悲壮,但是作为有梦想的人,他们的团队也都是一群坚定勇敢、不屈不挠的战士:

 
“智能驾驶未来的前景非常美好,但又是一个非常艰巨的里程。我想引用耐克创始人说的这句话,面临这种挑战‘懦夫从不启程,弱者在途中死去,只有强者会继续前行’。我们不确定会不会成为最后的强者,但我们有相信的力量,我们相信‘相信 ’的力量,希望能够真正有人工智能改变未来的世界。”

 


◆ ◆ ◆

“你要想明白到达明天的话,可能需要远望后天!”


之后主持人补充了一个问题,吴的回答同样精彩。


主持人:互联网与人工智能算是两个领域,您怎样从英特尔的积累推动做无人驾驶和智能驾驶,如何看待未来智能制造市场。


吴甘沙:互联网和人工智能是两领域,过去在英特尔的积累不在互联网。英特尔只是抓住了互联网的前半段机遇,后半段的移动互联网来说英特尔做的不是特别成功。恰恰是这段并不成功的经历让我有更多的反思,我想明白有的时候不能仅仅盯着竞争对手,你需要看清楚这个时代。你要想明白到达明天的话,可能需要远望后天,这是为什么2013年开始我在看人工智能领域。人工智能大家都想象是很理论的东西,很算法的东西,其实未必如此。你要让人工智能落地的话,其实需要做很多的脏活和累活,你需要有很多系统工程的能力,你要有解决规模和成本的能力。我原来在英特尔的很多经验可以非常地有帮助,其实我们公司也是算法+系统工程+汽车电子,形成积木组合式的创新才能做出来。如果只有算法完全做不起来,未来制造也是在智能驾驶中不可或缺的一环。如何可以在这么长的产业链上可以率先推向市场,形成规模和成本的效应,需要智能制造。所以这些也需要我们学习。
 
 
 
 
 
来源:大数据文摘
智造家
507 浏览

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)

机械自动化类 凯麦亿精密机械 2016-11-23 15:21 发表了文章 来自相关话题

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓






同样一段剪辑,但是人工智能系统已经给出了字幕↓↓







◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列





来进行唇语识别,输入音频序列





进行辅助。这样,模型的输出的概率分布为




 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓






其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 





这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
  查看全部
3.1_.jpg

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓

3.2_.gif


同样一段剪辑,但是人工智能系统已经给出了字幕↓↓

3.3_.gif



◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列
3.4_.JPG


来进行唇语识别,输入音频序列
3.5_.JPG


进行辅助。这样,模型的输出的概率分布为
3.6_.JPG

 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

3.7_.jpg


其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 
3.8_.JPG


这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
 
668 浏览

为什么AI是人们网购的最佳帮手?

机械自动化类 集运物流 2016-10-19 13:43 发表了文章 来自相关话题

在当今电子商务时代,进行网络购物成为了最普通不过的事情。而许多时候在实体店看到许多漂亮设计的服装时,我们第一反应就是会再三思量一下,会选择到网上购买,因为网购的价格会更加优惠。

那么在网购的时候,是否真的就是豪无缺陷呢。答案是显然的,其中最大的一个问题就是我们无法设身处地的去试衣服,对我们带来了许多的局限性。 

因此,当你起了这样的心思,想去网购时,其实也并不是一件容易的事。要想在众多网购平台上,挑选出最符合要求的价格又优惠的商品,要花费很多的心思,这个过程是很乏味,有时还会竹篮打水一场空。

[login] 

为了解决这个问题,曾经获得过人工智能硕士学位的阿图尔•清莱决定在这个领域上大展身手,终于在去年推出了Staqu平台。 
 

虽然人工智能在许多领域被采用,但是在印度,近几年AI的发展速度稍微减缓了,其实不仅仅是在印度,在全球范围内其增速都在减慢。然而,阿图尔•清莱这一群人深深明白人工智能这些技术能够给电子商务领域带来巨大的影响力,也能够改变其他相关领域。

就这样,Staqu平台就这样应运而生了,它在印度古尔冈正式面向大众。


它是如何运作的?

该平台可以在三个方面帮助用户。首先,它能够帮助用户找到“非结构化产品”,那什么是“非结构化产品”呢?就是指那些用户无法描述具体外形的服装产品。第二方面,在众多标签的协助下,它能够帮助用户找到具体的产品。第三个方面,就是在该平台上,它可以帮助用户了解当前的流行趋势,并根据用户的选择对其作出相关推荐。

许多开启了电子商务模式的B2B新创企业,例如Yepme,Paytm和FabAlley也都具备这样的推荐功能。


“起初,为了让市场上的客户对该技术更加信服,从而让他们能够信赖这项技术,其实是一件很艰巨的任务,但是现在变得容易多了”阿图说道。

除了在电子商务领域有所突破,该公司还与许多手机制造商相互合作,其中包括Karbonn,Panaonic,Lava,和Intex,对他们帮助最大的是在图像搜索等方面。

 
发展趋势

该公司目前阶段主要是着重开发B2B电子商务领域,不过据相关负责人称,他们将在本周内发布一款用户应用程序,名字叫做Fashin,只适用于iOS系统。

在这个应用程序中,用户们可以在线下实体店中将所中意的衣服款式拍个照,然后将该照片上传到该系统当中,系统就会自动为你在所有的网购平台上为你搜索相同款式的衣服,并且会为你择优选择和推荐。这样一来,就为用户省去了许多购物时间,并能够放心购买。

该公司不久之后将会扩展另外一个领域,就是文档分析,就是对各种不同类型的文档进行电子化分析并且整理归类。该技术在BFSI行业运用的相当普遍,并且在过去几年当中,人们也看到了它有很强的适应性。

该新创公司目前团队成员总共18名,印度天使网络公司对他们给予了超高的支持,不久之后将推出另外一个系列的产品。
[/login]
 
 
 
 
来源:1号机器人网
智造家提供 查看全部
4.1_.JPG


在当今电子商务时代,进行网络购物成为了最普通不过的事情。而许多时候在实体店看到许多漂亮设计的服装时,我们第一反应就是会再三思量一下,会选择到网上购买,因为网购的价格会更加优惠。

那么在网购的时候,是否真的就是豪无缺陷呢。答案是显然的,其中最大的一个问题就是我们无法设身处地的去试衣服,对我们带来了许多的局限性。 

因此,当你起了这样的心思,想去网购时,其实也并不是一件容易的事。要想在众多网购平台上,挑选出最符合要求的价格又优惠的商品,要花费很多的心思,这个过程是很乏味,有时还会竹篮打水一场空。

[login] 

为了解决这个问题,曾经获得过人工智能硕士学位的阿图尔•清莱决定在这个领域上大展身手,终于在去年推出了Staqu平台。 
 

虽然人工智能在许多领域被采用,但是在印度,近几年AI的发展速度稍微减缓了,其实不仅仅是在印度,在全球范围内其增速都在减慢。然而,阿图尔•清莱这一群人深深明白人工智能这些技术能够给电子商务领域带来巨大的影响力,也能够改变其他相关领域。

就这样,Staqu平台就这样应运而生了,它在印度古尔冈正式面向大众。


它是如何运作的?

该平台可以在三个方面帮助用户。首先,它能够帮助用户找到“非结构化产品”,那什么是“非结构化产品”呢?就是指那些用户无法描述具体外形的服装产品。第二方面,在众多标签的协助下,它能够帮助用户找到具体的产品。第三个方面,就是在该平台上,它可以帮助用户了解当前的流行趋势,并根据用户的选择对其作出相关推荐。

许多开启了电子商务模式的B2B新创企业,例如Yepme,Paytm和FabAlley也都具备这样的推荐功能。


“起初,为了让市场上的客户对该技术更加信服,从而让他们能够信赖这项技术,其实是一件很艰巨的任务,但是现在变得容易多了”阿图说道。

除了在电子商务领域有所突破,该公司还与许多手机制造商相互合作,其中包括Karbonn,Panaonic,Lava,和Intex,对他们帮助最大的是在图像搜索等方面。

 
发展趋势

该公司目前阶段主要是着重开发B2B电子商务领域,不过据相关负责人称,他们将在本周内发布一款用户应用程序,名字叫做Fashin,只适用于iOS系统。

在这个应用程序中,用户们可以在线下实体店中将所中意的衣服款式拍个照,然后将该照片上传到该系统当中,系统就会自动为你在所有的网购平台上为你搜索相同款式的衣服,并且会为你择优选择和推荐。这样一来,就为用户省去了许多购物时间,并能够放心购买。

该公司不久之后将会扩展另外一个领域,就是文档分析,就是对各种不同类型的文档进行电子化分析并且整理归类。该技术在BFSI行业运用的相当普遍,并且在过去几年当中,人们也看到了它有很强的适应性。

该新创公司目前团队成员总共18名,印度天使网络公司对他们给予了超高的支持,不久之后将推出另外一个系列的产品。
[/login]
 
 
 
 
来源:1号机器人网
智造家提供
683 浏览

Ai Build的AI 3D打印机器人

机械自动化类 喷漆李 2016-10-19 11:41 发表了文章 来自相关话题

Ai Build 公司创建了一个长“眼睛”的人工智能 3D 打印机器人,可以自己监测打印过程,并自行进行错误纠正。

Ai Build 的创始人和 CEO Daghan Cam 注意到小规模生产和大规模工程建设间存在脱节现象。
 
[login]
在小规模生产领域,已经开始出现一种全自动生产流水线,而另一方面,进行大规模工程建设还要依赖于人类劳动。随着更高效的 3D 印刷技术的出现,他认为可以在这方面做文章。
 

3D 打印技术作为一种新型制造手段,不仅昂贵,费时,在现阶段还不能进行大规模物体打印。一些 3D 技术打印的大规模模型如飞机、办公空间或艺术作品,都不是作为一个整体打印而成的,而是许多打印好的小部件拼凑在一起。
 

为扩大打印规模,Cam 和他的团队将 3D 打印头绑在库卡机器人机械臂上,并利用编程来操控机械臂来完成一些复杂结构的打印。为降低成本和节约时间,他们采用了网格状的叠层式设计,这样既能在使用更少材料的同时仍然能构建一个强大和有效的支撑结构。
 

但在打印过程中机器人却犯了很多错误。“我们的机器人是盲目的,”Cam 说。“它只会盲目地执行电脑的指令。如果有问题它都一点没有察觉到,更别说进行适当调整。”
 

为了解决这个问题,Cam 和他的团队为机器人加装摄像头和机器视觉算法来对打印物体结构进行分析。
 

有了这双新“眼睛”之后,机器人在随后的打印中将自动监测出现的问题并进行调整。结果打印效率迅速提升,比之前节约了近一半的时间。
 

上周在阿姆斯特丹举行的 GPU 技术会议上,公司展出了一个长宽各 5 米,高 4.5 米的建筑结构 Daedalus Pavilion。这一作品是与 Arup Engineers 公司合作完成的。整个打印过程只用了 15 天时间。打印成本约为 100 美元/小时,打印该作品总共花费将超过 35600 美元(约合人民币 239684 元)。
[/login]
 
 
 
 
 
来源:网络
智造家提供 查看全部
3.1_.jpg
Ai Build 公司创建了一个长“眼睛”的人工智能 3D 打印机器人,可以自己监测打印过程,并自行进行错误纠正。

Ai Build 的创始人和 CEO Daghan Cam 注意到小规模生产和大规模工程建设间存在脱节现象。
 
[login]
在小规模生产领域,已经开始出现一种全自动生产流水线,而另一方面,进行大规模工程建设还要依赖于人类劳动。随着更高效的 3D 印刷技术的出现,他认为可以在这方面做文章。
 

3D 打印技术作为一种新型制造手段,不仅昂贵,费时,在现阶段还不能进行大规模物体打印。一些 3D 技术打印的大规模模型如飞机、办公空间或艺术作品,都不是作为一个整体打印而成的,而是许多打印好的小部件拼凑在一起。
 

为扩大打印规模,Cam 和他的团队将 3D 打印头绑在库卡机器人机械臂上,并利用编程来操控机械臂来完成一些复杂结构的打印。为降低成本和节约时间,他们采用了网格状的叠层式设计,这样既能在使用更少材料的同时仍然能构建一个强大和有效的支撑结构。
 

但在打印过程中机器人却犯了很多错误。“我们的机器人是盲目的,”Cam 说。“它只会盲目地执行电脑的指令。如果有问题它都一点没有察觉到,更别说进行适当调整。”
 

为了解决这个问题,Cam 和他的团队为机器人加装摄像头和机器视觉算法来对打印物体结构进行分析。
 

有了这双新“眼睛”之后,机器人在随后的打印中将自动监测出现的问题并进行调整。结果打印效率迅速提升,比之前节约了近一半的时间。
 

上周在阿姆斯特丹举行的 GPU 技术会议上,公司展出了一个长宽各 5 米,高 4.5 米的建筑结构 Daedalus Pavilion。这一作品是与 Arup Engineers 公司合作完成的。整个打印过程只用了 15 天时间。打印成本约为 100 美元/小时,打印该作品总共花费将超过 35600 美元(约合人民币 239684 元)。
[/login]
 
 
 
 
 
来源:网络
智造家提供
445 浏览

当AI变成宣传武器:继续深扒大数据公司Cambrige Analytica

智能科技类 一见你就笑 2017-03-30 16:33 发表了文章 来自相关话题

 “这简直就是台宣传机器。它一个个地拉拢公众,使他们拥护某个立场。如此程度的社会工程,我还是头一次得见。他们用情绪作为缰绳,套住人们,然后就再也不松手了。”乔纳森·奥尔布赖特(Jonathan Albright)教授说。



奥尔布赖特是美国伊隆大学的助理教授兼数据科学家。唐纳德·特朗普当选美国总统后,他开始探究假新闻网站泛滥的幕后真相。我们采访了包括奥尔布赖特在内的业内专家,包括牛津大学计算机政治宣传项目主任萨缪尔·沃利(Samuel Woolley),以及英国国王学院的媒体、传播与权力中心主任马丁·摩尔(Martin Moore)。



从中我们发现,事情不只几篇假新闻这么简单。假新闻只是一小块拼图。它与其他拼图一道,构成了一幅更大、更黑暗的图景——人工智能变成武器,被用于操控我们的意见和行为,以实现特定的政治和商业目的。



利用大数据分析、人工智能程序、机器人水军、Fecebook“暗帖”(dark post;定向投放给特定用户的帖子)和A/B对照实验,一家名为Cambrige Analytica的公司制造出了一台,无形的机器它抓住选民的不同个性,实现了舆论的大规模引导和转向。



在过去,这些技术都曾被单独运用过,可一旦集结起来,它们就成了一台坚不可摧的选民操控机器。很快,它创造的这种机器就会大行其道,变成全球各国选举中的决定性因素之一。





Cambridge Analytica首席执行官亚历山大·尼克斯在2016年的康科迪亚峰会上的演讲


去年,Cambrige Analytica仅仅是小试牛刀便创造了辉煌的战绩。在它的辅佐下,唐纳德·特朗普登上美国权力巅峰;英国脱欧运动一锤定音;泰德·克鲁兹(Ted Cruz)也曾在2016年短时崛起,一跃进入共和党初选的第一阵营。



对于这家公司,目前我们只知道它是由保守派和“另类右派”政治势力控制。这些势力也与特朗普政府有着千丝万缕的联系。



比如,美国的默瑟家族既是Cambridge Analytica的大老板之一,也是特朗普的大金主之一。史蒂夫·班农——特朗普的首席战略师、白宫国家安全理事会的成员——又是Cambridge Analytica的董事会成员。此前,Cambridge Analytica的首席技术官(CTO)还一直担任美国共和党全国代表大会的代理CTO。



眼下,Cambridge Analytica正全速挺进美国商业市场,也在与欧洲、亚洲和拉美的右翼政党和政府讨论合作事宜。



其实,拥有这个能耐的科技公司并不只有Cambridge Analytica一家,只不过目前最炙手可热的就数它了。这家公司浮出水面,代表着一个新时代的到来。今后无论你是想要在政治或商业上取得成功,就必须要理解Cambridge Analytica的那套玩法,以及理解它创造的那种AI宣传机器。在这个充斥着极化、孤立、水军和暗帖的世界中,这家公司所代表的东西,亦即武器化的AI宣传机器,已经成为政治和商业成功的新前提。



关于Cambridge Analytica本身,以及这种机器的其中某些个方面——机器人水军、假新闻、微定向——媒体的报道已经汗牛充栋。但如果聚合在一起,这些技术会变得多么强大?在未来的竞选和商业宣传中,它们的影响力会达到何种程度?对于这个层面的问题,据我们所知,目前还没有人进行过综合的考察。



在过去的竞选宣传中,人们借助新闻媒体,将文字作为武器,在纸媒、电台和电视上相互讨伐。而这种新武器所带来的,是远远更加阴暗的东西—一因人而异、自我调整、致人上瘾的宣传活动。近十年来,硅谷致力于构建的种种平台,目的就是让用户对数字内容成瘾,但还仅仅是停留在商业层面。2016年,特朗普及其盟友率先在政治层面将它用了起来。



我们步入了一个全新的时代。在未来,我们还能否实现文明的、建设性的对话,就看我们能否理解这个时代,并准确把握它的脉搏了。






欢迎进入AI变成宣传武器的新时代



第一部分:当大数据监视邂逅计算机心理学


这年头,但凡是家像模像样的公司都在收集并购买大数据,但Cambridge Analytica开发了一种模型,可将数据转化为个性档案,用于预测你的行为,并最终改变它们。这个模型是怎么开发出来的呢?



这个事情要从2013年讲起。当时还在剑桥大学心理测量学中心读博士的迈克尔·科辛斯基(Michal Kosinski)公布了一项突破性的研究。它能够将Facebook用户的“点赞”记录,与他们开发的“五大性格特质”(OCEAN;最常用的一种个性特质问卷)评分模型相匹配。



然后,他们便可以仅靠一个人在Facebook上的点赞行为,判断出此人的性别、性取向、政治倾向和个性特质。






这套模型仅凭某用户在Facebook上的十个‘赞’,它就能对一个人的个性特质作出判断,准确率超过此人同事对他的了解;凭借70个“赞”,就足以赛过其好友;150个赞赛过父母;300赞赛过另一半;再多一点,它甚至能赛过此人对自己的了解。



过了没多久,剑桥大学的另一位教授亚历山大·高根(Aleksandr Kogan)找到科辛斯基,撮合他将这套分析工具授权给SCL Elections——一家自称专业操纵选举的公司。对科辛斯基的实验室来说,这笔授权费不是一个小数目,但由于不放心该公司的意图,他最后还是回绝了。



为了开发这个模型,科辛斯基及其同事花了多年的心血,但这些方法和结果既已发布,SCL Elections要复制起来也不难了。而且,他们似乎就是这样做的。



根据英国《卫报》的调查,2014年初,就在科辛斯基拒绝邀约的几个月后,SCL转而与高根达成合作关系。高根通过众包平台Amazon Mechanical Turk,向每位参与者支付1美元,让他们做一份五大个性测试。



不过,事情没那么简单——参与者必须向高根开放所有Facebook数据的访问权。他们被告知:数据将被用于研究。很多参与测试的人可能没有意识到,他们的Facebook好友也在不知不觉中被拉进了测试,数据也被收集走了。



正是高根搜集的这些“研究数据”催生了Cambridge Analytica。它很快就从SCL Elections中分拆了出来。



最早的这批数据固然宝贵,但仅仅是个开端——对Cambridge Analytica来说,它只是种子,用来孵化自己的模型,以便日后脱离五大个性测试,直接分析用户个性。



在成功地验证这些概念后,Cambridge Analytica便开始大举收购互联网用户的年龄、购物习惯、土地所有权等各类数据,乃至他们去哪个教堂、光顾哪些店面、订阅什么杂志,通通收入囊中——这些都可以从各种数据中间商,以及兜售个人信息的第三方机构处买到。



Cambridge Analytica将这些数据与选民名册、网络公开数据——包括Facebook的点赞在内——聚合起来,一起投入个性预测模型。



Cambridge Analytica公司CEO亚历山大·尼克斯(Alexander Nix)就曾经在一次演讲中吹嘘说,凭借其个性模型,该公司足以给美国的所有成年人建立个性档案。



“Twitter和Facebook都被用来收集很多反馈数据,因为围绕某个话题,光回复、转发还不算,人们一兴奋,就把自己的论点和老底全发出来了。”奥尔布赖特解释说。




第二部分:专挑情绪下手的自动化互动脚本


收集有关选民个性的海量数据还不是Cambridge Analytica的与众不同之处,关键要看他们拿数据做什么。







“行为是受个性驱动的。你越了解个性对行为的驱动作用,就越能理解人们为何做出某一决定,以及该决定是如何做出的。”尼克斯向彭博社的萨莎·艾森伯格(Sasha Issenburg)解释说。“我们称之为行为学微定向,这可是我们的秘密武器。”







利用这些个性档案,Cambridge Analytica不仅能知道哪些选民最有可能改变立场,或改变支持对象;还能预测并改变他们未来的行为。



据Vice网站报道,科辛斯基最近正与一名同事合作开展新研究,探讨这些方法的有效性。从早期研究结果看,他们发现:在Facebook上使用个性定向,点击量最多可增加63%;由广告带来的咨询或购买等行为最多可增加1400次。



在技术和媒体生态系统中,有一些研究人员长期观察着Cambridge Analytica的政治传播活动,并发现了一个不断膨胀的自适应型在线网络,它正以政治传播领域内前所未见的规模,进行着自动化的选民操控。



“他们(特朗普竞选团队)每天投放4到5万条内容略有差异的广告,然后反复评估用户的反馈,并依据这些反馈作出调整,”国王学院的马丁·摩尔说,“这些操作都是完全不透明的,针对某个特殊的地理范围,他们爱投多少,就投多少。这个范围最小可以精确到五英里。”



传统民调机构可能会直接问你:你打算把票投给谁?但Cambridge Analytica依据的不是言语,而是行动。它跟踪人们在网络上的举动,以及表现出来的兴趣,恰如其分地呈现出差异性的广告,旨在利用每个人的个性特质,改变他们的行为。



该公司CEO尼克斯去年在一篇专栏文章中写道:“举个例子,我们的模型发现,爱荷华州存在那么一小部分选民,他们强烈认为,公民在投票站投票时,应出示身份证件。”



“我们又借助另外的数据模型,给竞选团队给出建议,教他们如何抓住这个小众议题,按照每个人的独特个性,随机应变地施加影响力,激励人们行动起来,投票给克鲁兹。有的人个性反复无常,不喜欢从一而终,对这群人,我们可以说:投票时出示一下身份证件,就跟买箱啤酒一样简单。有的人传统观念根深蒂固,我们就可以说:投票时出示身份证件,难道不是我们生活在民主国家的众多特权之一吗?”



对Cambridge Analytica而言,反馈是即时的,应对过程也是自动化的:这人是宾州的一个摇摆选民,他有没有点击关于希拉里邮件门的广告?点击了?那就显示更多的内容,强调希拉里如何失责。没有?自动脚本就换个标题试试,也许换个切入点——比如针对此人容易听信权威的特质。于是,标题就换成了:《情报部门高官一致认为:希拉里电邮门危及国家安全》。


以上很多都是靠Facebook暗帖来实现的,只有被定向投放的人才能看见。



基于用户对这些帖子的反响,Cambridge Analytica就能知道,在特朗普的政治宣传中,哪些讯息在哪个地方最能引起共鸣。特朗普竞选路线的安排也参考了这些信息。



如果在密歇根州肯特郡,你定向投放了三篇有关让就业回归美国的文章,而73%的定向选民都点击了其中一篇——那还等什么,赶紧在那儿安排一场特朗普竞选集会!不讲别的,就讲经济复苏。



希拉里的竞选团队采取了传统的民调方法,当特朗普安排在“蓝墙”州(历来倒向民主党的几个州,包括密歇根、宾夕法尼亚和威斯康辛等)举行集会时,希拉里阵营差点笑掉大牙。但根Facebook暗帖的互动情况,Cambridge Analytica察觉到其中有机可乘。



看看下图就知道,特朗普最后当上总统,关键就在于密歇根、宾夕法尼亚和威斯康辛这几个州的倒戈。






从2012年大选到2016年大选,美国各州共和党/民主党获胜比例的变化幅度



Cambridge Analytica也把暗帖部署到了民主党的关键选民群体中,用来降低这些人的投票率。“在这场大选中,暗帖被用来抑制黑人选民投票。”记者麦肯齐·芬克(McKenzie Funk)在《纽约时报》的社论中写道。


“据彭博社报道,特朗普团队向特定黑人选民投放广告,反复提及希拉里把黑人称为‘超级掠夺者’。在迈阿密的小海地社区,它则定向投放2010年海地地震内容,突出当时克林顿基金会的丑事。”


暗帖只有特定用户可见,除了Cambridge Analytica和特朗普团队,没有人能追踪这些广告的内容,自然不用受到政府部门的监管和大众的监督。只有那几百万个被定向的用户看过它们,真正是做到了阅后即焚。



在临近投票前几周,一个竞选团队可以针对最关键的那些摇摆选民发起暗帖攻势,未来大选中的“黑天鹅”就会是这样诞生。




第三部分:假新闻网络基础设施化

 
2016年美国大选结果出炉后,奥尔布赖特开始探究“假新闻问题”。作为研究的一部分,他探究了306个假新闻网站,弄清了它们的相互关系,以及它们与主流新闻生态网络的联系。他从中发现一个网络:一个由2.3万个网页和130万个超链接构成的网络。







“假新闻和极度偏激的多频道网络内的站点,”奥尔布赖特写道,“其节点规模非常之小——这意味着,它们严重依赖链接,这些链接指向主流媒体、社交网络和信息来源(大多都处在网络的‘中央’),但这些网站相互之间的链接却很少。”


这些网站并非由哪一个独立实体拥有或运营,他说,但联合起来,它们可以将搜索引擎优化(SEO)玩得游刃有余,谁只要搜索与大选相关的词组——特朗普、希拉里、犹太裔、穆斯林,堕胎、奥巴马医保——他们就可以立刻提升假新闻和偏激新闻的可见度。


“这个网络按需激活,以传播各种虚假、极度偏激且夹带政治私货的信息。”奥尔布赖特写道。


然而,更令他震惊的是,这个假新闻网络形成了一个强大的基础设施,使Cambridge Analytica这样的网站得以追踪选民,不断完善其个性定向模型。


“我把这些网站上的追踪器都找了出来,结果就震惊到无语了。每次你在Facebook上给这类帖子点一个赞或者访问类似的网页,你就被脚本盯上了。像Cambridge Analytica这种通过数据挖掘进行政治运作的公司,就可以准确定向个人,在网络上贴身跟踪着你,向你发送高度定制化的政治宣传信息。”

 
在去年的美国大选中,假新闻和偏激新闻站点组成的地下网络掀起了一股浩荡的政治宣传浪潮,而Cambridge Analytica正是其中的弄潮儿。用户点击查看的假新闻越多,它的个性互动算法就能把你缠得越紧。
 

虚假内容网站,自动化政治讯息测试,个性档案……这些技术协同作用,并迅速传播到其他数字媒介。奥尔布赖特的最近一项研究专注于这样一种人工智能:它们能围绕新闻和实事,自动创建Youtube视频。


这种AI能响应Facebook和Twitter上的热门话题,配上图像和副标题,并附上计算机生成的配音。短短几天之内,它们就通过19个不同的Youtube频道,发布了近8万则这样的视频。


考虑到这种技术的飞速发展,技术社群要做好心理准备:过不了多久,AI宣传就会进入移动聊天app,还有虚拟现实和增强现实场景,操控人们的情感。

 


第四部分:机器人水军佣兵集团

 
如果说,在这台自动化政治宣传机器的构建中,假新闻网络为它搭建了基础设施,那么机器人水军和各种虚假的社交媒体账号就充当了它的马前卒。


文章开头提到的牛津大学计算机政治宣传项目的研究主任塞缪尔·沃利,过去几年就一直在研究机器人水军在线上传播中扮演的角色——它们由谁创造、如何运作,以及要达到何种目的。


在2016年的美国大选前夕,沃利和他在牛津大学的团队发现,偏向特朗普的政治宣传严重依赖机器人水军。到大选日那天,相对于希拉里,特朗普的机器人水军存在5:1的数量优势。


“贯穿这场大选的,是机器人账号的战略性使用,其中以特朗普竞选团队最为明显。在大选辩论期间,程序员们对内容呈现的时机进行精细微调,战略性地占领亲希拉里的主题标签,大选一结束,这些账号就全都销声匿迹了。”沃利团队在研究报告中称。


至于这些机器人账号是不是Cambridge Analytica动用的,我们无从得知。沃利说:“机器人水军往往都是买来的,或是由外包出去,因为这些‘外围工人’跟竞选团队关系很远,也就不受选举委员会监管。”


在团队主要研究员菲利普·霍华德(Philip Howard)的带领下,沃利和同事们自2010年起,就开始追踪这类机器人账号的使用。这个过程中,他们接触过黑客、机器人水军制造者、政治活动者,试图了解他们,理解他们的工作和动机。到最后,这些努力变成了一个由上百名机器人账号制造者组成的线人网络,让沃利团队能及时了解这个地下世界的新动向。 


这其中就包括机器人账号被用于政治宣传运动的消息,来源正是这些账号的制造者。随着越来越多的国际政治领袖开始使用机器人水军网络,来作为他们的竞选工具之一,沃利团队开始追踪事态进展。


这些线人让我们看到这样一个世界:由政府、咨询公司(这些公司的老板或高管通常都处在政府官员最内层的人脉圈子)和个人组成的国际网络,他们构建并维护巨大的机器人水军网络,放大宣传效果,传播与对手针锋相对的讯息,谁要是对他们的服务对象构成威胁,就设法使之噤声。


这些机器人水军也分三六九等。最普通的Twitter机器人账号就完全是个自动程序——专门转发特定账号的帖子,帮助推广特定观念或观点。它们还能鉴别出使用特定关键词或主题标签的Twitter用户,自动回复其推文,文案都是预先写好的。


另一方面,比较高端的机器人水军反而由真人运作的成份更高。他们扮成个性鲜明的路人甲,针对具体内容或话题,跟其他用户展开互动,旨在改变对方的观点。在网络上,他们也有好友和关注者。Facebook或Twitter很难找出并封杀这些账号。


沃利估计,一个人独立工作,最多可同时维护400个传统的Twitter机器人账号;Facebook对虚假账号相对查得更严,所以一个人最多只能同时管理10到20个这样的账号。


因此,这些水军网络常同时服务于多个政治运动。在英国脱欧公投期间,牛津大学的团队观察发现,一个曾参与影响以巴冲突舆论的水军网络被重新激活,为脱欧阵营摇旗呐喊。那些个人页面纷纷更新,反映最新的争论焦点,个性签名也纷纷更改,与最新的效忠对象保持一致——英国就这样走上了脱欧之路。




AI宣传机器的未来


2016年的美国大选已然结束,但武器化的AI政治宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。



目前,特朗普和Cambridge Analytica将对手甩出了好几条街。收集的个人数据越多,Cambridge Analytica和特朗普政府就越能从网络效应中受益。



特朗普个人账号@realDonaldTrump和美国总统官方账号@POTUS发出的每一条推文,不论是宣布还是捍卫他们采取的行动,都会迎来反对和争论的声浪。但哪怕是像这样的负面互动,对特朗普政府来说,也是宝贵的资产,因为每一条一时冲动发出的推文,都可以作为心理特质实验。



未来政治比的不是候选人,也不是财力,甚至都不是大数据。大数据谁都能获取,就连2016年败选的希拉里也不例外。



从今往后,一场大选谁胜谁负,决定性因素将是候选人如何运用这些数据,来完善其机器学习算法,以及自动化互动策略。到2018和2020年,大选所比的不再是观点,而是看谁能自动化地改变人们的行为。



谁要想推行变革,就得理解这种新的现实。只有理解这一点,以及构建更加完善的自动化互动系统,放大真实的人类激情,而不是操控它们,全球各地的其他候选人和事业才有竞争的希望。



不久的将来,这种AI宣传将如何在社会中传播开来?对此,我们采访了政治战略师、技术专家,以及机器学习专家。我们希望联手读者,针对未来可能发生的场景展开一番设想。以下列出几个潜在后果,算是抛砖引玉了。




后果1:舆情变成高频交易


拜股票交易算法所赐,很多股市和大宗商品市场中的交易都不再依靠人类来定夺。一些人认为,这样的交易系统也不再能充当价值的风向标。它们成了高频交易算法的斗法之所,这些算法试图影响价格,或在不断变动的价格中,寻找微小的获利空间。


在不久的将来,类似的情况也可能发生在商业宣传和公共辩论之中。舆论不再是官方通告和意见之争,而变成了算法之争,其部署都以左右舆情为目的。


眼下这种算法已经存在于金融市场,它们能实时分析数百万条社交网络发言和网络新闻,并基于市场情绪,在几毫秒的时间内,完成交易。算法交易和“算法舆论”已经紧密联系起来。日后,它们还会进一步整合。




后果2:专抓软肋的个性化、自动化宣传


假设2020年,特朗普在竞选连任时,并不具备最有说服力的政治讯息,但这些政治讯息变成2.5亿个算法版本,针对美国的每一个选民,同步实时更新,经过个性化定制,精准契合政治宣传对象的世界观,专攻他们性格上的薄弱点。


过不了多久,能说会道的政客就会销声匿迹,信口雌黄的政治和企业机器人水军却迎来寒武纪般的生命大爆发,它们操控人的手段也越来越高明。




后果3:困在自己的舒适区?试试困在机器人水军营造的虚拟世界里!


试想2020年,你发现自己最喜欢的社交网络意见群里其实一个真人都没有,只有几千个机器人水军,不断印证你的观点,让你以为“找到了组织”,这将是怎样一副景象?也许,你将永远身在其中而不自知。
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:人工智能学家 查看全部

1.jpg

 “这简直就是台宣传机器。它一个个地拉拢公众,使他们拥护某个立场。如此程度的社会工程,我还是头一次得见。他们用情绪作为缰绳,套住人们,然后就再也不松手了。”乔纳森·奥尔布赖特(Jonathan Albright)教授说。



奥尔布赖特是美国伊隆大学的助理教授兼数据科学家。唐纳德·特朗普当选美国总统后,他开始探究假新闻网站泛滥的幕后真相。我们采访了包括奥尔布赖特在内的业内专家,包括牛津大学计算机政治宣传项目主任萨缪尔·沃利(Samuel Woolley),以及英国国王学院的媒体、传播与权力中心主任马丁·摩尔(Martin Moore)。



从中我们发现,事情不只几篇假新闻这么简单。假新闻只是一小块拼图。它与其他拼图一道,构成了一幅更大、更黑暗的图景——人工智能变成武器,被用于操控我们的意见和行为,以实现特定的政治和商业目的。



利用大数据分析、人工智能程序、机器人水军、Fecebook“暗帖”(dark post;定向投放给特定用户的帖子)和A/B对照实验,一家名为Cambrige Analytica的公司制造出了一台,无形的机器它抓住选民的不同个性,实现了舆论的大规模引导和转向。



在过去,这些技术都曾被单独运用过,可一旦集结起来,它们就成了一台坚不可摧的选民操控机器。很快,它创造的这种机器就会大行其道,变成全球各国选举中的决定性因素之一。

2.JPG

Cambridge Analytica首席执行官亚历山大·尼克斯在2016年的康科迪亚峰会上的演讲


去年,Cambrige Analytica仅仅是小试牛刀便创造了辉煌的战绩。在它的辅佐下,唐纳德·特朗普登上美国权力巅峰;英国脱欧运动一锤定音;泰德·克鲁兹(Ted Cruz)也曾在2016年短时崛起,一跃进入共和党初选的第一阵营。



对于这家公司,目前我们只知道它是由保守派和“另类右派”政治势力控制。这些势力也与特朗普政府有着千丝万缕的联系。



比如,美国的默瑟家族既是Cambridge Analytica的大老板之一,也是特朗普的大金主之一。史蒂夫·班农——特朗普的首席战略师、白宫国家安全理事会的成员——又是Cambridge Analytica的董事会成员。此前,Cambridge Analytica的首席技术官(CTO)还一直担任美国共和党全国代表大会的代理CTO。



眼下,Cambridge Analytica正全速挺进美国商业市场,也在与欧洲、亚洲和拉美的右翼政党和政府讨论合作事宜。



其实,拥有这个能耐的科技公司并不只有Cambridge Analytica一家,只不过目前最炙手可热的就数它了。这家公司浮出水面,代表着一个新时代的到来。今后无论你是想要在政治或商业上取得成功,就必须要理解Cambridge Analytica的那套玩法,以及理解它创造的那种AI宣传机器。在这个充斥着极化、孤立、水军和暗帖的世界中,这家公司所代表的东西,亦即武器化的AI宣传机器,已经成为政治和商业成功的新前提。



关于Cambridge Analytica本身,以及这种机器的其中某些个方面——机器人水军、假新闻、微定向——媒体的报道已经汗牛充栋。但如果聚合在一起,这些技术会变得多么强大?在未来的竞选和商业宣传中,它们的影响力会达到何种程度?对于这个层面的问题,据我们所知,目前还没有人进行过综合的考察。



在过去的竞选宣传中,人们借助新闻媒体,将文字作为武器,在纸媒、电台和电视上相互讨伐。而这种新武器所带来的,是远远更加阴暗的东西—一因人而异、自我调整、致人上瘾的宣传活动。近十年来,硅谷致力于构建的种种平台,目的就是让用户对数字内容成瘾,但还仅仅是停留在商业层面。2016年,特朗普及其盟友率先在政治层面将它用了起来。



我们步入了一个全新的时代。在未来,我们还能否实现文明的、建设性的对话,就看我们能否理解这个时代,并准确把握它的脉搏了。






欢迎进入AI变成宣传武器的新时代



第一部分:当大数据监视邂逅计算机心理学


这年头,但凡是家像模像样的公司都在收集并购买大数据,但Cambridge Analytica开发了一种模型,可将数据转化为个性档案,用于预测你的行为,并最终改变它们。这个模型是怎么开发出来的呢?



这个事情要从2013年讲起。当时还在剑桥大学心理测量学中心读博士的迈克尔·科辛斯基(Michal Kosinski)公布了一项突破性的研究。它能够将Facebook用户的“点赞”记录,与他们开发的“五大性格特质”(OCEAN;最常用的一种个性特质问卷)评分模型相匹配。



然后,他们便可以仅靠一个人在Facebook上的点赞行为,判断出此人的性别、性取向、政治倾向和个性特质。

3.jpg


这套模型仅凭某用户在Facebook上的十个‘赞’,它就能对一个人的个性特质作出判断,准确率超过此人同事对他的了解;凭借70个“赞”,就足以赛过其好友;150个赞赛过父母;300赞赛过另一半;再多一点,它甚至能赛过此人对自己的了解。



过了没多久,剑桥大学的另一位教授亚历山大·高根(Aleksandr Kogan)找到科辛斯基,撮合他将这套分析工具授权给SCL Elections——一家自称专业操纵选举的公司。对科辛斯基的实验室来说,这笔授权费不是一个小数目,但由于不放心该公司的意图,他最后还是回绝了。



为了开发这个模型,科辛斯基及其同事花了多年的心血,但这些方法和结果既已发布,SCL Elections要复制起来也不难了。而且,他们似乎就是这样做的。



根据英国《卫报》的调查,2014年初,就在科辛斯基拒绝邀约的几个月后,SCL转而与高根达成合作关系。高根通过众包平台Amazon Mechanical Turk,向每位参与者支付1美元,让他们做一份五大个性测试。



不过,事情没那么简单——参与者必须向高根开放所有Facebook数据的访问权。他们被告知:数据将被用于研究。很多参与测试的人可能没有意识到,他们的Facebook好友也在不知不觉中被拉进了测试,数据也被收集走了。



正是高根搜集的这些“研究数据”催生了Cambridge Analytica。它很快就从SCL Elections中分拆了出来。



最早的这批数据固然宝贵,但仅仅是个开端——对Cambridge Analytica来说,它只是种子,用来孵化自己的模型,以便日后脱离五大个性测试,直接分析用户个性。



在成功地验证这些概念后,Cambridge Analytica便开始大举收购互联网用户的年龄、购物习惯、土地所有权等各类数据,乃至他们去哪个教堂、光顾哪些店面、订阅什么杂志,通通收入囊中——这些都可以从各种数据中间商,以及兜售个人信息的第三方机构处买到。



Cambridge Analytica将这些数据与选民名册、网络公开数据——包括Facebook的点赞在内——聚合起来,一起投入个性预测模型。



Cambridge Analytica公司CEO亚历山大·尼克斯(Alexander Nix)就曾经在一次演讲中吹嘘说,凭借其个性模型,该公司足以给美国的所有成年人建立个性档案。



“Twitter和Facebook都被用来收集很多反馈数据,因为围绕某个话题,光回复、转发还不算,人们一兴奋,就把自己的论点和老底全发出来了。”奥尔布赖特解释说。




第二部分:专挑情绪下手的自动化互动脚本


收集有关选民个性的海量数据还不是Cambridge Analytica的与众不同之处,关键要看他们拿数据做什么。

4.jpg



“行为是受个性驱动的。你越了解个性对行为的驱动作用,就越能理解人们为何做出某一决定,以及该决定是如何做出的。”尼克斯向彭博社的萨莎·艾森伯格(Sasha Issenburg)解释说。“我们称之为行为学微定向,这可是我们的秘密武器。”

5.jpg



利用这些个性档案,Cambridge Analytica不仅能知道哪些选民最有可能改变立场,或改变支持对象;还能预测并改变他们未来的行为。



据Vice网站报道,科辛斯基最近正与一名同事合作开展新研究,探讨这些方法的有效性。从早期研究结果看,他们发现:在Facebook上使用个性定向,点击量最多可增加63%;由广告带来的咨询或购买等行为最多可增加1400次。



在技术和媒体生态系统中,有一些研究人员长期观察着Cambridge Analytica的政治传播活动,并发现了一个不断膨胀的自适应型在线网络,它正以政治传播领域内前所未见的规模,进行着自动化的选民操控。



“他们(特朗普竞选团队)每天投放4到5万条内容略有差异的广告,然后反复评估用户的反馈,并依据这些反馈作出调整,”国王学院的马丁·摩尔说,“这些操作都是完全不透明的,针对某个特殊的地理范围,他们爱投多少,就投多少。这个范围最小可以精确到五英里。”



传统民调机构可能会直接问你:你打算把票投给谁?但Cambridge Analytica依据的不是言语,而是行动。它跟踪人们在网络上的举动,以及表现出来的兴趣,恰如其分地呈现出差异性的广告,旨在利用每个人的个性特质,改变他们的行为。



该公司CEO尼克斯去年在一篇专栏文章中写道:“举个例子,我们的模型发现,爱荷华州存在那么一小部分选民,他们强烈认为,公民在投票站投票时,应出示身份证件。”



“我们又借助另外的数据模型,给竞选团队给出建议,教他们如何抓住这个小众议题,按照每个人的独特个性,随机应变地施加影响力,激励人们行动起来,投票给克鲁兹。有的人个性反复无常,不喜欢从一而终,对这群人,我们可以说:投票时出示一下身份证件,就跟买箱啤酒一样简单。有的人传统观念根深蒂固,我们就可以说:投票时出示身份证件,难道不是我们生活在民主国家的众多特权之一吗?”



对Cambridge Analytica而言,反馈是即时的,应对过程也是自动化的:这人是宾州的一个摇摆选民,他有没有点击关于希拉里邮件门的广告?点击了?那就显示更多的内容,强调希拉里如何失责。没有?自动脚本就换个标题试试,也许换个切入点——比如针对此人容易听信权威的特质。于是,标题就换成了:《情报部门高官一致认为:希拉里电邮门危及国家安全》。


以上很多都是靠Facebook暗帖来实现的,只有被定向投放的人才能看见。



基于用户对这些帖子的反响,Cambridge Analytica就能知道,在特朗普的政治宣传中,哪些讯息在哪个地方最能引起共鸣。特朗普竞选路线的安排也参考了这些信息。



如果在密歇根州肯特郡,你定向投放了三篇有关让就业回归美国的文章,而73%的定向选民都点击了其中一篇——那还等什么,赶紧在那儿安排一场特朗普竞选集会!不讲别的,就讲经济复苏。



希拉里的竞选团队采取了传统的民调方法,当特朗普安排在“蓝墙”州(历来倒向民主党的几个州,包括密歇根、宾夕法尼亚和威斯康辛等)举行集会时,希拉里阵营差点笑掉大牙。但根Facebook暗帖的互动情况,Cambridge Analytica察觉到其中有机可乘。



看看下图就知道,特朗普最后当上总统,关键就在于密歇根、宾夕法尼亚和威斯康辛这几个州的倒戈。

6.jpg


从2012年大选到2016年大选,美国各州共和党/民主党获胜比例的变化幅度



Cambridge Analytica也把暗帖部署到了民主党的关键选民群体中,用来降低这些人的投票率。“在这场大选中,暗帖被用来抑制黑人选民投票。”记者麦肯齐·芬克(McKenzie Funk)在《纽约时报》的社论中写道。


“据彭博社报道,特朗普团队向特定黑人选民投放广告,反复提及希拉里把黑人称为‘超级掠夺者’。在迈阿密的小海地社区,它则定向投放2010年海地地震内容,突出当时克林顿基金会的丑事。”


暗帖只有特定用户可见,除了Cambridge Analytica和特朗普团队,没有人能追踪这些广告的内容,自然不用受到政府部门的监管和大众的监督。只有那几百万个被定向的用户看过它们,真正是做到了阅后即焚。



在临近投票前几周,一个竞选团队可以针对最关键的那些摇摆选民发起暗帖攻势,未来大选中的“黑天鹅”就会是这样诞生。




第三部分:假新闻网络基础设施化

 
2016年美国大选结果出炉后,奥尔布赖特开始探究“假新闻问题”。作为研究的一部分,他探究了306个假新闻网站,弄清了它们的相互关系,以及它们与主流新闻生态网络的联系。他从中发现一个网络:一个由2.3万个网页和130万个超链接构成的网络。

7.jpg



“假新闻和极度偏激的多频道网络内的站点,”奥尔布赖特写道,“其节点规模非常之小——这意味着,它们严重依赖链接,这些链接指向主流媒体、社交网络和信息来源(大多都处在网络的‘中央’),但这些网站相互之间的链接却很少。”


这些网站并非由哪一个独立实体拥有或运营,他说,但联合起来,它们可以将搜索引擎优化(SEO)玩得游刃有余,谁只要搜索与大选相关的词组——特朗普、希拉里、犹太裔、穆斯林,堕胎、奥巴马医保——他们就可以立刻提升假新闻和偏激新闻的可见度。


“这个网络按需激活,以传播各种虚假、极度偏激且夹带政治私货的信息。”奥尔布赖特写道。


然而,更令他震惊的是,这个假新闻网络形成了一个强大的基础设施,使Cambridge Analytica这样的网站得以追踪选民,不断完善其个性定向模型。


“我把这些网站上的追踪器都找了出来,结果就震惊到无语了。每次你在Facebook上给这类帖子点一个赞或者访问类似的网页,你就被脚本盯上了。像Cambridge Analytica这种通过数据挖掘进行政治运作的公司,就可以准确定向个人,在网络上贴身跟踪着你,向你发送高度定制化的政治宣传信息。”

 
在去年的美国大选中,假新闻和偏激新闻站点组成的地下网络掀起了一股浩荡的政治宣传浪潮,而Cambridge Analytica正是其中的弄潮儿。用户点击查看的假新闻越多,它的个性互动算法就能把你缠得越紧。
 

虚假内容网站,自动化政治讯息测试,个性档案……这些技术协同作用,并迅速传播到其他数字媒介。奥尔布赖特的最近一项研究专注于这样一种人工智能:它们能围绕新闻和实事,自动创建Youtube视频。


这种AI能响应Facebook和Twitter上的热门话题,配上图像和副标题,并附上计算机生成的配音。短短几天之内,它们就通过19个不同的Youtube频道,发布了近8万则这样的视频。


考虑到这种技术的飞速发展,技术社群要做好心理准备:过不了多久,AI宣传就会进入移动聊天app,还有虚拟现实和增强现实场景,操控人们的情感。

 


第四部分:机器人水军佣兵集团

 
如果说,在这台自动化政治宣传机器的构建中,假新闻网络为它搭建了基础设施,那么机器人水军和各种虚假的社交媒体账号就充当了它的马前卒。


文章开头提到的牛津大学计算机政治宣传项目的研究主任塞缪尔·沃利,过去几年就一直在研究机器人水军在线上传播中扮演的角色——它们由谁创造、如何运作,以及要达到何种目的。


在2016年的美国大选前夕,沃利和他在牛津大学的团队发现,偏向特朗普的政治宣传严重依赖机器人水军。到大选日那天,相对于希拉里,特朗普的机器人水军存在5:1的数量优势。


“贯穿这场大选的,是机器人账号的战略性使用,其中以特朗普竞选团队最为明显。在大选辩论期间,程序员们对内容呈现的时机进行精细微调,战略性地占领亲希拉里的主题标签,大选一结束,这些账号就全都销声匿迹了。”沃利团队在研究报告中称。


至于这些机器人账号是不是Cambridge Analytica动用的,我们无从得知。沃利说:“机器人水军往往都是买来的,或是由外包出去,因为这些‘外围工人’跟竞选团队关系很远,也就不受选举委员会监管。”


在团队主要研究员菲利普·霍华德(Philip Howard)的带领下,沃利和同事们自2010年起,就开始追踪这类机器人账号的使用。这个过程中,他们接触过黑客、机器人水军制造者、政治活动者,试图了解他们,理解他们的工作和动机。到最后,这些努力变成了一个由上百名机器人账号制造者组成的线人网络,让沃利团队能及时了解这个地下世界的新动向。 


这其中就包括机器人账号被用于政治宣传运动的消息,来源正是这些账号的制造者。随着越来越多的国际政治领袖开始使用机器人水军网络,来作为他们的竞选工具之一,沃利团队开始追踪事态进展。


这些线人让我们看到这样一个世界:由政府、咨询公司(这些公司的老板或高管通常都处在政府官员最内层的人脉圈子)和个人组成的国际网络,他们构建并维护巨大的机器人水军网络,放大宣传效果,传播与对手针锋相对的讯息,谁要是对他们的服务对象构成威胁,就设法使之噤声。


这些机器人水军也分三六九等。最普通的Twitter机器人账号就完全是个自动程序——专门转发特定账号的帖子,帮助推广特定观念或观点。它们还能鉴别出使用特定关键词或主题标签的Twitter用户,自动回复其推文,文案都是预先写好的。


另一方面,比较高端的机器人水军反而由真人运作的成份更高。他们扮成个性鲜明的路人甲,针对具体内容或话题,跟其他用户展开互动,旨在改变对方的观点。在网络上,他们也有好友和关注者。Facebook或Twitter很难找出并封杀这些账号。


沃利估计,一个人独立工作,最多可同时维护400个传统的Twitter机器人账号;Facebook对虚假账号相对查得更严,所以一个人最多只能同时管理10到20个这样的账号。


因此,这些水军网络常同时服务于多个政治运动。在英国脱欧公投期间,牛津大学的团队观察发现,一个曾参与影响以巴冲突舆论的水军网络被重新激活,为脱欧阵营摇旗呐喊。那些个人页面纷纷更新,反映最新的争论焦点,个性签名也纷纷更改,与最新的效忠对象保持一致——英国就这样走上了脱欧之路。




AI宣传机器的未来


2016年的美国大选已然结束,但武器化的AI政治宣传机器只是刚刚兴起,它代表的是一个新的时代——谁能够收集更多的数据、创造出更好的个性分析手段、快速开发互动型AI,以及组织起更庞大的机器人水军,谁就能取胜。



目前,特朗普和Cambridge Analytica将对手甩出了好几条街。收集的个人数据越多,Cambridge Analytica和特朗普政府就越能从网络效应中受益。



特朗普个人账号@realDonaldTrump和美国总统官方账号@POTUS发出的每一条推文,不论是宣布还是捍卫他们采取的行动,都会迎来反对和争论的声浪。但哪怕是像这样的负面互动,对特朗普政府来说,也是宝贵的资产,因为每一条一时冲动发出的推文,都可以作为心理特质实验。



未来政治比的不是候选人,也不是财力,甚至都不是大数据。大数据谁都能获取,就连2016年败选的希拉里也不例外。



从今往后,一场大选谁胜谁负,决定性因素将是候选人如何运用这些数据,来完善其机器学习算法,以及自动化互动策略。到2018和2020年,大选所比的不再是观点,而是看谁能自动化地改变人们的行为。



谁要想推行变革,就得理解这种新的现实。只有理解这一点,以及构建更加完善的自动化互动系统,放大真实的人类激情,而不是操控它们,全球各地的其他候选人和事业才有竞争的希望。



不久的将来,这种AI宣传将如何在社会中传播开来?对此,我们采访了政治战略师、技术专家,以及机器学习专家。我们希望联手读者,针对未来可能发生的场景展开一番设想。以下列出几个潜在后果,算是抛砖引玉了。




后果1:舆情变成高频交易


拜股票交易算法所赐,很多股市和大宗商品市场中的交易都不再依靠人类来定夺。一些人认为,这样的交易系统也不再能充当价值的风向标。它们成了高频交易算法的斗法之所,这些算法试图影响价格,或在不断变动的价格中,寻找微小的获利空间。


在不久的将来,类似的情况也可能发生在商业宣传和公共辩论之中。舆论不再是官方通告和意见之争,而变成了算法之争,其部署都以左右舆情为目的。


眼下这种算法已经存在于金融市场,它们能实时分析数百万条社交网络发言和网络新闻,并基于市场情绪,在几毫秒的时间内,完成交易。算法交易和“算法舆论”已经紧密联系起来。日后,它们还会进一步整合。




后果2:专抓软肋的个性化、自动化宣传


假设2020年,特朗普在竞选连任时,并不具备最有说服力的政治讯息,但这些政治讯息变成2.5亿个算法版本,针对美国的每一个选民,同步实时更新,经过个性化定制,精准契合政治宣传对象的世界观,专攻他们性格上的薄弱点。


过不了多久,能说会道的政客就会销声匿迹,信口雌黄的政治和企业机器人水军却迎来寒武纪般的生命大爆发,它们操控人的手段也越来越高明。




后果3:困在自己的舒适区?试试困在机器人水军营造的虚拟世界里!


试想2020年,你发现自己最喜欢的社交网络意见群里其实一个真人都没有,只有几千个机器人水军,不断印证你的观点,让你以为“找到了组织”,这将是怎样一副景象?也许,你将永远身在其中而不自知。
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:人工智能学家
476 浏览

联想成立人工智能实验室,挖来AI大牛就能玩转AI了吗?

智能科技类 机器猫 2017-03-27 16:07 发表了文章 来自相关话题

 
如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
  
 
 
 
近日联想宣布成立人工智能实验室,由近期加盟的徐飞玉博士负责实验室的研发工作。据了解,加入联想前,徐飞玉博士曾担任德国人工智能研究中心语言技术实验室文本分析研究组负责人以及首席研究员,自1998年就在上述机构工作,擅长多语言信息系统、大数据分析、文本挖掘、问答系统和NLP技术移动应用等领域研究。
 
 

正式成立人工智能实验室会让研究组织更集中,多少意味着对AI研发的加码,更重要的是,有利于吸纳AI人才。
 
 

去年以来,业内频繁有科技企业挖角AI技术大牛的消息。2016年底微软吸纳了前微软亚洲研究院常务副院长芮勇博士加盟,担任联想CTO。
 
 

而就在联想成立人工智能实验室的消息公布后一日,英特尔也宣布设立AI产品事业部和应用实验室,这意味着英特尔已经将所有AI相关的业务整合到了一个部门。
 
 

一位业内人士对36氪称,“AI的发展在过去经历了几番起落,成果并不令人满意,英特尔、IBM这些大公司在历史上都曾经开始过AI实验室,而后又关停。” 不过大公司们在押注这一轮浪潮不会轻易退去。
 
 

未来所有的公司都是人工智能公司,对于具备一定实力的企业,人工智能实验室也是行业标配。就像“互联网+”之后,已经很难用一条线去划分互联网公司和传统公司。如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
 
 

硬件设备厂商未来的战场在物联网。因此追赶AI的风口颇为辛苦,但不得不为。
 
 

不过在研发和销售自有品牌电脑前,联想靠为惠普、IBM等国际PC巨头做代理起家。强大的销售体系是联想的基因,但联想从未以擅长前沿技术的研发闻名。
 
 

联想和联想研究院未来的创新方向,在于“设备+云”。杨元庆此前曾在公开场合表示,“联想要打造更高级、具有“云大脑”的下一代终端设备,不仅能听懂、看懂人类的语言,会和用户用语音进行自然交互,而且还能借助云端和大数据分析数据,为用户提供的服务从被动变成主动。”
 
 

不过这个目标,远不是挖来几个AI大牛就可以实现的。另外,尽管语音识别、语音合成技术目前已经相对成熟,但智能设备所依托的语意理解,人机交互,仍是需要长期投入来攻克。联想能否玩的转人工智能,还要看这家公司的决心。
 
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:微信公众号 36氪  孙然  查看全部

1.jpg

 
如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
  
 
 
 
近日联想宣布成立人工智能实验室,由近期加盟的徐飞玉博士负责实验室的研发工作。据了解,加入联想前,徐飞玉博士曾担任德国人工智能研究中心语言技术实验室文本分析研究组负责人以及首席研究员,自1998年就在上述机构工作,擅长多语言信息系统、大数据分析、文本挖掘、问答系统和NLP技术移动应用等领域研究。
 
 

正式成立人工智能实验室会让研究组织更集中,多少意味着对AI研发的加码,更重要的是,有利于吸纳AI人才。
 
 

去年以来,业内频繁有科技企业挖角AI技术大牛的消息。2016年底微软吸纳了前微软亚洲研究院常务副院长芮勇博士加盟,担任联想CTO。
 
 

而就在联想成立人工智能实验室的消息公布后一日,英特尔也宣布设立AI产品事业部和应用实验室,这意味着英特尔已经将所有AI相关的业务整合到了一个部门。
 
 

一位业内人士对36氪称,“AI的发展在过去经历了几番起落,成果并不令人满意,英特尔、IBM这些大公司在历史上都曾经开始过AI实验室,而后又关停。” 不过大公司们在押注这一轮浪潮不会轻易退去。
 
 

未来所有的公司都是人工智能公司,对于具备一定实力的企业,人工智能实验室也是行业标配。就像“互联网+”之后,已经很难用一条线去划分互联网公司和传统公司。如今联想、微软、英特尔、IBM、惠普们最深的恐惧就是不能抓住AI时代,错失移动端已经让它们吃够了苦头。
 
 

硬件设备厂商未来的战场在物联网。因此追赶AI的风口颇为辛苦,但不得不为。
 
 

不过在研发和销售自有品牌电脑前,联想靠为惠普、IBM等国际PC巨头做代理起家。强大的销售体系是联想的基因,但联想从未以擅长前沿技术的研发闻名。
 
 

联想和联想研究院未来的创新方向,在于“设备+云”。杨元庆此前曾在公开场合表示,“联想要打造更高级、具有“云大脑”的下一代终端设备,不仅能听懂、看懂人类的语言,会和用户用语音进行自然交互,而且还能借助云端和大数据分析数据,为用户提供的服务从被动变成主动。”
 
 

不过这个目标,远不是挖来几个AI大牛就可以实现的。另外,尽管语音识别、语音合成技术目前已经相对成熟,但智能设备所依托的语意理解,人机交互,仍是需要长期投入来攻克。联想能否玩的转人工智能,还要看这家公司的决心。
 
 
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:微信公众号 36氪  孙然 
957 浏览

十位中国AI界最值得关注的科学家

智能科技类 烈酒暖心 2017-03-21 12:19 发表了文章 来自相关话题

百度首席科学家吴恩达在今年4月的一次演讲中说,“我们处在一个独特时期,这是一个人工智能将会改变世界的时期,如果你知道怎么运用人工智能,你今天的一个决策将有可能在接下来十年里改变世界。”
 

今年是人工智能60周年。尽管在一个多世纪之前,就已经有了人工科学这个概念,但“人工智能”一词最初是在1956年达特茅斯学会上提出的。
 

中国自80年代成立人工智能学会,发展至今已取得引人注目的进步。(图:世界人工智能发展历史)






造就为大家搜集了十位推动中国人工智能发展的领军人物。
 
 

吴恩达供职于:百度






擅长领域:深度学习


人工智能和机器学习领域国际上最权威的学者之一。2008年,吴恩达入选《麻省理工科技创业》杂志评选出的科技创新35俊杰,入选者均35岁以下的35个世界上最顶级的创新者之一。“计算机和思想奖”的获得者。
 

2013年,吴恩达入选《时代》杂志年度全球最有影响力100人,成为16位科技界代表之一。 吴恩达的研究领域是机器学习和人工智能,重点是深度学习。
 

2014年百度在AI的研发投入将近70亿,同年5月吴恩达担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
 

2015年底,吴恩达带领百度硅谷人工智能实验室(SVAIL)开发出深度语音识别系统。(Deep Speech 2,该系统能通过简单学习算法准确的识别英语和汉语,并且转录普通话片段的准确率有时可以超越人类。)
 

美国知名期刊《麻省理工科技评论》将语音接口列为2016年十大突破技术,百度最新研究成果DeepSpeech2位列其中。
 

吴甘沙 






供职于:驭势科技
擅长领域:智能驾驶
 

英特尔中国研究院的第一位“首席工程师”,原任嵌入式软件实验室总监的他凭借在并行编程环境Ct/Array Building Blocks等技术领域内的突出贡献成功当选英特尔首席工程师。
 

2015年,吴甘沙离开任职16年的英特尔,在股东格灵深瞳协助下,和国家智能车未来挑战赛前冠军团队负责人姜岩等一同创办了一家智能驾驶公司——驭势科技(Uisee),以辅助驾驶为主要研发方向,为汽车品牌提供成熟的无人驾驶解决方案。
 

一方面真正做到让出行者无歧视,使得包括残疾人在内的所有人都可以驭车出行,另一方面要减少车祸伤亡,提升道路通行能力,在保障出行安全的前提下,极大提高出行效率。
 
 

汤晓鸥






供职于:香港中文大学
擅长领域:计算机视觉、模式识别、视频处理
应用:图像搜索引擎
 

1990年于中国科学技术大学获学士学位,1996年于麻省理工学院(MIT)获博士学位。现于香港中文大学信息工程系任终身教授。
 

2005到2007年,于微软亚洲研究院担任视觉计算组主任。他的研究领域包括多媒体、计算机视觉、模式识别及视频处理,已在这些领域发表论文200余篇。同微软合作已申请近40 项专利。
同微软亚洲研究院合作研发的图像识别技术已被用于微软图像搜索引擎,成为世界上第一项图像识别技术被用于大规模商业应用。
 

2015年,香港中文大学由欧阳万里、王晓刚、和汤晓鸥教授带领的 DeepID-Net 团队在ImageNet (此项竞赛对计算机深度学习影响深远,任何在 ImageNet 上取得的技术进步都会给其它计算机视觉问题带来重要影响)大规模物体检测任务比赛中,以50.3%的成绩一举超越谷歌,达到全球最高的检测率。
 

在此之前,汤晓鸥和王晓刚教授带领的 DeepID 团队在 LFW 人脸识别挑战上也有过战胜 Facebook,并在全世界首次实现人脸识别算法超越人眼识别准确率的经历。
 

余凯






供职于:地平线
擅长领域:语音识别,计算机视觉等
 

地平线机器人技术创始人兼首席执行官。曾任百度IDL常务副院长,百度研究院副院长,兼任负责百度图片搜索产品的高级总监。
 

余凯组建并领导了中国第一家以深度学习为核心的大数据人工智能研发机构IDL。曾带领的团队在语音识别,计算机视觉,互联网广告,网页搜索排序等互联网核心业务上取得突破性进展,并因此创纪录的连续三次荣获百万美金“百度最高奖”。
 

2014年以来,余凯还领导了百度大脑、自动驾驶、BaiduEye、 以及DuBike等一系列创新项目,在国内外业界产生重大影响。除在工业界所取得成就以外,余凯还是机器学习领域的国际顶尖学者,发表论文被引用超过7000次,曾在斯坦福大学等著名高校授课。
 

2015年离开百度创立了地平线机器人公司,是一家主打机器人专用“大脑”芯片研发的科技公司,致力于打造“机器人时代的Intel”。
 
 

姚期智






供职于:清华大学擅长领域:理论计算机科学
世界著名计算机学家,2000年图灵奖得主,美国科学院院士,美国科学与艺术学院院士,中国科学院外籍院士, 2004年起在清华大学任全职教授。
 

姚期智的全职回国,填补了国内计算机学科的空白:这不只是因为他无可争议的学术地位,更因为在他所从事的算法和复杂性领域,当时几乎还看不到中国国内学者的身影。而这一领域既是美国理论计算机科学的主流方向,又是计算机界最高奖项——“图灵奖”获奖人数最多的一个方向。
 

在清华大学先后创办计算机科学实验班(姚班)、理论计算机科学研究中心(ITCS)、交叉信息研究院(IIIS)和量子信息中心(CQI)。姚期智为人工智能领域输送了诸多人才,比如人脸识别技术的云服务平台Face++的三位创始人均毕业于清华大学姚期智实验班。
 
 

山世光






供职于:中科院
擅长领域:人脸识别
 

现为中科院智能信息处理重点实验室研究员、博士生导师。主要从事图像处理与理解、计算机视觉、模式识别、智能人机交互界面等相关研究工作,特别是与人脸识别相关的研究工作。
 

迄今已在国际/国内期刊、国际会议上发表/录用学术论文100余篇,其中IEEE Trans. on PAMI, IEEE Trans. on Image Processing等国际期刊论文30余篇。山博士所完成的人脸识别研究成果获得多项国家研究成果。
 

 
胡郁






供职于:科大讯飞
擅长领域:语音识别
 

科大讯飞公司高级副总裁、讯飞研究院院长。正高级工程师职称,在国内外核心期刊和重要国际会议上发表相关论文40余篇。
 

自1997年以来,从事智能语音核心技术研究及语音数据库建设工作,参与多项国家“863”、自然科学基金、安徽省、部级等重大项目的研发。
 

1999年,作为创始人之一创立安徽科大讯飞信息科技股份有限公司(以下简称“科大讯飞公司”)。
 

2008年6月至今,负责领导科大讯飞公司语音合成、语音识别、语音分析、语音评测、声纹语种、语音信号处理等智能语音核心技术的研究及公司整体经营管理,其领导研发的智能语音技术及系统、产品等,分别荣获国家信息产业重大技术发明奖、国家科学技术进步奖各一次,并多次荣获安徽省、部级,合肥市级科技进步奖。
 

颜水成






供职于:新加坡国立大学、360人工智能研究院
擅长领域:深度学习、人脸识别
应用:智能摄像头、行车记录仪
 

新加坡国立大学副教授,2015年加入360担任首席科学家,负责建立和领导360人工智能研究院。
颜水成教授曾入选汤森路透发布的“2014年世界最具影响力科学家”,同时2014和2015两次入选ISI Highly-cited researchers。此外,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。
 

由于在计算机视觉,机器学习和多媒体等领域的杰出贡献,颜水成被授予新加坡青年科学家奖 (YSA)和青年教授研究成就奖。
 

徐波






供职于:中科院
擅长领域:语音信息处理
 

现任中国科学院自动化所所长、高科技创新中心主任和数字内容技术中心主任。长期从事语音语言信息处理方面的研究,曾作为中文代表加入口语翻译国际合作计划C-StarIII计划,极大地推进了国内口语翻译技术的发展,形成了国际合作新模式;
 

2005开始致力于把语音语言技术应用于网络海量内容处理,目前已经成功应用于广电内容监测和教育自动测评等,已申请发明专利40余项,获得发明专利授权30余项。
 

徐波带领中国科学院自动化研究所和戴尔中国共同成立“人工智能与先进计算联合实验室”,实验室面向人工智能领域开展研究。
 

重点关注认知功能模拟、类脑智能信息处理等领域的新计算架构研究和应用,利用深度学习等技术手段,重点在视频大数据、生物特征识别、语音语言处理、机器翻译等多个领域开展创新研究。
 

黄晓庆






供职于:达闼科技
擅长领域:智能终端、流媒体、多业务移动软交换等
 

达闼科技创始人兼CEO、CTO。曾任中国移动研究院院长,“千人计划”国家特聘专家。他开发了世界第一套运营商级流媒体交换及IPTV系统。
 

黄晓庆曾在美国贝尔实验室任职,曾任美国UT斯达康公司高级副总裁兼首席技术官。他创新性地提出了“网络即交换”的软交换理论,发起成立了国际软交换组织,开发了世界第一套软交换系统,开发了世界第一套运营商级流媒体交换及IPTV系统。
 

他领导中国移动通信研究院进行技术创新和研发,提出了为运营商建设下一代移动互联网的网络、应用和终端三大基础设施的战略构想,推动TD-LTE成为B3G国际主流标准,开发了终端核心基础软件(OMS)。
 

黄晓庆于2015年从中国移动研究院离职,创办了达闼科技,主要从事云端智能机器人研究、生产制造及服务。




近年来,人工智能领域的科学家都纷纷掀起了“海归潮”、“创业潮”——我们看到,吴恩达等领军人物纷纷接起国内抛来的橄榄枝,坐镇巨头科技公司。
 

而像吴甘沙、余凯等纷纷加入创业军,研发各类人工智能产品。数据显示,2015年末,中国在人工智能领域有近百家创业公司,约65家获得29.1亿元投资, 覆盖了工业机器人、服务机器人、智能硬件等硬件产品层,智能客服、商业智能(BI)等软件/服务层,视觉识别、机器学习等技术层。
 

根据统计,2015年中国AI市场规模约12亿人民币,2020年市场规模将增至91亿元。



在视觉、语音识别方面,中国可以说是处于国际领先地位。以百度、科大讯飞为代表的两大巨头在语音视频率突破95%。



当未来已来,当我们沉浸入这智能的世界,中国的科学家和创业者们正在撕开机器与人的边界,探寻一种灵性、一种价值、一种无限的可能性。
 
 
 
更多内容请关注:www.imefuture.com





  查看全部

1.JPG


百度首席科学家吴恩达在今年4月的一次演讲中说,“我们处在一个独特时期,这是一个人工智能将会改变世界的时期,如果你知道怎么运用人工智能,你今天的一个决策将有可能在接下来十年里改变世界。”
 

今年是人工智能60周年。尽管在一个多世纪之前,就已经有了人工科学这个概念,但“人工智能”一词最初是在1956年达特茅斯学会上提出的。
 

中国自80年代成立人工智能学会,发展至今已取得引人注目的进步。(图:世界人工智能发展历史)

2.jpg


造就为大家搜集了十位推动中国人工智能发展的领军人物。
 
 

吴恩达供职于:百度

3.jpg


擅长领域:深度学习


人工智能和机器学习领域国际上最权威的学者之一。2008年,吴恩达入选《麻省理工科技创业》杂志评选出的科技创新35俊杰,入选者均35岁以下的35个世界上最顶级的创新者之一。“计算机和思想奖”的获得者。
 

2013年,吴恩达入选《时代》杂志年度全球最有影响力100人,成为16位科技界代表之一。 吴恩达的研究领域是机器学习和人工智能,重点是深度学习。
 

2014年百度在AI的研发投入将近70亿,同年5月吴恩达担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
 

2015年底,吴恩达带领百度硅谷人工智能实验室(SVAIL)开发出深度语音识别系统。(Deep Speech 2,该系统能通过简单学习算法准确的识别英语和汉语,并且转录普通话片段的准确率有时可以超越人类。)
 

美国知名期刊《麻省理工科技评论》将语音接口列为2016年十大突破技术,百度最新研究成果DeepSpeech2位列其中。
 

吴甘沙 

4.JPG


供职于:驭势科技
擅长领域:智能驾驶
 

英特尔中国研究院的第一位“首席工程师”,原任嵌入式软件实验室总监的他凭借在并行编程环境Ct/Array Building Blocks等技术领域内的突出贡献成功当选英特尔首席工程师。
 

2015年,吴甘沙离开任职16年的英特尔,在股东格灵深瞳协助下,和国家智能车未来挑战赛前冠军团队负责人姜岩等一同创办了一家智能驾驶公司——驭势科技(Uisee),以辅助驾驶为主要研发方向,为汽车品牌提供成熟的无人驾驶解决方案。
 

一方面真正做到让出行者无歧视,使得包括残疾人在内的所有人都可以驭车出行,另一方面要减少车祸伤亡,提升道路通行能力,在保障出行安全的前提下,极大提高出行效率。
 
 

汤晓鸥

5.jpg


供职于:香港中文大学
擅长领域:计算机视觉、模式识别、视频处理
应用:图像搜索引擎
 

1990年于中国科学技术大学获学士学位,1996年于麻省理工学院(MIT)获博士学位。现于香港中文大学信息工程系任终身教授。
 

2005到2007年,于微软亚洲研究院担任视觉计算组主任。他的研究领域包括多媒体、计算机视觉、模式识别及视频处理,已在这些领域发表论文200余篇。同微软合作已申请近40 项专利。
同微软亚洲研究院合作研发的图像识别技术已被用于微软图像搜索引擎,成为世界上第一项图像识别技术被用于大规模商业应用。
 

2015年,香港中文大学由欧阳万里、王晓刚、和汤晓鸥教授带领的 DeepID-Net 团队在ImageNet (此项竞赛对计算机深度学习影响深远,任何在 ImageNet 上取得的技术进步都会给其它计算机视觉问题带来重要影响)大规模物体检测任务比赛中,以50.3%的成绩一举超越谷歌,达到全球最高的检测率。
 

在此之前,汤晓鸥和王晓刚教授带领的 DeepID 团队在 LFW 人脸识别挑战上也有过战胜 Facebook,并在全世界首次实现人脸识别算法超越人眼识别准确率的经历。
 

余凯

6.jpg


供职于:地平线
擅长领域:语音识别,计算机视觉等
 

地平线机器人技术创始人兼首席执行官。曾任百度IDL常务副院长,百度研究院副院长,兼任负责百度图片搜索产品的高级总监。
 

余凯组建并领导了中国第一家以深度学习为核心的大数据人工智能研发机构IDL。曾带领的团队在语音识别,计算机视觉,互联网广告,网页搜索排序等互联网核心业务上取得突破性进展,并因此创纪录的连续三次荣获百万美金“百度最高奖”。
 

2014年以来,余凯还领导了百度大脑、自动驾驶、BaiduEye、 以及DuBike等一系列创新项目,在国内外业界产生重大影响。除在工业界所取得成就以外,余凯还是机器学习领域的国际顶尖学者,发表论文被引用超过7000次,曾在斯坦福大学等著名高校授课。
 

2015年离开百度创立了地平线机器人公司,是一家主打机器人专用“大脑”芯片研发的科技公司,致力于打造“机器人时代的Intel”。
 
 

姚期智

7.JPG


供职于:清华大学擅长领域:理论计算机科学
世界著名计算机学家,2000年图灵奖得主,美国科学院院士,美国科学与艺术学院院士,中国科学院外籍院士, 2004年起在清华大学任全职教授。
 

姚期智的全职回国,填补了国内计算机学科的空白:这不只是因为他无可争议的学术地位,更因为在他所从事的算法和复杂性领域,当时几乎还看不到中国国内学者的身影。而这一领域既是美国理论计算机科学的主流方向,又是计算机界最高奖项——“图灵奖”获奖人数最多的一个方向。
 

在清华大学先后创办计算机科学实验班(姚班)、理论计算机科学研究中心(ITCS)、交叉信息研究院(IIIS)和量子信息中心(CQI)。姚期智为人工智能领域输送了诸多人才,比如人脸识别技术的云服务平台Face++的三位创始人均毕业于清华大学姚期智实验班。
 
 

山世光

8.JPG


供职于:中科院
擅长领域:人脸识别
 

现为中科院智能信息处理重点实验室研究员、博士生导师。主要从事图像处理与理解、计算机视觉、模式识别、智能人机交互界面等相关研究工作,特别是与人脸识别相关的研究工作。
 

迄今已在国际/国内期刊、国际会议上发表/录用学术论文100余篇,其中IEEE Trans. on PAMI, IEEE Trans. on Image Processing等国际期刊论文30余篇。山博士所完成的人脸识别研究成果获得多项国家研究成果。
 

 
胡郁


9.JPG


供职于:科大讯飞
擅长领域:语音识别
 

科大讯飞公司高级副总裁、讯飞研究院院长。正高级工程师职称,在国内外核心期刊和重要国际会议上发表相关论文40余篇。
 

自1997年以来,从事智能语音核心技术研究及语音数据库建设工作,参与多项国家“863”、自然科学基金、安徽省、部级等重大项目的研发。
 

1999年,作为创始人之一创立安徽科大讯飞信息科技股份有限公司(以下简称“科大讯飞公司”)。
 

2008年6月至今,负责领导科大讯飞公司语音合成、语音识别、语音分析、语音评测、声纹语种、语音信号处理等智能语音核心技术的研究及公司整体经营管理,其领导研发的智能语音技术及系统、产品等,分别荣获国家信息产业重大技术发明奖、国家科学技术进步奖各一次,并多次荣获安徽省、部级,合肥市级科技进步奖。
 

颜水成

10.jpg


供职于:新加坡国立大学、360人工智能研究院
擅长领域:深度学习、人脸识别
应用:智能摄像头、行车记录仪
 

新加坡国立大学副教授,2015年加入360担任首席科学家,负责建立和领导360人工智能研究院。
颜水成教授曾入选汤森路透发布的“2014年世界最具影响力科学家”,同时2014和2015两次入选ISI Highly-cited researchers。此外,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。
 

由于在计算机视觉,机器学习和多媒体等领域的杰出贡献,颜水成被授予新加坡青年科学家奖 (YSA)和青年教授研究成就奖。
 

徐波

11.jpg


供职于:中科院
擅长领域:语音信息处理
 

现任中国科学院自动化所所长、高科技创新中心主任和数字内容技术中心主任。长期从事语音语言信息处理方面的研究,曾作为中文代表加入口语翻译国际合作计划C-StarIII计划,极大地推进了国内口语翻译技术的发展,形成了国际合作新模式;
 

2005开始致力于把语音语言技术应用于网络海量内容处理,目前已经成功应用于广电内容监测和教育自动测评等,已申请发明专利40余项,获得发明专利授权30余项。
 

徐波带领中国科学院自动化研究所和戴尔中国共同成立“人工智能与先进计算联合实验室”,实验室面向人工智能领域开展研究。
 

重点关注认知功能模拟、类脑智能信息处理等领域的新计算架构研究和应用,利用深度学习等技术手段,重点在视频大数据、生物特征识别、语音语言处理、机器翻译等多个领域开展创新研究。
 

黄晓庆

13.jpg


供职于:达闼科技
擅长领域:智能终端、流媒体、多业务移动软交换等
 

达闼科技创始人兼CEO、CTO。曾任中国移动研究院院长,“千人计划”国家特聘专家。他开发了世界第一套运营商级流媒体交换及IPTV系统。
 

黄晓庆曾在美国贝尔实验室任职,曾任美国UT斯达康公司高级副总裁兼首席技术官。他创新性地提出了“网络即交换”的软交换理论,发起成立了国际软交换组织,开发了世界第一套软交换系统,开发了世界第一套运营商级流媒体交换及IPTV系统。
 

他领导中国移动通信研究院进行技术创新和研发,提出了为运营商建设下一代移动互联网的网络、应用和终端三大基础设施的战略构想,推动TD-LTE成为B3G国际主流标准,开发了终端核心基础软件(OMS)。
 

黄晓庆于2015年从中国移动研究院离职,创办了达闼科技,主要从事云端智能机器人研究、生产制造及服务。




近年来,人工智能领域的科学家都纷纷掀起了“海归潮”、“创业潮”——我们看到,吴恩达等领军人物纷纷接起国内抛来的橄榄枝,坐镇巨头科技公司。
 

而像吴甘沙、余凯等纷纷加入创业军,研发各类人工智能产品。数据显示,2015年末,中国在人工智能领域有近百家创业公司,约65家获得29.1亿元投资, 覆盖了工业机器人、服务机器人、智能硬件等硬件产品层,智能客服、商业智能(BI)等软件/服务层,视觉识别、机器学习等技术层。
 

根据统计,2015年中国AI市场规模约12亿人民币,2020年市场规模将增至91亿元。



在视觉、语音识别方面,中国可以说是处于国际领先地位。以百度、科大讯飞为代表的两大巨头在语音视频率突破95%。



当未来已来,当我们沉浸入这智能的世界,中国的科学家和创业者们正在撕开机器与人的边界,探寻一种灵性、一种价值、一种无限的可能性。
 
 
 
更多内容请关注:www.imefuture.com

智造家二维码.jpg

 
527 浏览

让人工智能发明自己的语言:OpenAI语言理解研究新方向

智能科技类 盛世流光 2017-03-17 15:29 发表了文章 来自相关话题

OpenAI 研究人员认为:人工智能只有将学习的语言与实践相结合才能真正理解语言,而不是从巨大语料库中找寻语言模式。作为人工智语言之旅的第一步,我们应该研究人工智能是否可以通过交互合作自发产生一种简单的语言作为其通信工具,该研究的两篇论文已经发表在arXiv 上(见文末)。



让人工智能发明自己的语言


OpenAI 刚刚发布了让人工智能体在简单环境中自创语言的研究论文。通过给予人工智能互相交流的能力,并提出一个通过交流才能实现的奖励目标,研究人员利用强化学习和精巧的实验设计让人工智能有了自己的语言。


目前,人工智能发明的语言相对简单,具有基础与合成性的特征。基础(Grounded)意味着该语言中的单词有关环境中说话者直接经历的东西。例如:单词「树」与树的图像或其他体验之间的联系;合成性(Compositional)意味着说话者可以将多个单词组合成句子以表示特定想法,例如让另一个人工智能体去到特定位置。






在研究中,人工智能体存在于一个简单的 2D 世界,可以做出移动、观察、与其他人工智能交流等动作。在图中,1号智能体在观察中心点的时候正在说话。


为了训练人工智能体交流的能力,研究者将实验设计成必须进行合作的形式——多智能体强化学习问题。人工智能体存在于具有简单特征的 2D 世界中,每个智能体都有自己的目标:可以是观察一个物体,或是移动到特定的位置,甚至是向另一个人工智能体发出指令让它移动到特定的位置。每一个人工智能都可以向所有人工智能发出信息。每个人工智能获得的奖励分数会被相加计算,随后反馈给各个智能体,这种方式可以鼓励它们的协作。


在每一个时间步里,强化学习智能体可以选择作出两种类型的动作:a. 环境动作,如移动和观察;b. 交流动作,如向其他所有智能体发言。注意:尽管研究者发现人工智能体提出了对应于对象和其他智能体的单词,以及像「看看」或「转到」等动词,但这些单词是由one-hot vector 表示的抽象符号——研究者将这些矢量以英语单词表示以标注它们的含义。在每一个时间步之前,人工智能体都会先处理上一个时间步其他智能体发出的信息,并获知世界中所有物体的位置。交流的信息被存储在人工智能体自有的循环神经网络中,听到的单词会被记住。






在时间步发展中,t=0 时红色智能体对其他智能体说了一个单词以表示红色界标(图中深红色),随后在t=1 时又说了相当于「去(Goto)」的单词,在 t=2 时它说:「绿色智能体」。绿色智能体听到了这些指令,立即移动到了红色界标的位置。


可区分的动作(信息由类似于单词的符号组成)在互不交汇的信道之中传递。这样,每个信道在每个时间步上都是畅通的,可以保证信息能被传递到所有智能体那里。这种方式是通过稍稍改变信息的内容,让智能体在接受信息时可以获得额外奖励达成的。智能体通过计算关于未来奖励的梯度和收到信息中奖励的变化预期决定自己的下一步动作(例如:这些信息中的哪一个能让奖励变多?)。如果一个智能体意识到另一个智能体发出另一种信息可以更好地完成任务,前者就会告诉后者如何换一种说法。换句话说,人工智能体在任务中会提出这样的问题:「我们应该如何交流才能获得最好的奖励?」


通过使人工智能体发送一个实数向量或者相互发送二进制值的连续近似,再或者使用非微分通信和训练,之前的努力成功获取了这种可微分通信。在训练中研究者使用Gumbel-Softmax 策略来近似带有连续性表征的分离性通信决策,这使研究者们得到了两全其美的结果。在训练中可微分通道意味着智能体可用连续性表征快速学习相互之间如何通信,结果就是在训练结束之后汇聚了分离性输出,这些输出的可阐释性更强,并具有组合性的特点。在下面的视频中,OpenAI展示了如何进化语言以拟合其处境的复杂性:一个人工智能体不需要通信;两个智能体发明了一个词的短语以在处理简单任务时,相互协作;三个智能体创造了包含多个词的句子以用于完成更具挑战性的任务。








通过设计实验影响语言的进化


所有的研究走过的道路都是曲折的。OpenAI 的智能体一开始经常会发明不具有合成性特征的语言。即使智能体成功发明了想要的语言,其解决方案也会经常具有「个人特征」。


研究人员遇到的第一个问题就是智能体创造单一话语并将其映射到空间而产生意义这一倾向。这种莫尔斯电码类的语言很难解密并是一种非合成性(non-compositional)语言。为了纠正这一点,研究员对每个语句添加微小的成本,并对快速完成任务添加了优先权。这样的设置就能鼓励智能体更简洁地进行交流,同时也将拥有更大的词汇量。


研究员遇到的另一个问题是智能体会试图使用单个单词编码整个句子的意义。之所以会发生这样的问题,是因为研究者们赋予了智能体使用大型词汇库的能力。通过大型词汇库,智能体最终会创造出单一话语进而编码整个句子的的意义(如「红色智能体,去蓝色界标」)。虽然这对智能体十分有用,但这种方法要求词汇量的大小与句子长度成指数型地增长,并且与创造人类可解释的(interpretable)人工智能这一目标不相符。为了防止智能体创造出这种语言,研究员们通过给已流行单词加上偏好而压缩单词量的规模,这一灵感来源于「句法交流的演变(Theevolution of syntactic communication)」。研究员们给予特定单词的奖励与这个单词之前所出现的频率成比例。


最后,研究员还发现了一些智能体并不基于颜色,而会基于其他特征如空间位置等线索发明界标参照(landmarkreferences)。例如,智能体会发明一些「top-most」或「left-most」等指代二维坐标系统位置信息的词。虽然这些行为是非常具有创造性的,但其在特定环境中的实现是十分具体的,并且如果从本质上改变智能体所处的地理构成,那么系统就会出现问题。为了解决这个问题,研究者们将智能体放置在以自身为原点的坐标系(智能体之间没有共享的坐标系)。这个做法就解决了方向问题,智能体们也就能有自身的色彩属性指向界标。




不能说话?让我为你指路。听不到?让我做你的向导


当智能体不能通过文本相互交流,并且必须在模拟环境中执行物理运动时,该训练法同样能运作。在接下来的动图中,研究员们展示了智能体指向点的即时情况或指导其他智能体去目标的情况,在极端情况下智能体会看不见它们的目标。











从上到下:人工智能智能体通过指向将目标的位置信息通知另一个智能体;较小的智能体引导更大的智能体朝向目标;智能体将一个盲目的智能体推向一个目标。




推论语言和基底语言


如今,很多人已经将机器学习应用到与语言相关的任务中,也取得了巨大成功。大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成以及其他领域取得了重要成就。所有这些研究方法都是给系统输入海量文本数据,系统从中提取特征并发现模式。虽然这类研究已经产生了无数个发明与创新,但仍然有些缺点,这与所学语言的表征质量有关。越来越多的研究证明,如果以这种方式用某种语言训练计算机,机器并不会深入理解该语言与真实世界的连接方式。该研究试图解决这一根本问题,方法就是训练智能体发明与他们自己对世界的感知紧密联系的语言。


训练语言模型却没基础,这些计算机就像 John Searle 中文房间(Chinese Room)隐喻所描述的机器,它们将输入的文本与类似词典的东西(通过分析海量文本数据所得)进行比较。但是,仍然不清楚的是,这些计算机的想法有多少是关于文本表征内容的,既然它们从未离开过房间,也能与文本描述的世界互动。



中文房间实验


一个对汉语一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。


John Searle 认为,尽管房里的人可以以假乱真,让房外的人以为他确确实实说汉语,他却压根不懂汉语。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能通过手册理解中文一样,计算机也不可能通过程序来获得理解力。既然计算机没有理解能力,所谓「计算机于是便有智能」便更无从谈起了。




展望下一步


OpenAI 希望该研究能让我们开发出这样的机器,它能够拥有与自己生活经验密切联系的语言。如果我们以这一实验为基础慢慢增加环境复杂性,扩大智能体被允许的活动范围,或许可以创造出一种表达性语言,其中会包含超越这里基础动词和名字的观念。


随着这种被发明出来的语言不断变得复杂,如何为人类解释这些语言就会变成一种挑战。这也是为什么下一个项目中,RyanLowe 和 Igor Mordatch 打算研究如何借由让智能体与说英语的智能体交流,这将让被发明的语言与英语连接起来。这将会自动将他们的语言翻译成我们听得懂的话。这也属于交叉学科的研究内容,跨域人工智能、语言学以及认知科学,也是他们即将与UC Berkeley 的研究人员合作研究的部分内容。


论文:Emergence of Grounded Compositional Language in Multi-Agent Populations









摘要:

通过在大型语料库中构建统计学模式,机器学习在包括机器翻译、问答系统(questionanswering)及情感分析(sentiment analysis)的自然语言处理方面已取得了巨大成功。然而,对于和人交互的智能体(agents)来说,仅仅构建统计学模式还远远不够。在本论文中,我们研究了基础合成语言(groundedcompositional language)能否以及如何在多智能体中作为完成目标的一个手段而出现。为此,我们提出了一种可以生成基础合成语言的多智能体学习环境和方法。这种语言表征为智能体随时间而做出的抽象离散符号流(abstractdiscrete symbols),但其还是具有定义词汇和句法的一致结构(coherent structure)。我们也发现,当语言通信不可用时,指向(pointing)和引领(guiding)等非言语(non-verbal)通信方式也就出现了。

论文:A Paradigm for Situated and Goal-Driven Language Learning






 

摘要:

在不同语境中灵活使用语言及与其他个体交流复杂思想是人类智能十分突出的属性。自然语言会话的研究应聚焦于设计可与上述语境整合并与人高效协作的通信智能体。


在该论文中,我们提出了一个通用性情境语言学习(general situated languagelearning)范式,其设计目的在于打造一个与人高效协作的鲁棒性语言智能体。该会话范式(dialogue paradigm)基于语言理解的实用性定义而构建。语言只是智能体在环境中完成目标的工具之一。只有当智能体运用语言高效完成目标,我们才说智能体「理解」了语言。在该定义下,智能体的通信成功(communicationsuccess)减少了其在环境中完成任务的成功。


这一设置通过和许多传统的自然语言任务对比,最大化了由静态数据集衍生的语言学目标。这样的应用经常因为将语言具化为自己的终止而犯错。这些任务优先独立度量语言智能(通常是语言能力的一种,按照乔姆斯基的说法(1965)),而不是在真实情景中度量模型的有效性。实用性定义(utilitariandefinition)由强化学习最近的成功而引发。在强化学习的设定中,智能体将真实世界的任务中的成功度量最大化,而无需语言行为(linguisticbehavior)的直接监督。
 
 
 
更多内容请关注:www.imefuture.com 





 
 
 
来源:微信公众号 机器之心 查看全部
OpenAI 研究人员认为:人工智能只有将学习的语言与实践相结合才能真正理解语言,而不是从巨大语料库中找寻语言模式。作为人工智语言之旅的第一步,我们应该研究人工智能是否可以通过交互合作自发产生一种简单的语言作为其通信工具,该研究的两篇论文已经发表在arXiv 上(见文末)。



让人工智能发明自己的语言


OpenAI 刚刚发布了让人工智能体在简单环境中自创语言的研究论文。通过给予人工智能互相交流的能力,并提出一个通过交流才能实现的奖励目标,研究人员利用强化学习和精巧的实验设计让人工智能有了自己的语言。


目前,人工智能发明的语言相对简单,具有基础与合成性的特征。基础(Grounded)意味着该语言中的单词有关环境中说话者直接经历的东西。例如:单词「树」与树的图像或其他体验之间的联系;合成性(Compositional)意味着说话者可以将多个单词组合成句子以表示特定想法,例如让另一个人工智能体去到特定位置。

1.jpg


在研究中,人工智能体存在于一个简单的 2D 世界,可以做出移动、观察、与其他人工智能交流等动作。在图中,1号智能体在观察中心点的时候正在说话。


为了训练人工智能体交流的能力,研究者将实验设计成必须进行合作的形式——多智能体强化学习问题。人工智能体存在于具有简单特征的 2D 世界中,每个智能体都有自己的目标:可以是观察一个物体,或是移动到特定的位置,甚至是向另一个人工智能体发出指令让它移动到特定的位置。每一个人工智能都可以向所有人工智能发出信息。每个人工智能获得的奖励分数会被相加计算,随后反馈给各个智能体,这种方式可以鼓励它们的协作。


在每一个时间步里,强化学习智能体可以选择作出两种类型的动作:a. 环境动作,如移动和观察;b. 交流动作,如向其他所有智能体发言。注意:尽管研究者发现人工智能体提出了对应于对象和其他智能体的单词,以及像「看看」或「转到」等动词,但这些单词是由one-hot vector 表示的抽象符号——研究者将这些矢量以英语单词表示以标注它们的含义。在每一个时间步之前,人工智能体都会先处理上一个时间步其他智能体发出的信息,并获知世界中所有物体的位置。交流的信息被存储在人工智能体自有的循环神经网络中,听到的单词会被记住。

2.jpg


在时间步发展中,t=0 时红色智能体对其他智能体说了一个单词以表示红色界标(图中深红色),随后在t=1 时又说了相当于「去(Goto)」的单词,在 t=2 时它说:「绿色智能体」。绿色智能体听到了这些指令,立即移动到了红色界标的位置。


可区分的动作(信息由类似于单词的符号组成)在互不交汇的信道之中传递。这样,每个信道在每个时间步上都是畅通的,可以保证信息能被传递到所有智能体那里。这种方式是通过稍稍改变信息的内容,让智能体在接受信息时可以获得额外奖励达成的。智能体通过计算关于未来奖励的梯度和收到信息中奖励的变化预期决定自己的下一步动作(例如:这些信息中的哪一个能让奖励变多?)。如果一个智能体意识到另一个智能体发出另一种信息可以更好地完成任务,前者就会告诉后者如何换一种说法。换句话说,人工智能体在任务中会提出这样的问题:「我们应该如何交流才能获得最好的奖励?」


通过使人工智能体发送一个实数向量或者相互发送二进制值的连续近似,再或者使用非微分通信和训练,之前的努力成功获取了这种可微分通信。在训练中研究者使用Gumbel-Softmax 策略来近似带有连续性表征的分离性通信决策,这使研究者们得到了两全其美的结果。在训练中可微分通道意味着智能体可用连续性表征快速学习相互之间如何通信,结果就是在训练结束之后汇聚了分离性输出,这些输出的可阐释性更强,并具有组合性的特点。在下面的视频中,OpenAI展示了如何进化语言以拟合其处境的复杂性:一个人工智能体不需要通信;两个智能体发明了一个词的短语以在处理简单任务时,相互协作;三个智能体创造了包含多个词的句子以用于完成更具挑战性的任务。

3.JPG




通过设计实验影响语言的进化


所有的研究走过的道路都是曲折的。OpenAI 的智能体一开始经常会发明不具有合成性特征的语言。即使智能体成功发明了想要的语言,其解决方案也会经常具有「个人特征」。


研究人员遇到的第一个问题就是智能体创造单一话语并将其映射到空间而产生意义这一倾向。这种莫尔斯电码类的语言很难解密并是一种非合成性(non-compositional)语言。为了纠正这一点,研究员对每个语句添加微小的成本,并对快速完成任务添加了优先权。这样的设置就能鼓励智能体更简洁地进行交流,同时也将拥有更大的词汇量。


研究员遇到的另一个问题是智能体会试图使用单个单词编码整个句子的意义。之所以会发生这样的问题,是因为研究者们赋予了智能体使用大型词汇库的能力。通过大型词汇库,智能体最终会创造出单一话语进而编码整个句子的的意义(如「红色智能体,去蓝色界标」)。虽然这对智能体十分有用,但这种方法要求词汇量的大小与句子长度成指数型地增长,并且与创造人类可解释的(interpretable)人工智能这一目标不相符。为了防止智能体创造出这种语言,研究员们通过给已流行单词加上偏好而压缩单词量的规模,这一灵感来源于「句法交流的演变(Theevolution of syntactic communication)」。研究员们给予特定单词的奖励与这个单词之前所出现的频率成比例。


最后,研究员还发现了一些智能体并不基于颜色,而会基于其他特征如空间位置等线索发明界标参照(landmarkreferences)。例如,智能体会发明一些「top-most」或「left-most」等指代二维坐标系统位置信息的词。虽然这些行为是非常具有创造性的,但其在特定环境中的实现是十分具体的,并且如果从本质上改变智能体所处的地理构成,那么系统就会出现问题。为了解决这个问题,研究者们将智能体放置在以自身为原点的坐标系(智能体之间没有共享的坐标系)。这个做法就解决了方向问题,智能体们也就能有自身的色彩属性指向界标。




不能说话?让我为你指路。听不到?让我做你的向导


当智能体不能通过文本相互交流,并且必须在模拟环境中执行物理运动时,该训练法同样能运作。在接下来的动图中,研究员们展示了智能体指向点的即时情况或指导其他智能体去目标的情况,在极端情况下智能体会看不见它们的目标。

4.gif


5.gif


从上到下:人工智能智能体通过指向将目标的位置信息通知另一个智能体;较小的智能体引导更大的智能体朝向目标;智能体将一个盲目的智能体推向一个目标。




推论语言和基底语言


如今,很多人已经将机器学习应用到与语言相关的任务中,也取得了巨大成功。大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成以及其他领域取得了重要成就。所有这些研究方法都是给系统输入海量文本数据,系统从中提取特征并发现模式。虽然这类研究已经产生了无数个发明与创新,但仍然有些缺点,这与所学语言的表征质量有关。越来越多的研究证明,如果以这种方式用某种语言训练计算机,机器并不会深入理解该语言与真实世界的连接方式。该研究试图解决这一根本问题,方法就是训练智能体发明与他们自己对世界的感知紧密联系的语言。


训练语言模型却没基础,这些计算机就像 John Searle 中文房间(Chinese Room)隐喻所描述的机器,它们将输入的文本与类似词典的东西(通过分析海量文本数据所得)进行比较。但是,仍然不清楚的是,这些计算机的想法有多少是关于文本表征内容的,既然它们从未离开过房间,也能与文本描述的世界互动。



中文房间实验


一个对汉语一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。


John Searle 认为,尽管房里的人可以以假乱真,让房外的人以为他确确实实说汉语,他却压根不懂汉语。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能通过手册理解中文一样,计算机也不可能通过程序来获得理解力。既然计算机没有理解能力,所谓「计算机于是便有智能」便更无从谈起了。




展望下一步


OpenAI 希望该研究能让我们开发出这样的机器,它能够拥有与自己生活经验密切联系的语言。如果我们以这一实验为基础慢慢增加环境复杂性,扩大智能体被允许的活动范围,或许可以创造出一种表达性语言,其中会包含超越这里基础动词和名字的观念。


随着这种被发明出来的语言不断变得复杂,如何为人类解释这些语言就会变成一种挑战。这也是为什么下一个项目中,RyanLowe 和 Igor Mordatch 打算研究如何借由让智能体与说英语的智能体交流,这将让被发明的语言与英语连接起来。这将会自动将他们的语言翻译成我们听得懂的话。这也属于交叉学科的研究内容,跨域人工智能、语言学以及认知科学,也是他们即将与UC Berkeley 的研究人员合作研究的部分内容。


论文:Emergence of Grounded Compositional Language in Multi-Agent Populations

6.jpg





摘要:

通过在大型语料库中构建统计学模式,机器学习在包括机器翻译、问答系统(questionanswering)及情感分析(sentiment analysis)的自然语言处理方面已取得了巨大成功。然而,对于和人交互的智能体(agents)来说,仅仅构建统计学模式还远远不够。在本论文中,我们研究了基础合成语言(groundedcompositional language)能否以及如何在多智能体中作为完成目标的一个手段而出现。为此,我们提出了一种可以生成基础合成语言的多智能体学习环境和方法。这种语言表征为智能体随时间而做出的抽象离散符号流(abstractdiscrete symbols),但其还是具有定义词汇和句法的一致结构(coherent structure)。我们也发现,当语言通信不可用时,指向(pointing)和引领(guiding)等非言语(non-verbal)通信方式也就出现了。

论文:A Paradigm for Situated and Goal-Driven Language Learning

7.JPG


 

摘要:

在不同语境中灵活使用语言及与其他个体交流复杂思想是人类智能十分突出的属性。自然语言会话的研究应聚焦于设计可与上述语境整合并与人高效协作的通信智能体。


在该论文中,我们提出了一个通用性情境语言学习(general situated languagelearning)范式,其设计目的在于打造一个与人高效协作的鲁棒性语言智能体。该会话范式(dialogue paradigm)基于语言理解的实用性定义而构建。语言只是智能体在环境中完成目标的工具之一。只有当智能体运用语言高效完成目标,我们才说智能体「理解」了语言。在该定义下,智能体的通信成功(communicationsuccess)减少了其在环境中完成任务的成功。


这一设置通过和许多传统的自然语言任务对比,最大化了由静态数据集衍生的语言学目标。这样的应用经常因为将语言具化为自己的终止而犯错。这些任务优先独立度量语言智能(通常是语言能力的一种,按照乔姆斯基的说法(1965)),而不是在真实情景中度量模型的有效性。实用性定义(utilitariandefinition)由强化学习最近的成功而引发。在强化学习的设定中,智能体将真实世界的任务中的成功度量最大化,而无需语言行为(linguisticbehavior)的直接监督。
 
 
 
更多内容请关注:www.imefuture.com 

智造家二维码.jpg

 
 
 
来源:微信公众号 机器之心
891 浏览

迪士尼乐园的下一个研发方向:打造AI机器人

电气控制类 泡泡鱼 2017-03-17 13:36 发表了文章 来自相关话题

据外媒报道,如果说迪士尼乐园是人们梦想成真的地方,那么John Snoddy就是掌管着人们下一个成真梦想的那个人。Snoddy为华特-迪士尼幻想工工作室的负责人,日前,他在SXSW上跟媒体分享了他们最新的成果。


看起来迪士尼接下来的主流方向将会是AI,像《魔方奇缘》里的变色龙朋友Pascal、《星球大战》的新机器人Jake。
 

据了解,基于AI打造的Pascal是一个小小的机器人,刚好可以用一个手掌拖住。这个绿色的机器人则是工作室为了测试他们所能打造的复杂机器人的最小极限。现在,Pascal可以利用AI自治功能转动眼睛、移动嘴巴以及面部皮肤,另外它还支持手动操控,如使其倾斜身体。
 

Snoddy表示,Pascal不仅仅只是电影里的角色,同时它还是一名表演者。
 

Jake则有点像R2-D2的全自动机器人,它能像一条宠物狗一样在幻想工作室的研发实验室四处游荡。Snoddy表示,Jake项目的研发目的是为了探索机器人自动化的极限。不过眼下的Jake离电影里面展示的机器人还差得远。

 
Snoddy称,为迪士尼乐园打造AI机器人的其中一个好处是游客跟这些机器人互动期间的心态变化,“他们不再会去戳它看看它是怎么运转的,他们则会换一种方式,想要接受愉悦。”




更多内容请关注:www.imefuture.com 





  查看全部
1.JPG

据外媒报道,如果说迪士尼乐园是人们梦想成真的地方,那么John Snoddy就是掌管着人们下一个成真梦想的那个人。Snoddy为华特-迪士尼幻想工工作室的负责人,日前,他在SXSW上跟媒体分享了他们最新的成果。


看起来迪士尼接下来的主流方向将会是AI,像《魔方奇缘》里的变色龙朋友Pascal、《星球大战》的新机器人Jake。
 

据了解,基于AI打造的Pascal是一个小小的机器人,刚好可以用一个手掌拖住。这个绿色的机器人则是工作室为了测试他们所能打造的复杂机器人的最小极限。现在,Pascal可以利用AI自治功能转动眼睛、移动嘴巴以及面部皮肤,另外它还支持手动操控,如使其倾斜身体。
 

Snoddy表示,Pascal不仅仅只是电影里的角色,同时它还是一名表演者。
 

Jake则有点像R2-D2的全自动机器人,它能像一条宠物狗一样在幻想工作室的研发实验室四处游荡。Snoddy表示,Jake项目的研发目的是为了探索机器人自动化的极限。不过眼下的Jake离电影里面展示的机器人还差得远。

 
Snoddy称,为迪士尼乐园打造AI机器人的其中一个好处是游客跟这些机器人互动期间的心态变化,“他们不再会去戳它看看它是怎么运转的,他们则会换一种方式,想要接受愉悦。”




更多内容请关注:www.imefuture.com 

智造家二维码.jpg

 
473 浏览

北京大数据产业投资基金正式发布 扎克伯格启用AI“管家

管理类 扳手哥 2016-12-26 16:09 发表了文章 来自相关话题

【摘要】北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展;国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示;扎克伯格启用AI“管家”,最新最强大数据新闻,尽在本期D-News!

 

政府动态 

 
北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展


由8个机构共同出资设立的“北京大数据产业投资基金”于近日在京正式发布。据了解,该基金由国富大数据资本管理中心管理,首期计划募集100亿元人民币。未来,该基金将通过支持大数据及相关领域的上市公司并购、股权投资等方式,重点支持大数据交易平台、数据资源、技术及行业应用等多个领域,从而进一步推动京津冀地区的大数据产业链整合发展。

国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示


根据《关于请组织申报“互联网+”领域创新能力建设专项的通知》和《关于请组织申报大数据领域创新能力建设专项的通知》,近期,国家发展改革委高技术司组织专家对有关单位申报的“互联网+”和大数据领域国家工程实验室项目进行了评审。根据《国家工程实验室管理办法(暂行)》,并按照上述通知有关支持原则和要求,经竞争择优,初步提出“互联网+”和大数据领域国家工程实验室拟确定承担单位名单。

 

白宫发布《人工智能、自动化和经济》报告


白宫发布了一份关于人工智能、自动化和经济的报告。报告中建议白宫在今年年底前发布一份关于人工智能对经济影响的报告。

 

业界巨头 


学钢铁侠  扎克伯格启用AI“管家”


“脸书”创始人马克·扎克伯格开发出一款名叫“贾维斯”的人工智能程序,能管理其生活起居。控制家里的照明开关和温度、音乐、烤面包以及喂狗等。


谷歌医疗立足眼科,要用人工智能大数据破译糖网病难题


日前,谷歌方面发布公告称,公司旗下医疗团队将正式立足AI眼科,利用人工智能及大数据技术,攻克糖网病难关。说到糖网病,它是“糖尿病视网膜病变”的简称,即糖尿病引起的视网膜血管失调,严重者会引发双目失明。目前,谷歌已经针对该疾病提出了一种基于深度学习的算法,该算法可以在视网膜造影中对糖网病的迹象做出解释,帮助医生做出更专业的诊断。




资本动态


以色列增强现实显示技术公司 Lumus获3000万美元投资

 
以色列增强现实(AR)显示技术公司 Lumus 宣布,他们获得了来自包括 HTC、台湾地区的电子产品制造商广达电脑等公司的 3000 万美元投资。今年 6 月,Lumus 获得了1500 万美元的投资,投资方为盛大集团和中国浙江的水晶光电。拿到这 3000 万美元投资后,Lumus 的融资已经进行到位。Lumus 成立于 2000 年,当时 Lumus 研发出Light-guideOptical Element(LOE),帮助实现AR 显示。2010 年,Lumus 开始为美国空军制造战斗机飞行员头盔中的 AR 部件。历经 15 年的 AR 技术研发后,Lumus 今天终于向消费者和企业产品领域迈进了。


来源:大数据文摘
  查看全部
【摘要】北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展;国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示;扎克伯格启用AI“管家”,最新最强大数据新闻,尽在本期D-News!

 

政府动态 

 
北京大数据产业投资基金正式发布,将进一步推进京津冀地区大数据发展


由8个机构共同出资设立的“北京大数据产业投资基金”于近日在京正式发布。据了解,该基金由国富大数据资本管理中心管理,首期计划募集100亿元人民币。未来,该基金将通过支持大数据及相关领域的上市公司并购、股权投资等方式,重点支持大数据交易平台、数据资源、技术及行业应用等多个领域,从而进一步推动京津冀地区的大数据产业链整合发展。

国家发改委:“互联网+”和大数据领域国家工程实验室拟确定承担单位名单公示


根据《关于请组织申报“互联网+”领域创新能力建设专项的通知》和《关于请组织申报大数据领域创新能力建设专项的通知》,近期,国家发展改革委高技术司组织专家对有关单位申报的“互联网+”和大数据领域国家工程实验室项目进行了评审。根据《国家工程实验室管理办法(暂行)》,并按照上述通知有关支持原则和要求,经竞争择优,初步提出“互联网+”和大数据领域国家工程实验室拟确定承担单位名单。

 

白宫发布《人工智能、自动化和经济》报告


白宫发布了一份关于人工智能、自动化和经济的报告。报告中建议白宫在今年年底前发布一份关于人工智能对经济影响的报告。

 

业界巨头 


学钢铁侠  扎克伯格启用AI“管家”


“脸书”创始人马克·扎克伯格开发出一款名叫“贾维斯”的人工智能程序,能管理其生活起居。控制家里的照明开关和温度、音乐、烤面包以及喂狗等。


谷歌医疗立足眼科,要用人工智能大数据破译糖网病难题


日前,谷歌方面发布公告称,公司旗下医疗团队将正式立足AI眼科,利用人工智能及大数据技术,攻克糖网病难关。说到糖网病,它是“糖尿病视网膜病变”的简称,即糖尿病引起的视网膜血管失调,严重者会引发双目失明。目前,谷歌已经针对该疾病提出了一种基于深度学习的算法,该算法可以在视网膜造影中对糖网病的迹象做出解释,帮助医生做出更专业的诊断。




资本动态


以色列增强现实显示技术公司 Lumus获3000万美元投资

 
以色列增强现实(AR)显示技术公司 Lumus 宣布,他们获得了来自包括 HTC、台湾地区的电子产品制造商广达电脑等公司的 3000 万美元投资。今年 6 月,Lumus 获得了1500 万美元的投资,投资方为盛大集团和中国浙江的水晶光电。拿到这 3000 万美元投资后,Lumus 的融资已经进行到位。Lumus 成立于 2000 年,当时 Lumus 研发出Light-guideOptical Element(LOE),帮助实现AR 显示。2010 年,Lumus 开始为美国空军制造战斗机飞行员头盔中的 AR 部件。历经 15 年的 AR 技术研发后,Lumus 今天终于向消费者和企业产品领域迈进了。


来源:大数据文摘
 
496 浏览

吴甘沙最新演讲:AI为互联网行业补坑 自动驾驶前景看好

机械自动化类 喷漆李 2016-12-19 14:21 发表了文章 来自相关话题

2016年12月4日,虎嗅打造的创新创业嘉年华“F&M创新节”在北京举办。活动中,驭势科技CEO吴甘沙发表了题为“互联网到人工智能的第一座高峰”的主题演讲。他指出互联网时代在给大众带来极大便利的同时,也“挖了许多坑”,而“互联网挖的坑需要人工智能来填”。此外,吴甘沙还总结了自己在创业路上的一些经验教训:“你要想明白到达明天的话,可能需要远望后天”。


大数据文摘作为大会合作方,从现场发来第一手资料:


以下内容根据主办方提供速记整理,在不改变原意的前提下有部分删改。









◆ ◆ ◆

“时来天地皆同力,远去英雄不自由”

 

讲座一开始,吴引用了唐朝诗人罗隐《筹笔驿》中的经典名句“时来天地皆同力,运去英雄不自由”,用在此处,并非感慨时运不济,胜败都是由外力决定的。相反,吴表示“2016年开始,我们又将看到新的机会”,很显然,这里只是强调逆天改命并非智者所为,顺应历史的潮流,顺应时代的发展,英雄也不例外。时代的更迭是种必然。

 

吴承认互联网从本质上改变过我们的生活,带给我们了三样东西:

1.解决了信息不对称的问题。建立各种各样的连接,人和信息的连接,人和商品的连接,人和人的连接,人和服务的连接,人和闲置资源的连接等等;

2.使得交易成本最小化。无论是金钱的成本,还是时间的成本最小化;

3.终于能够汇集长尾人群。而不再是头部的高端客户才能从服务当中获益。


我们看到互联网解决的问题主要在于信息普及以及降低交易成本的方面,但是,后者仅涉及交易成本,是整个利益链的其中一环,商品成本还包括生成成本。


“但我们发现发展到现在的阶段,互联网本身也碰到了一些瓶颈。交易成本虽然最小化了,但生产成本还是那样,生产成本就是生产资料和劳动力。”这脑洞有点大啊,这是说消费方式已经确定了,但是驾车的人多余了,车也不一定还用原来的车了,需要进步咯?
 

“拿网约车来讲,网约车带来很多的便利,帮助我们建立了连接,等到补贴过去以后大家发现打车的费用跟出租车没有太大的变化。因为从生产资料跟劳动力这块,互联网并没有带来本质性的变化。网约车汇集长尾人群,但社会总体是不是利益最大化,也许未必。原来这几十万个兼职的司机,在上下班高峰时间不上路的。但他们上路了以后,使得整个道路变的更堵了,所有的这些问题互联网是没有办法解决的。必须得通过人工智能来解决,互联网挖的坑需要人工智能来填。人工智能从本质上来说是用机器来做人能做的事情,生产资料同时是劳动力。”

 
网约车不但没有给人们出行带来多少方便,某种程度上,反倒成了道路堵塞的元凶。因此,人工智能的科技成果能使这些问题很好的解决吗?



◆ ◆ ◆

“互联网挖的坑需要人工智能来填”

 
今年是人工智能革命的特殊一年,在市场规模、辐射面、持续时间的尺度上,跟PC以及互联网同等级别的。人工智能一定要跟具体的行业和产业结合在一起,未来10年智能驾驶是最重要的人工智能产业。 为检验是否能完成这个任务,吴提出了四个明确的标准:

1.市场是不是足够大,是否处在快速增长起的时点;

2.是不是真正解决了客户的痛点。能够提升效率,我们希望做一个产品,它并不是维他命吃了有营养不吃无所谓;

3.那能否创造商业模式创新的空间;

4.护城河是不是足够的宽和深。

 

“逐一来看,市场确实是足够大的,它涉及到了三个万亿美金的市场,全球汽车市场万亿美金,出行市场无论是Uber还是滴滴都是万亿美金的规模,给我们带来的社会整体效益又是万亿美金。

 

摩根斯坦利认为智能驾驶一年可以给美国带来1.3万亿美金的社会效益,相当于美国GDP8%。为什么有如此之大的社会效益,我们不妨做模拟。我们要解决碰到客户痛点的问题和效率问题,我们拿北京规模的城市作为案例。假设说一座城市有600万辆机动车,大部分是私家车,它会带来什么问题?车多带来堵车的问题,堵车导致‘路怒’和违规驾驶,又会导致很多的交通事故。今天每年全世界因为交通事故死亡140万人,中国几乎占1/4,交通事故会使得路更堵,使得百公里的油耗上升,能源浪费,使得空气受到污染。车多又会导致停车很困难,一辆车90%以上的时间是停着的,而且需要两个停车位。根据美国的统计,汽车行驶历程30%-35%为了停车,很多大城市15%以上的土地用来停车,房价更贵。很多年轻人只能生活在远离城市中心的郊区,导致了‘睡城’和上下班的潮汐效应。我们每天大量的时间浪费在路上,北京一天一个人2.5小时在路上,全中国20多亿小时在路上。回去五六年前古埃及人建设大金字塔花了这么长的时间,我们浪费如此多的生产力。为什么大家都要买私家车,因为打车难和贵。我们希望通过科技和人工智能10年的时间改变现状,我们希望10年以后也许这样的城市里,它的机动车保有量从600万辆到300万辆,但其中有200万辆是无人驾驶的出租车。可以真正地解决打车难和贵的问题。

 

首先,我把这200万辆无人驾驶出租车根据大数据的规律,根据全城人群的分布和出行的规律分布在城市的各个角落,保证每个人一叫车两分钟之内可以来车。打车的费用可以降到今天1/3,人力成本去掉,‘空驶’浪费没了,新能源每公里燃料成本比今天的燃料低很多。原来制约无人驾驶重要因素是激光雷达,一台激光雷达今年是70万人民币。但未来5年会降到500美金以下,这意味着大规模的商业化成为可能。从用户端看,这是波士顿咨询集团和达沃斯论坛对全世界很多城市的决策者做的调研。88%的人希望像无人驾驶这样的新技术,可以在未来的10年里得到商业化。真正商业化了以后,可以给我们带来很多的好处。”






那么未来的车是什么样子的?吴大胆假设,“未来车就是这么整齐的在路上走,对道路的利用效率提升,交通事故减少,能源消耗变的更少,因为第一辆车把大部分的封阻挡掉。北京的平均速度20公里,除了堵车还有十字路口和红绿灯,未来如果都是无人驾驶汽车,保证每辆车按照特定的速度,特定次序通行,红绿灯完全可以拿掉的。未来所有的这些车都在路上出行,它对停车位的需求也会大量地减少。即使需要停车,一个小小的停车位就可能停进去。大家知道今天的停车位必须得足够大,因为有很多的新手停不进去,停进去还要有足够的空间下车。未来无人驾驶的出租车并不需要那么多的停车空间,大量的停车空间会被释放出来。

 
商业模式创新空间巨大,10年后汽车可能长的不再像汽车,更像一个商业空间。在这商业空间里可以创造人与信息跟内容和服务接触的触点,未来的车长这样。放一套办公设备就变成了移动的写字楼,交通工具的属性逐渐降低,商业空间的属性逐步提高。未来每一条路和每一辆车可以成为移动地产。


未来10年所有跟人或者物的交通相关的产业都会被重新定义,无论你是出租业、停车业、写字楼还是服务业还是物流。200万辆出租车上下班可以接人,中午可以送餐送货。金融业等所有相关产业都会被重新定义。产业的护城河非常之宽,非常深,不仅是资本和人才的问题,还有品牌数据和专利的壁垒,以及技术。”




◆ ◆ ◆

“号称做智能驾驶,没有从车库开始创业那就是耍流氓!”


吴甘沙接着对他们公司的未来进行了预测:


“我们希望2-3年内成为中国第一家能够在辅助驾驶以及无人驾驶领域商业化的公司,我们从车库开始创业。作为创业公司,如果号称做智能驾驶,没有从车库开始创业那就是耍流氓嘛。


我们是国内唯一能在高速公路上实现100公里时速的辅助驾驶公司,大家可以看到这样的车不仅仅能够在车道里做很好的行驶,还得有自主超车的功能。大部分的时间在中间的车道走,如果前车实在太慢了就自己拐到快车道然后超车,然后再回来。同时,我们也在探索无人驾驶,左边的车适合最后几公里的出行,地铁站出来离家几公里的时候,今天只有黑车和摩的,未来这种小车适合做最后几公里运行。右边的车是我们完全重新设计的,针对共享出行的一款车,大家可以看到两排座椅对着坐,没有方向盘和刹车。研发基地已经开始常态化的测试,明年1月份即将开始试运营。这款车对高科技园区和森林公园,以及主题公园、度假村非常适合。无人驾驶很大的问题就是最小化维护成本,我们在里面做了一个非常有意思的功能,当他发现自己没电的时候,会自己找到一个带无线充电停车位停进去开始充电。”

 
最后,和其他的创业者类似,吴同样深知创业之路的艰辛和悲壮,但是作为有梦想的人,他们的团队也都是一群坚定勇敢、不屈不挠的战士:

 
“智能驾驶未来的前景非常美好,但又是一个非常艰巨的里程。我想引用耐克创始人说的这句话,面临这种挑战‘懦夫从不启程,弱者在途中死去,只有强者会继续前行’。我们不确定会不会成为最后的强者,但我们有相信的力量,我们相信‘相信 ’的力量,希望能够真正有人工智能改变未来的世界。”

 


◆ ◆ ◆

“你要想明白到达明天的话,可能需要远望后天!”


之后主持人补充了一个问题,吴的回答同样精彩。


主持人:互联网与人工智能算是两个领域,您怎样从英特尔的积累推动做无人驾驶和智能驾驶,如何看待未来智能制造市场。


吴甘沙:互联网和人工智能是两领域,过去在英特尔的积累不在互联网。英特尔只是抓住了互联网的前半段机遇,后半段的移动互联网来说英特尔做的不是特别成功。恰恰是这段并不成功的经历让我有更多的反思,我想明白有的时候不能仅仅盯着竞争对手,你需要看清楚这个时代。你要想明白到达明天的话,可能需要远望后天,这是为什么2013年开始我在看人工智能领域。人工智能大家都想象是很理论的东西,很算法的东西,其实未必如此。你要让人工智能落地的话,其实需要做很多的脏活和累活,你需要有很多系统工程的能力,你要有解决规模和成本的能力。我原来在英特尔的很多经验可以非常地有帮助,其实我们公司也是算法+系统工程+汽车电子,形成积木组合式的创新才能做出来。如果只有算法完全做不起来,未来制造也是在智能驾驶中不可或缺的一环。如何可以在这么长的产业链上可以率先推向市场,形成规模和成本的效应,需要智能制造。所以这些也需要我们学习。
 
 
 
 
 
来源:大数据文摘
智造家 查看全部
6.1_.jpg

2016年12月4日,虎嗅打造的创新创业嘉年华“F&M创新节”在北京举办。活动中,驭势科技CEO吴甘沙发表了题为“互联网到人工智能的第一座高峰”的主题演讲。他指出互联网时代在给大众带来极大便利的同时,也“挖了许多坑”,而“互联网挖的坑需要人工智能来填”。此外,吴甘沙还总结了自己在创业路上的一些经验教训:“你要想明白到达明天的话,可能需要远望后天”。


大数据文摘作为大会合作方,从现场发来第一手资料:


以下内容根据主办方提供速记整理,在不改变原意的前提下有部分删改。

6.2_.jpg





◆ ◆ ◆

“时来天地皆同力,远去英雄不自由”

 

讲座一开始,吴引用了唐朝诗人罗隐《筹笔驿》中的经典名句“时来天地皆同力,运去英雄不自由”,用在此处,并非感慨时运不济,胜败都是由外力决定的。相反,吴表示“2016年开始,我们又将看到新的机会”,很显然,这里只是强调逆天改命并非智者所为,顺应历史的潮流,顺应时代的发展,英雄也不例外。时代的更迭是种必然。

 

吴承认互联网从本质上改变过我们的生活,带给我们了三样东西:

1.解决了信息不对称的问题。建立各种各样的连接,人和信息的连接,人和商品的连接,人和人的连接,人和服务的连接,人和闲置资源的连接等等;

2.使得交易成本最小化。无论是金钱的成本,还是时间的成本最小化;

3.终于能够汇集长尾人群。而不再是头部的高端客户才能从服务当中获益。


我们看到互联网解决的问题主要在于信息普及以及降低交易成本的方面,但是,后者仅涉及交易成本,是整个利益链的其中一环,商品成本还包括生成成本。


“但我们发现发展到现在的阶段,互联网本身也碰到了一些瓶颈。交易成本虽然最小化了,但生产成本还是那样,生产成本就是生产资料和劳动力。”这脑洞有点大啊,这是说消费方式已经确定了,但是驾车的人多余了,车也不一定还用原来的车了,需要进步咯?
 

“拿网约车来讲,网约车带来很多的便利,帮助我们建立了连接,等到补贴过去以后大家发现打车的费用跟出租车没有太大的变化。因为从生产资料跟劳动力这块,互联网并没有带来本质性的变化。网约车汇集长尾人群,但社会总体是不是利益最大化,也许未必。原来这几十万个兼职的司机,在上下班高峰时间不上路的。但他们上路了以后,使得整个道路变的更堵了,所有的这些问题互联网是没有办法解决的。必须得通过人工智能来解决,互联网挖的坑需要人工智能来填。人工智能从本质上来说是用机器来做人能做的事情,生产资料同时是劳动力。”

 
网约车不但没有给人们出行带来多少方便,某种程度上,反倒成了道路堵塞的元凶。因此,人工智能的科技成果能使这些问题很好的解决吗?



◆ ◆ ◆

“互联网挖的坑需要人工智能来填”

 
今年是人工智能革命的特殊一年,在市场规模、辐射面、持续时间的尺度上,跟PC以及互联网同等级别的。人工智能一定要跟具体的行业和产业结合在一起,未来10年智能驾驶是最重要的人工智能产业。 为检验是否能完成这个任务,吴提出了四个明确的标准:

1.市场是不是足够大,是否处在快速增长起的时点;

2.是不是真正解决了客户的痛点。能够提升效率,我们希望做一个产品,它并不是维他命吃了有营养不吃无所谓;

3.那能否创造商业模式创新的空间;

4.护城河是不是足够的宽和深。

 

“逐一来看,市场确实是足够大的,它涉及到了三个万亿美金的市场,全球汽车市场万亿美金,出行市场无论是Uber还是滴滴都是万亿美金的规模,给我们带来的社会整体效益又是万亿美金。

 

摩根斯坦利认为智能驾驶一年可以给美国带来1.3万亿美金的社会效益,相当于美国GDP8%。为什么有如此之大的社会效益,我们不妨做模拟。我们要解决碰到客户痛点的问题和效率问题,我们拿北京规模的城市作为案例。假设说一座城市有600万辆机动车,大部分是私家车,它会带来什么问题?车多带来堵车的问题,堵车导致‘路怒’和违规驾驶,又会导致很多的交通事故。今天每年全世界因为交通事故死亡140万人,中国几乎占1/4,交通事故会使得路更堵,使得百公里的油耗上升,能源浪费,使得空气受到污染。车多又会导致停车很困难,一辆车90%以上的时间是停着的,而且需要两个停车位。根据美国的统计,汽车行驶历程30%-35%为了停车,很多大城市15%以上的土地用来停车,房价更贵。很多年轻人只能生活在远离城市中心的郊区,导致了‘睡城’和上下班的潮汐效应。我们每天大量的时间浪费在路上,北京一天一个人2.5小时在路上,全中国20多亿小时在路上。回去五六年前古埃及人建设大金字塔花了这么长的时间,我们浪费如此多的生产力。为什么大家都要买私家车,因为打车难和贵。我们希望通过科技和人工智能10年的时间改变现状,我们希望10年以后也许这样的城市里,它的机动车保有量从600万辆到300万辆,但其中有200万辆是无人驾驶的出租车。可以真正地解决打车难和贵的问题。

 

首先,我把这200万辆无人驾驶出租车根据大数据的规律,根据全城人群的分布和出行的规律分布在城市的各个角落,保证每个人一叫车两分钟之内可以来车。打车的费用可以降到今天1/3,人力成本去掉,‘空驶’浪费没了,新能源每公里燃料成本比今天的燃料低很多。原来制约无人驾驶重要因素是激光雷达,一台激光雷达今年是70万人民币。但未来5年会降到500美金以下,这意味着大规模的商业化成为可能。从用户端看,这是波士顿咨询集团和达沃斯论坛对全世界很多城市的决策者做的调研。88%的人希望像无人驾驶这样的新技术,可以在未来的10年里得到商业化。真正商业化了以后,可以给我们带来很多的好处。”

6.3_.JPG


那么未来的车是什么样子的?吴大胆假设,“未来车就是这么整齐的在路上走,对道路的利用效率提升,交通事故减少,能源消耗变的更少,因为第一辆车把大部分的封阻挡掉。北京的平均速度20公里,除了堵车还有十字路口和红绿灯,未来如果都是无人驾驶汽车,保证每辆车按照特定的速度,特定次序通行,红绿灯完全可以拿掉的。未来所有的这些车都在路上出行,它对停车位的需求也会大量地减少。即使需要停车,一个小小的停车位就可能停进去。大家知道今天的停车位必须得足够大,因为有很多的新手停不进去,停进去还要有足够的空间下车。未来无人驾驶的出租车并不需要那么多的停车空间,大量的停车空间会被释放出来。

 
商业模式创新空间巨大,10年后汽车可能长的不再像汽车,更像一个商业空间。在这商业空间里可以创造人与信息跟内容和服务接触的触点,未来的车长这样。放一套办公设备就变成了移动的写字楼,交通工具的属性逐渐降低,商业空间的属性逐步提高。未来每一条路和每一辆车可以成为移动地产。


未来10年所有跟人或者物的交通相关的产业都会被重新定义,无论你是出租业、停车业、写字楼还是服务业还是物流。200万辆出租车上下班可以接人,中午可以送餐送货。金融业等所有相关产业都会被重新定义。产业的护城河非常之宽,非常深,不仅是资本和人才的问题,还有品牌数据和专利的壁垒,以及技术。”




◆ ◆ ◆

“号称做智能驾驶,没有从车库开始创业那就是耍流氓!”


吴甘沙接着对他们公司的未来进行了预测:


“我们希望2-3年内成为中国第一家能够在辅助驾驶以及无人驾驶领域商业化的公司,我们从车库开始创业。作为创业公司,如果号称做智能驾驶,没有从车库开始创业那就是耍流氓嘛。


我们是国内唯一能在高速公路上实现100公里时速的辅助驾驶公司,大家可以看到这样的车不仅仅能够在车道里做很好的行驶,还得有自主超车的功能。大部分的时间在中间的车道走,如果前车实在太慢了就自己拐到快车道然后超车,然后再回来。同时,我们也在探索无人驾驶,左边的车适合最后几公里的出行,地铁站出来离家几公里的时候,今天只有黑车和摩的,未来这种小车适合做最后几公里运行。右边的车是我们完全重新设计的,针对共享出行的一款车,大家可以看到两排座椅对着坐,没有方向盘和刹车。研发基地已经开始常态化的测试,明年1月份即将开始试运营。这款车对高科技园区和森林公园,以及主题公园、度假村非常适合。无人驾驶很大的问题就是最小化维护成本,我们在里面做了一个非常有意思的功能,当他发现自己没电的时候,会自己找到一个带无线充电停车位停进去开始充电。”

 
最后,和其他的创业者类似,吴同样深知创业之路的艰辛和悲壮,但是作为有梦想的人,他们的团队也都是一群坚定勇敢、不屈不挠的战士:

 
“智能驾驶未来的前景非常美好,但又是一个非常艰巨的里程。我想引用耐克创始人说的这句话,面临这种挑战‘懦夫从不启程,弱者在途中死去,只有强者会继续前行’。我们不确定会不会成为最后的强者,但我们有相信的力量,我们相信‘相信 ’的力量,希望能够真正有人工智能改变未来的世界。”

 


◆ ◆ ◆

“你要想明白到达明天的话,可能需要远望后天!”


之后主持人补充了一个问题,吴的回答同样精彩。


主持人:互联网与人工智能算是两个领域,您怎样从英特尔的积累推动做无人驾驶和智能驾驶,如何看待未来智能制造市场。


吴甘沙:互联网和人工智能是两领域,过去在英特尔的积累不在互联网。英特尔只是抓住了互联网的前半段机遇,后半段的移动互联网来说英特尔做的不是特别成功。恰恰是这段并不成功的经历让我有更多的反思,我想明白有的时候不能仅仅盯着竞争对手,你需要看清楚这个时代。你要想明白到达明天的话,可能需要远望后天,这是为什么2013年开始我在看人工智能领域。人工智能大家都想象是很理论的东西,很算法的东西,其实未必如此。你要让人工智能落地的话,其实需要做很多的脏活和累活,你需要有很多系统工程的能力,你要有解决规模和成本的能力。我原来在英特尔的很多经验可以非常地有帮助,其实我们公司也是算法+系统工程+汽车电子,形成积木组合式的创新才能做出来。如果只有算法完全做不起来,未来制造也是在智能驾驶中不可或缺的一环。如何可以在这么长的产业链上可以率先推向市场,形成规模和成本的效应,需要智能制造。所以这些也需要我们学习。
 
 
 
 
 
来源:大数据文摘
智造家
507 浏览

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)

机械自动化类 凯麦亿精密机械 2016-11-23 15:21 发表了文章 来自相关话题

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓






同样一段剪辑,但是人工智能系统已经给出了字幕↓↓







◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列





来进行唇语识别,输入音频序列





进行辅助。这样,模型的输出的概率分布为




 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓






其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 





这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
  查看全部
3.1_.jpg

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓

3.2_.gif


同样一段剪辑,但是人工智能系统已经给出了字幕↓↓

3.3_.gif



◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列
3.4_.JPG


来进行唇语识别,输入音频序列
3.5_.JPG


进行辅助。这样,模型的输出的概率分布为
3.6_.JPG

 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

3.7_.jpg


其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 
3.8_.JPG


这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
 
668 浏览

为什么AI是人们网购的最佳帮手?

机械自动化类 集运物流 2016-10-19 13:43 发表了文章 来自相关话题

在当今电子商务时代,进行网络购物成为了最普通不过的事情。而许多时候在实体店看到许多漂亮设计的服装时,我们第一反应就是会再三思量一下,会选择到网上购买,因为网购的价格会更加优惠。

那么在网购的时候,是否真的就是豪无缺陷呢。答案是显然的,其中最大的一个问题就是我们无法设身处地的去试衣服,对我们带来了许多的局限性。 

因此,当你起了这样的心思,想去网购时,其实也并不是一件容易的事。要想在众多网购平台上,挑选出最符合要求的价格又优惠的商品,要花费很多的心思,这个过程是很乏味,有时还会竹篮打水一场空。

[login] 

为了解决这个问题,曾经获得过人工智能硕士学位的阿图尔•清莱决定在这个领域上大展身手,终于在去年推出了Staqu平台。 
 

虽然人工智能在许多领域被采用,但是在印度,近几年AI的发展速度稍微减缓了,其实不仅仅是在印度,在全球范围内其增速都在减慢。然而,阿图尔•清莱这一群人深深明白人工智能这些技术能够给电子商务领域带来巨大的影响力,也能够改变其他相关领域。

就这样,Staqu平台就这样应运而生了,它在印度古尔冈正式面向大众。


它是如何运作的?

该平台可以在三个方面帮助用户。首先,它能够帮助用户找到“非结构化产品”,那什么是“非结构化产品”呢?就是指那些用户无法描述具体外形的服装产品。第二方面,在众多标签的协助下,它能够帮助用户找到具体的产品。第三个方面,就是在该平台上,它可以帮助用户了解当前的流行趋势,并根据用户的选择对其作出相关推荐。

许多开启了电子商务模式的B2B新创企业,例如Yepme,Paytm和FabAlley也都具备这样的推荐功能。


“起初,为了让市场上的客户对该技术更加信服,从而让他们能够信赖这项技术,其实是一件很艰巨的任务,但是现在变得容易多了”阿图说道。

除了在电子商务领域有所突破,该公司还与许多手机制造商相互合作,其中包括Karbonn,Panaonic,Lava,和Intex,对他们帮助最大的是在图像搜索等方面。

 
发展趋势

该公司目前阶段主要是着重开发B2B电子商务领域,不过据相关负责人称,他们将在本周内发布一款用户应用程序,名字叫做Fashin,只适用于iOS系统。

在这个应用程序中,用户们可以在线下实体店中将所中意的衣服款式拍个照,然后将该照片上传到该系统当中,系统就会自动为你在所有的网购平台上为你搜索相同款式的衣服,并且会为你择优选择和推荐。这样一来,就为用户省去了许多购物时间,并能够放心购买。

该公司不久之后将会扩展另外一个领域,就是文档分析,就是对各种不同类型的文档进行电子化分析并且整理归类。该技术在BFSI行业运用的相当普遍,并且在过去几年当中,人们也看到了它有很强的适应性。

该新创公司目前团队成员总共18名,印度天使网络公司对他们给予了超高的支持,不久之后将推出另外一个系列的产品。
[/login]
 
 
 
 
来源:1号机器人网
智造家提供 查看全部
4.1_.JPG


在当今电子商务时代,进行网络购物成为了最普通不过的事情。而许多时候在实体店看到许多漂亮设计的服装时,我们第一反应就是会再三思量一下,会选择到网上购买,因为网购的价格会更加优惠。

那么在网购的时候,是否真的就是豪无缺陷呢。答案是显然的,其中最大的一个问题就是我们无法设身处地的去试衣服,对我们带来了许多的局限性。 

因此,当你起了这样的心思,想去网购时,其实也并不是一件容易的事。要想在众多网购平台上,挑选出最符合要求的价格又优惠的商品,要花费很多的心思,这个过程是很乏味,有时还会竹篮打水一场空。

[login] 

为了解决这个问题,曾经获得过人工智能硕士学位的阿图尔•清莱决定在这个领域上大展身手,终于在去年推出了Staqu平台。 
 

虽然人工智能在许多领域被采用,但是在印度,近几年AI的发展速度稍微减缓了,其实不仅仅是在印度,在全球范围内其增速都在减慢。然而,阿图尔•清莱这一群人深深明白人工智能这些技术能够给电子商务领域带来巨大的影响力,也能够改变其他相关领域。

就这样,Staqu平台就这样应运而生了,它在印度古尔冈正式面向大众。


它是如何运作的?

该平台可以在三个方面帮助用户。首先,它能够帮助用户找到“非结构化产品”,那什么是“非结构化产品”呢?就是指那些用户无法描述具体外形的服装产品。第二方面,在众多标签的协助下,它能够帮助用户找到具体的产品。第三个方面,就是在该平台上,它可以帮助用户了解当前的流行趋势,并根据用户的选择对其作出相关推荐。

许多开启了电子商务模式的B2B新创企业,例如Yepme,Paytm和FabAlley也都具备这样的推荐功能。


“起初,为了让市场上的客户对该技术更加信服,从而让他们能够信赖这项技术,其实是一件很艰巨的任务,但是现在变得容易多了”阿图说道。

除了在电子商务领域有所突破,该公司还与许多手机制造商相互合作,其中包括Karbonn,Panaonic,Lava,和Intex,对他们帮助最大的是在图像搜索等方面。

 
发展趋势

该公司目前阶段主要是着重开发B2B电子商务领域,不过据相关负责人称,他们将在本周内发布一款用户应用程序,名字叫做Fashin,只适用于iOS系统。

在这个应用程序中,用户们可以在线下实体店中将所中意的衣服款式拍个照,然后将该照片上传到该系统当中,系统就会自动为你在所有的网购平台上为你搜索相同款式的衣服,并且会为你择优选择和推荐。这样一来,就为用户省去了许多购物时间,并能够放心购买。

该公司不久之后将会扩展另外一个领域,就是文档分析,就是对各种不同类型的文档进行电子化分析并且整理归类。该技术在BFSI行业运用的相当普遍,并且在过去几年当中,人们也看到了它有很强的适应性。

该新创公司目前团队成员总共18名,印度天使网络公司对他们给予了超高的支持,不久之后将推出另外一个系列的产品。
[/login]
 
 
 
 
来源:1号机器人网
智造家提供
683 浏览

Ai Build的AI 3D打印机器人

机械自动化类 喷漆李 2016-10-19 11:41 发表了文章 来自相关话题

Ai Build 公司创建了一个长“眼睛”的人工智能 3D 打印机器人,可以自己监测打印过程,并自行进行错误纠正。

Ai Build 的创始人和 CEO Daghan Cam 注意到小规模生产和大规模工程建设间存在脱节现象。
 
[login]
在小规模生产领域,已经开始出现一种全自动生产流水线,而另一方面,进行大规模工程建设还要依赖于人类劳动。随着更高效的 3D 印刷技术的出现,他认为可以在这方面做文章。
 

3D 打印技术作为一种新型制造手段,不仅昂贵,费时,在现阶段还不能进行大规模物体打印。一些 3D 技术打印的大规模模型如飞机、办公空间或艺术作品,都不是作为一个整体打印而成的,而是许多打印好的小部件拼凑在一起。
 

为扩大打印规模,Cam 和他的团队将 3D 打印头绑在库卡机器人机械臂上,并利用编程来操控机械臂来完成一些复杂结构的打印。为降低成本和节约时间,他们采用了网格状的叠层式设计,这样既能在使用更少材料的同时仍然能构建一个强大和有效的支撑结构。
 

但在打印过程中机器人却犯了很多错误。“我们的机器人是盲目的,”Cam 说。“它只会盲目地执行电脑的指令。如果有问题它都一点没有察觉到,更别说进行适当调整。”
 

为了解决这个问题,Cam 和他的团队为机器人加装摄像头和机器视觉算法来对打印物体结构进行分析。
 

有了这双新“眼睛”之后,机器人在随后的打印中将自动监测出现的问题并进行调整。结果打印效率迅速提升,比之前节约了近一半的时间。
 

上周在阿姆斯特丹举行的 GPU 技术会议上,公司展出了一个长宽各 5 米,高 4.5 米的建筑结构 Daedalus Pavilion。这一作品是与 Arup Engineers 公司合作完成的。整个打印过程只用了 15 天时间。打印成本约为 100 美元/小时,打印该作品总共花费将超过 35600 美元(约合人民币 239684 元)。
[/login]
 
 
 
 
 
来源:网络
智造家提供 查看全部
3.1_.jpg
Ai Build 公司创建了一个长“眼睛”的人工智能 3D 打印机器人,可以自己监测打印过程,并自行进行错误纠正。

Ai Build 的创始人和 CEO Daghan Cam 注意到小规模生产和大规模工程建设间存在脱节现象。
 
[login]
在小规模生产领域,已经开始出现一种全自动生产流水线,而另一方面,进行大规模工程建设还要依赖于人类劳动。随着更高效的 3D 印刷技术的出现,他认为可以在这方面做文章。
 

3D 打印技术作为一种新型制造手段,不仅昂贵,费时,在现阶段还不能进行大规模物体打印。一些 3D 技术打印的大规模模型如飞机、办公空间或艺术作品,都不是作为一个整体打印而成的,而是许多打印好的小部件拼凑在一起。
 

为扩大打印规模,Cam 和他的团队将 3D 打印头绑在库卡机器人机械臂上,并利用编程来操控机械臂来完成一些复杂结构的打印。为降低成本和节约时间,他们采用了网格状的叠层式设计,这样既能在使用更少材料的同时仍然能构建一个强大和有效的支撑结构。
 

但在打印过程中机器人却犯了很多错误。“我们的机器人是盲目的,”Cam 说。“它只会盲目地执行电脑的指令。如果有问题它都一点没有察觉到,更别说进行适当调整。”
 

为了解决这个问题,Cam 和他的团队为机器人加装摄像头和机器视觉算法来对打印物体结构进行分析。
 

有了这双新“眼睛”之后,机器人在随后的打印中将自动监测出现的问题并进行调整。结果打印效率迅速提升,比之前节约了近一半的时间。
 

上周在阿姆斯特丹举行的 GPU 技术会议上,公司展出了一个长宽各 5 米,高 4.5 米的建筑结构 Daedalus Pavilion。这一作品是与 Arup Engineers 公司合作完成的。整个打印过程只用了 15 天时间。打印成本约为 100 美元/小时,打印该作品总共花费将超过 35600 美元(约合人民币 239684 元)。
[/login]
 
 
 
 
 
来源:网络
智造家提供