智能化

4 推荐

617 浏览

0评论

2016年欧洲计算机视觉大会纪要（ECCV’16 Recap）

智能时代

智能化

计算机视觉探奇

设计类集运物流 2016-11-08 13:00 发表了文章来自相关话题

计算机视觉（Computer Vision, CV）是人工智能领域的一个重要研究子领域。随着近年来 CV 学界研究成果在业界产生的巨大产业影响，计算机视觉受到越来越多的关注。机器之心曾整理报道过ECCV‘2016的各项最佳论文奖。本文为机器之心专栏作者魏秀参记录下的大会纪要。

同计算机其他研究领域一样，CV 依然有着较浓厚的「会议情节」，其中每年一届的 Computer Vision and Pattern Recognition (CVPR)、两年一届的 International Conference on Computer Vision (ICCV) 和同样两年一届的 European Conference on Computer Vision (ECCV) 并称 CV 领域的三大顶会，其中 ICCV 和 ECCV 奇偶年交替召开。

笔者有幸参加了 2016 年欧洲计算机视觉大会（ECCV 2016），在此将大会纪要同大家分享。

本次 ECCV 在素有「北方威尼斯」之称的荷兰迷幻浪漫都市阿姆斯特丹举办，会议历时九天（10 月 8 日至 10 月 16 日），可谓「饕餮盛宴」，其中主会从 11 日到 14 日持续四天，其余时间为 workshop 日程。值得一提的是，多媒体领域顶会 ACM Multimedia（ACM MM）于 15 日至 19 日接续 ECCV，同样在阿姆斯特丹举办，真是让人过足了 AI 瘾。此外，城市中不时弥漫开来的大麻气味无疑给这两大会徒添了一种别样的神秘气息。

ECCV 主会

本次 ECCV 主会在始建于 1887 年的皇家剧场 Carré举行，注册参会人数约 1700 人。有效投稿数为 1561 篇，共 74 位 Area Chairs 和 1163 位审稿人（Reviewers），录用论文 415 篇，录用比例 26.6％，其中 28 篇为 Oral（占 1.8%），45 篇为 Spotlight（2.9%）。收录论文的主题仍然延续传统，覆盖了计算机视觉和模式识别的各个方向，包括：

3D computer vision

Computational photography, sensing and displayFace and gestureLow-level vision and image processingMotion and trackingOptimization methodsPhysics-based vision, photometry and shape-from-XRecognition: detection, categorization, indexing, matchingSegmentation, grouping and shape representationStatistical methods and learningVideo: events, activities and surveillanceApplications

其中，深度学习（DL）、3D、视频相关等为热门方向。而审稿人方面，也是 DL、3D 等方向审稿人居多，特别是深度学习，异军突起。（PS：但是审稿人多并不一定是好事。由于不同研究背景的研究人员都进入 DL 领域，导致 DL 审稿人给出的审稿意见参差不齐，不同意见间的「方差」很大。）相比之下，审稿人最少的 Sensors 领域人数只是 DL 的七分之一。

主会日程基本半天一个单元，每个单元中前场分别是 Oral 和 Spotlight 报告，接下来则是 Poster 环节。有关 Oral、Spotlight 和 Poster paper 具体内容可参见 ECCV 2016 主页。

ECCV Workshops

本次依托 ECCV 举办的 workshop 共有 26 个，一些在当地酒店举办，一些在阿姆斯特丹大学举办。Workshop 中比较吸引人眼球的还属「Joint ImageNet and MS COCO Visual Recognition Challenge」了。这次 ImageNet 竞赛比较显著的一个特征即今年的获胜者基本是华人团队，如商汤（SenseTime）、海康威视（HIK Vision）、360 AI，公安部三所等。另外，比赛结果中并未见 Google、微软、百度等公司的身影。在此也祝贺在各项比赛细类中取得名次的队伍！

另外，笔者也有幸作为 team director 参加了 Apparent Personality Analysis 竞赛，历时两个多月，我们的参赛队（NJU-LAMDA）在 86 个参赛者，其中包括有印度「科学皇冠上的瑰宝」之称的 Indian Institutes of Technology（IIT）和荷兰名校 Radboud University 等劲旅中脱引而出，斩获第一。关于竞赛细节，可参看近期我们发布在「深度学习大讲堂」的竞赛经验分享。

晚宴和颁奖

由于阿姆斯特丹是运河城市且沿海，ECCV 晚宴特地选定在「Ocean Diva 号」游轮上举行。各国人工智能研究者济济一堂，好不热闹！只是「晚宴」并不如我们想象中的中式会议晚宴那么丰富甚至奢华，国外会议晚宴一般都是以啤酒、饮料穿插以小吃、汉堡为主。

晚宴的重要时刻即大会颁奖，本次的最佳论文及提名，和最佳学生论文均授予了传统计算机视觉研究问题，而非深度学习。一则可以看出深度学习相关研究目前难度日益加大，欲做出有突破性进展的工作不易；二则可以看出 CV 大佬有意扶持传统研究问题，维护 CV 生态平衡，不致 DL 一家独大。

另外，Koenderink Prize（ECCV「十年最佳论文」）授予了著名的 SURF: Speeded up robust features (ECCV 2006) (Herbert Bay, Tinne Tuytelaars and Luc Van Gool) 和 Machine learning for high-speed corner detection (ECCV 2006) (Edward Rosten and Tom Drummond)。值得一提的是，在宣布 SURF 获奖之际当即引来一片欢呼，可见其工作深入人心之甚。PAMI Everingham Prize（CV 领域的最佳贡献奖）分别授予了 ImageNet 数据集团队和 Ramin Zabih 以表彰其在开源数据集，和服务 Computer Vision Foundation 上的卓越贡献。

干货时间

开会数日，笔者有心记录了一些会议观察，在此与君共享。不过受个人研究兴趣影响，以上内容不免有所偏颇，望诸君选择性参考。

1. 这次会上大佬们如 Jitendra, Cordelia 在力推 self-supervised learning（基于 robot 反馈机制，例如，机械手臂戳一下物体，从 sensor 或视频中获得反馈，可以看作是用 robot 来探知世界吧），最近 arxiv 也有一篇类似的 https://arxiv.org/abs/1605.07157；另外，很多利用 side information，如利用声音辅助视觉，这样的工作在本次 ECCV 上也屡见不鲜；

2. 冠名弱监督学习（Weakly supervised learning）的工作非常多了，但是「弱监督」的内涵却是个圆其说，不像机器学习中有明确的定义；因此，以后基于弱监督设定的计算机视觉问题还应该有做的空间；

3. 底层视觉（Low-level vision）问题／任务极少，几乎没有，不像 ICCV 2015 还有若干篇的样子；而且一些工作开始用 DL 去做 low-level vision 的东西，比如 Ming-Hsuan Yang 在这次会上的两篇利用 DL 技术学习底层视觉中的滤波器（Filters）。

4. 传统细粒度图像相关工作几乎没有，只有一篇做细粒度图像任务的新问题，即细粒度场景图像分类（Fine-grained scene classification）；

5. 有两篇 image colorization 作为 oral paper，不知是否是巧合；

6. Question answering 这类问题相比 ICCV 少了很多，但隐式做 visual-text 的工作还是占了一定比例；

7. 下面几篇文章做的问题比较有趣：

a) Amodal instance segmentation, Ke Li and Jitendra Malik.（构造新数据集，做了新问题）
b) Automatic Attribute Discovery with Neural Activations, Sirion Vittayakorn, University of North Carolina at Chapel Hill; Takayuki Umeda, NTT; Kazuhiko Murasaki, NTT; Kyoko Sudo, NTT; Takayuki Okatani, Tohoku University; Kota Yamaguchi, Tohoku University
c) Pixel-Level Domain Transfer, Donggeun Yoo, KAIST; Namil Kim, KAIST; Sunggyun Park, KAIST; Anthony Paek, Lunit Inc.; In So Kweon, KAIST (根据衣服生成买家秀，或反过来，在真实场景下，从模特照片中生成产品照片)

最后，总结来说，这次参会最明显也是最微妙的一个感受就是，多数工作在开会前都没有看过。而不像前两年参加顶会时发现绝大多数文章已经是 arxiv 上读过很久的工作，甚至已经跑过源码，去开会也只是和作者当面聊聊天，甚至当时还有一种顶会更新速度落后于 arxiv 的感受。ECCV'16 这一现象恰恰说明深度学习研究的发展慢慢从当初的白炽化走向正常化，从着急忙慌的在 arxiv 上占坑走向踏踏实实的顶会发表。另外也从侧面显示了深度学习研究难度的提升，就拿 arxiv 举例，一年前几乎每天都能看到有令人 exciting 的文章更新出来，而近期不仅发布文章的数量有所下降，重要的是有趣的文章更是难得一见。这次会上也与众多老友把酒言欢，同时也认识了很多新朋友，期待下次的 CV 大趴，我们 CVPR'17 再见。

10 月 30 日于澳大利亚阿德莱德

（题图为笔者摄于 Zaandam 风车村）

作者简介：

魏秀参：南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并多次获得国际计算机视觉相关竞赛冠亚军，另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等. 微博 ID：Wilson_NJUer

来源：机器之心
智造家提供查看全部

计算机视觉（Computer Vision, CV）是人工智能领域的一个重要研究子领域。随着近年来 CV 学界研究成果在业界产生的巨大产业影响，计算机视觉受到越来越多的关注。机器之心曾整理报道过ECCV‘2016的各项最佳论文奖。本文为机器之心专栏作者魏秀参记录下的大会纪要。

同计算机其他研究领域一样，CV 依然有着较浓厚的「会议情节」，其中每年一届的 Computer Vision and Pattern Recognition (CVPR)、两年一届的 International Conference on Computer Vision (ICCV) 和同样两年一届的 European Conference on Computer Vision (ECCV) 并称 CV 领域的三大顶会，其中 ICCV 和 ECCV 奇偶年交替召开。

笔者有幸参加了 2016 年欧洲计算机视觉大会（ECCV 2016），在此将大会纪要同大家分享。

本次 ECCV 在素有「北方威尼斯」之称的荷兰迷幻浪漫都市阿姆斯特丹举办，会议历时九天（10 月 8 日至 10 月 16 日），可谓「饕餮盛宴」，其中主会从 11 日到 14 日持续四天，其余时间为 workshop 日程。值得一提的是，多媒体领域顶会 ACM Multimedia（ACM MM）于 15 日至 19 日接续 ECCV，同样在阿姆斯特丹举办，真是让人过足了 AI 瘾。此外，城市中不时弥漫开来的大麻气味无疑给这两大会徒添了一种别样的神秘气息。

ECCV 主会

本次 ECCV 主会在始建于 1887 年的皇家剧场 Carré举行，注册参会人数约 1700 人。有效投稿数为 1561 篇，共 74 位 Area Chairs 和 1163 位审稿人（Reviewers），录用论文 415 篇，录用比例 26.6％，其中 28 篇为 Oral（占 1.8%），45 篇为 Spotlight（2.9%）。收录论文的主题仍然延续传统，覆盖了计算机视觉和模式识别的各个方向，包括：

3D computer vision

Computational photography, sensing and display
Face and gesture
Low-level vision and image processing
Motion and tracking
Optimization methods
Physics-based vision, photometry and shape-from-X
Recognition: detection, categorization, indexing, matching
Segmentation, grouping and shape representation
Statistical methods and learning
Video: events, activities and surveillance
Applications

其中，深度学习（DL）、3D、视频相关等为热门方向。而审稿人方面，也是 DL、3D 等方向审稿人居多，特别是深度学习，异军突起。（PS：但是审稿人多并不一定是好事。由于不同研究背景的研究人员都进入 DL 领域，导致 DL 审稿人给出的审稿意见参差不齐，不同意见间的「方差」很大。）相比之下，审稿人最少的 Sensors 领域人数只是 DL 的七分之一。

主会日程基本半天一个单元，每个单元中前场分别是 Oral 和 Spotlight 报告，接下来则是 Poster 环节。有关 Oral、Spotlight 和 Poster paper 具体内容可参见 ECCV 2016 主页。

ECCV Workshops

本次依托 ECCV 举办的 workshop 共有 26 个，一些在当地酒店举办，一些在阿姆斯特丹大学举办。Workshop 中比较吸引人眼球的还属「Joint ImageNet and MS COCO Visual Recognition Challenge」了。这次 ImageNet 竞赛比较显著的一个特征即今年的获胜者基本是华人团队，如商汤（SenseTime）、海康威视（HIK Vision）、360 AI，公安部三所等。另外，比赛结果中并未见 Google、微软、百度等公司的身影。在此也祝贺在各项比赛细类中取得名次的队伍！

另外，笔者也有幸作为 team director 参加了 Apparent Personality Analysis 竞赛，历时两个多月，我们的参赛队（NJU-LAMDA）在 86 个参赛者，其中包括有印度「科学皇冠上的瑰宝」之称的 Indian Institutes of Technology（IIT）和荷兰名校 Radboud University 等劲旅中脱引而出，斩获第一。关于竞赛细节，可参看近期我们发布在「深度学习大讲堂」的竞赛经验分享。

晚宴和颁奖

由于阿姆斯特丹是运河城市且沿海，ECCV 晚宴特地选定在「Ocean Diva 号」游轮上举行。各国人工智能研究者济济一堂，好不热闹！只是「晚宴」并不如我们想象中的中式会议晚宴那么丰富甚至奢华，国外会议晚宴一般都是以啤酒、饮料穿插以小吃、汉堡为主。

晚宴的重要时刻即大会颁奖，本次的最佳论文及提名，和最佳学生论文均授予了传统计算机视觉研究问题，而非深度学习。一则可以看出深度学习相关研究目前难度日益加大，欲做出有突破性进展的工作不易；二则可以看出 CV 大佬有意扶持传统研究问题，维护 CV 生态平衡，不致 DL 一家独大。

另外，Koenderink Prize（ECCV「十年最佳论文」）授予了著名的 SURF: Speeded up robust features (ECCV 2006) (Herbert Bay, Tinne Tuytelaars and Luc Van Gool) 和 Machine learning for high-speed corner detection (ECCV 2006) (Edward Rosten and Tom Drummond)。值得一提的是，在宣布 SURF 获奖之际当即引来一片欢呼，可见其工作深入人心之甚。PAMI Everingham Prize（CV 领域的最佳贡献奖）分别授予了 ImageNet 数据集团队和 Ramin Zabih 以表彰其在开源数据集，和服务 Computer Vision Foundation 上的卓越贡献。

干货时间

开会数日，笔者有心记录了一些会议观察，在此与君共享。不过受个人研究兴趣影响，以上内容不免有所偏颇，望诸君选择性参考。

1. 这次会上大佬们如 Jitendra, Cordelia 在力推 self-supervised learning（基于 robot 反馈机制，例如，机械手臂戳一下物体，从 sensor 或视频中获得反馈，可以看作是用 robot 来探知世界吧），最近 arxiv 也有一篇类似的 https://arxiv.org/abs/1605.07157；另外，很多利用 side information，如利用声音辅助视觉，这样的工作在本次 ECCV 上也屡见不鲜；

2. 冠名弱监督学习（Weakly supervised learning）的工作非常多了，但是「弱监督」的内涵却是个圆其说，不像机器学习中有明确的定义；因此，以后基于弱监督设定的计算机视觉问题还应该有做的空间；

3. 底层视觉（Low-level vision）问题／任务极少，几乎没有，不像 ICCV 2015 还有若干篇的样子；而且一些工作开始用 DL 去做 low-level vision 的东西，比如 Ming-Hsuan Yang 在这次会上的两篇利用 DL 技术学习底层视觉中的滤波器（Filters）。

4. 传统细粒度图像相关工作几乎没有，只有一篇做细粒度图像任务的新问题，即细粒度场景图像分类（Fine-grained scene classification）；

5. 有两篇 image colorization 作为 oral paper，不知是否是巧合；

6. Question answering 这类问题相比 ICCV 少了很多，但隐式做 visual-text 的工作还是占了一定比例；

7. 下面几篇文章做的问题比较有趣：

a) Amodal instance segmentation, Ke Li and Jitendra Malik.（构造新数据集，做了新问题）
b) Automatic Attribute Discovery with Neural Activations, Sirion Vittayakorn, University of North Carolina at Chapel Hill; Takayuki Umeda, NTT; Kazuhiko Murasaki, NTT; Kyoko Sudo, NTT; Takayuki Okatani, Tohoku University; Kota Yamaguchi, Tohoku University
c) Pixel-Level Domain Transfer, Donggeun Yoo, KAIST; Namil Kim, KAIST; Sunggyun Park, KAIST; Anthony Paek, Lunit Inc.; In So Kweon, KAIST (根据衣服生成买家秀，或反过来，在真实场景下，从模特照片中生成产品照片)

最后，总结来说，这次参会最明显也是最微妙的一个感受就是，多数工作在开会前都没有看过。而不像前两年参加顶会时发现绝大多数文章已经是 arxiv 上读过很久的工作，甚至已经跑过源码，去开会也只是和作者当面聊聊天，甚至当时还有一种顶会更新速度落后于 arxiv 的感受。ECCV'16 这一现象恰恰说明深度学习研究的发展慢慢从当初的白炽化走向正常化，从着急忙慌的在 arxiv 上占坑走向踏踏实实的顶会发表。另外也从侧面显示了深度学习研究难度的提升，就拿 arxiv 举例，一年前几乎每天都能看到有令人 exciting 的文章更新出来，而近期不仅发布文章的数量有所下降，重要的是有趣的文章更是难得一见。这次会上也与众多老友把酒言欢，同时也认识了很多新朋友，期待下次的 CV 大趴，我们 CVPR'17 再见。

10 月 30 日于澳大利亚阿德莱德

（题图为笔者摄于 Zaandam 风车村）

作者简介：

魏秀参：南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并多次获得国际计算机视觉相关竞赛冠亚军，另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等. 微博 ID：Wilson_NJUer

来源：机器之心
智造家提供

4 推荐

674 浏览

0评论

让机器人开口说话，依然令人头疼

工业4.0

智能化

语音识别

机器人的发展现状

机械自动化类品管人生 2016-11-07 10:55 发表了文章来自相关话题

对大部分人而言，机器人不能说话，那就不能代表是机器人。但说到机器人的说话能力，那就涉及到智能语音与语义，扯到语音与语义，这是让行业人士都头疼的问题。

虽然我们在实验室里测试，机器人的说话能力可以达到预期的效果，比如，在测试过程中，你问一个问题，机器人回答一个问题，这基本上符合要求。

但是要让机器人进入终端各种市场，面临的问题是非常大的。

主要是噪音问题，语音企业说在安静的场所下，语音的识别率可以达到95%以上，但是在现实生活中，到处充满着噪音，所以很难达到要求。

从一线市场反应的情况是，就算机器人进入到家庭，一个是电视机的播放声，导致机器人经常被唤醒；一个是让机器人处在一个四周都是玻璃门的环境中，识音效果是非常糟糕的；另外，我们人与人之间的对话是有停顿的，但是与机器人之间的对话还要控制好停顿的时间，需要把语言整理的比较顺畅才可以。

所以种种原因导致机器人进入终端市场，体验感非常差。这就是目前我们所面临的情况。

在这次1号机器人网研讨会上，很多嘉宾都清楚语音与语义的问题点出在哪里，虽然现在我们把智能语音分成语音与语义，但是这两者都将归为统一，这是趋势。

[login]
因为在产品使用的过程中，用户不能容忍语音编出来的文字，是非常不准确的，如果错误率高，那就是一个伪功能的产品。

所以不管是语音或语义企业，去收购团队也好，还是自己研发也好，语音与语义终归要一体化。

另外，大部分机器人企业基本上都接触过主流的语音与语义企业，都清楚每家都各有优缺点，例如：深圳市捷通华声科技有限公司（简称：捷通华声）可以对语言模型进行定制，在这一点上，科大讯飞股份有限公司（简称：科大讯飞）可以提供声学定制，但对于语言模型就显得很尴尬。

当我们用语音模型的时候，在音、字完全不对的情况下，这些东西就只能在后台纠错，这个纠错本身就是数据。

总的来说，目前不管是语音企业还是语义企业，提供产品还是很难达到预期效果的，深圳市狗尾草智能科技有限公司（简称：狗尾草）CTO王昊奋说：“很多情况下，不能单靠语音企业，语音企业要更加的开放，然后语义企业需要更积极的往前端迈一步，只有双方交集更紧密，这个生态圈才会更好。”

另外在语义方面，小i机器人是走在行业的前面，因为数据库很庞大，但对于机器人企业而言，不需要这么多的数据库，因为产品基本上都是场景驱动，只要达到听的少，说的自然就足够了。

从机器人企业这边反馈而来，其实现在语音企业的解决方案都很类似，在技术差不多的情况下，优势就体现在数据库。

在数据库方面，各家都有自己的优势，例如：科大讯飞的优势体现在教育领域，捷通华声的优势体现在高铁领域，苏州思必驰信息科技有限公司（简称“思必驰”）优势体现在车载领域，北京云知声信息技术有限公司（简称：云知声）的优势在医院应用领域等等。

所以在语义方面，走向专业化也是一个趋势，图灵机器人是针对通用领域，但目前瓶颈也是在通用型对话领域，图灵机器人技术总监孙永超说：“通用型是没有边界，我们现在能达到80%以上的语义理解准确率，但是达到80%以后，就很难提升了，所以现在图灵机器人下一步的重点将会聚焦在儿童领域。”

在语音与语义领域，我们还存在很多的技术难题，很多时候不只是识别声音，还有场景识别，包括：在家庭里，婴儿的哭声、电话的铃声、还有其他非人的声音等等。这些东西都需要再进行处理。

总之，现在还不能叫人工智能的时代，叫人工智障时代。

因为机器人更擅长大数据，只会计算，不会算计，只有智商，没有情商，现在的机器人还只是冰冷冷的东西，只会用一种调子讲话，离用户的期望还是很大的。

另外，还有降噪问题，目前是没有根本的解决方案，只能做一些技术上的改进。

深圳市中智科创机器人有限公司（简称：中智科创）市场部营销副总经理彭勋禄说：“针对语音与语义，我们也是希望有一家企业能提供解决方案，但是我们发现很难用起来，主要的原因是，我们设计的场景跟客户设计的场景会有很大的区别，如果我们在这上面做二次开发的代价是，比我们自己研发投入，其实是差不多的。”

王昊奋说：“甚至我们自己研发去做，情况还不会更坏，后续产品迭代会更有好处。”

特别是在麦克风阵列上，降噪是绕不过去的问题，如果短期内没有更好的解决方案，那么在成本上是我们需要去突破的。

目前麦克风阵列五麦的价格差不多是200元/个，但是对于做儿童陪伴机器人的企业而言，希望麦克风阵列价格能够控制在100元/个以内，这是需要语音企业去突破的。
[/login]

来源：1号机器人
智造家提供查看全部

对大部分人而言，机器人不能说话，那就不能代表是机器人。但说到机器人的说话能力，那就涉及到智能语音与语义，扯到语音与语义，这是让行业人士都头疼的问题。

虽然我们在实验室里测试，机器人的说话能力可以达到预期的效果，比如，在测试过程中，你问一个问题，机器人回答一个问题，这基本上符合要求。

但是要让机器人进入终端各种市场，面临的问题是非常大的。

主要是噪音问题，语音企业说在安静的场所下，语音的识别率可以达到95%以上，但是在现实生活中，到处充满着噪音，所以很难达到要求。

从一线市场反应的情况是，就算机器人进入到家庭，一个是电视机的播放声，导致机器人经常被唤醒；一个是让机器人处在一个四周都是玻璃门的环境中，识音效果是非常糟糕的；另外，我们人与人之间的对话是有停顿的，但是与机器人之间的对话还要控制好停顿的时间，需要把语言整理的比较顺畅才可以。

所以种种原因导致机器人进入终端市场，体验感非常差。这就是目前我们所面临的情况。

在这次1号机器人网研讨会上，很多嘉宾都清楚语音与语义的问题点出在哪里，虽然现在我们把智能语音分成语音与语义，但是这两者都将归为统一，这是趋势。

[login]
因为在产品使用的过程中，用户不能容忍语音编出来的文字，是非常不准确的，如果错误率高，那就是一个伪功能的产品。

所以不管是语音或语义企业，去收购团队也好，还是自己研发也好，语音与语义终归要一体化。

另外，大部分机器人企业基本上都接触过主流的语音与语义企业，都清楚每家都各有优缺点，例如：深圳市捷通华声科技有限公司（简称：捷通华声）可以对语言模型进行定制，在这一点上，科大讯飞股份有限公司（简称：科大讯飞）可以提供声学定制，但对于语言模型就显得很尴尬。

当我们用语音模型的时候，在音、字完全不对的情况下，这些东西就只能在后台纠错，这个纠错本身就是数据。

总的来说，目前不管是语音企业还是语义企业，提供产品还是很难达到预期效果的，深圳市狗尾草智能科技有限公司（简称：狗尾草）CTO王昊奋说：“很多情况下，不能单靠语音企业，语音企业要更加的开放，然后语义企业需要更积极的往前端迈一步，只有双方交集更紧密，这个生态圈才会更好。”

另外在语义方面，小i机器人是走在行业的前面，因为数据库很庞大，但对于机器人企业而言，不需要这么多的数据库，因为产品基本上都是场景驱动，只要达到听的少，说的自然就足够了。

从机器人企业这边反馈而来，其实现在语音企业的解决方案都很类似，在技术差不多的情况下，优势就体现在数据库。

在数据库方面，各家都有自己的优势，例如：科大讯飞的优势体现在教育领域，捷通华声的优势体现在高铁领域，苏州思必驰信息科技有限公司（简称“思必驰”）优势体现在车载领域，北京云知声信息技术有限公司（简称：云知声）的优势在医院应用领域等等。

所以在语义方面，走向专业化也是一个趋势，图灵机器人是针对通用领域，但目前瓶颈也是在通用型对话领域，图灵机器人技术总监孙永超说：“通用型是没有边界，我们现在能达到80%以上的语义理解准确率，但是达到80%以后，就很难提升了，所以现在图灵机器人下一步的重点将会聚焦在儿童领域。”

在语音与语义领域，我们还存在很多的技术难题，很多时候不只是识别声音，还有场景识别，包括：在家庭里，婴儿的哭声、电话的铃声、还有其他非人的声音等等。这些东西都需要再进行处理。

总之，现在还不能叫人工智能的时代，叫人工智障时代。

因为机器人更擅长大数据，只会计算，不会算计，只有智商，没有情商，现在的机器人还只是冰冷冷的东西，只会用一种调子讲话，离用户的期望还是很大的。

另外，还有降噪问题，目前是没有根本的解决方案，只能做一些技术上的改进。

深圳市中智科创机器人有限公司（简称：中智科创）市场部营销副总经理彭勋禄说：“针对语音与语义，我们也是希望有一家企业能提供解决方案，但是我们发现很难用起来，主要的原因是，我们设计的场景跟客户设计的场景会有很大的区别，如果我们在这上面做二次开发的代价是，比我们自己研发投入，其实是差不多的。”

王昊奋说：“甚至我们自己研发去做，情况还不会更坏，后续产品迭代会更有好处。”

特别是在麦克风阵列上，降噪是绕不过去的问题，如果短期内没有更好的解决方案，那么在成本上是我们需要去突破的。

目前麦克风阵列五麦的价格差不多是200元/个，但是对于做儿童陪伴机器人的企业而言，希望麦克风阵列价格能够控制在100元/个以内，这是需要语音企业去突破的。
[/login]

来源：1号机器人
智造家提供

1 推荐

526 浏览

0评论

可视化1300个故事揭秘6种情节套路

智能化

数据分析

可视化故事

机械自动化类密泰传动系统 2016-10-31 16:29 发表了文章来自相关话题

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根（Andrew Reagan）和他的研究团队用情绪分析绘制了约1300多个故事的情感线，然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中，安德鲁·里根和他的研究团队发现，形成复杂叙事的基石仅仅源自于六种核心故事线。

◆ ◆ ◆

导言

人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在，随着计算能力、语言处理和文本数字化三种技术方面的改善，以文字“大数据”来研究某种文化成为了可能。

正如美国作家库尔特·冯内古特（Kurt Vonnegut）曾经说过的那样：“这些故事都有着美丽而方便计算的格式，没有理由说我们不能把它们套进计算机的算法里去。”

图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

（注：整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析：Hedonometer / Andy Reagan / Kirsch）

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根（Andrew Reagan）和他的研究团队用情绪分析绘制了约1300多个故事的情感线，然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中，安德鲁·里根和他的研究团队发现，形成复杂叙事的基石仅仅源自于六种核心故事线。

这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据，并由此解开了讲故事之所以能够吸引人们的本质特征。

◆ ◆ ◆

实验展示

科学家收集了1327本书作为样本，这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事（P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的）。为了生成样本书的情感线，研究者将文本分为了一个个10000的小块，并分析每个小块里的所表达的感情。（如图2所示)

图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

六种基本故事线形态分别为：

1.“白手起家”（故事线主要特征形态为：上升）

2.“悲剧”或“凤凰变麻雀”（故事线主要特征形态为：下降）

3.“陷入困境的人”（故事线主要特征形态为：先降后升）

4.“伊卡洛斯” （故事线主要特征形态为：先升后降）（P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时，因飞得太高，双翼上的蜡遭太阳融化跌落水中丧生，被埋葬在一个海岛上。）

5.“灰姑娘”（故事线主要特征形态为：先升后降再升）

6.“俄狄浦斯”（故事线主要特征形态为：先降后升再降）（P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下，杀死了自己的父亲并娶了自己的母亲。）

图3 六种基本故事线的形态展示
（注：从左至右从上到下依次为：“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析：Reagan et. al/ University of Vermont）

◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后，又进一步观察了情感线与其故事下载量之间的关系，并据此探索最受欢迎的情感故事线类型。最终的研究结果显示，最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。

另外，把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上，研究结果显示，最受欢迎的故事往往是连续两次出现“陷入困境的人”的，还有“灰姑娘”紧接一个“悲剧”的故事。

来源：大数据文摘

智造家提供
查看全部

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根（Andrew Reagan）和他的研究团队用情绪分析绘制了约1300多个故事的情感线，然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中，安德鲁·里根和他的研究团队发现，形成复杂叙事的基石仅仅源自于六种核心故事线。

◆ ◆ ◆

导言

人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在，随着计算能力、语言处理和文本数字化三种技术方面的改善，以文字“大数据”来研究某种文化成为了可能。

正如美国作家库尔特·冯内古特（Kurt Vonnegut）曾经说过的那样：“这些故事都有着美丽而方便计算的格式，没有理由说我们不能把它们套进计算机的算法里去。”

图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

（注：整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析：Hedonometer / Andy Reagan / Kirsch）

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根（Andrew Reagan）和他的研究团队用情绪分析绘制了约1300多个故事的情感线，然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中，安德鲁·里根和他的研究团队发现，形成复杂叙事的基石仅仅源自于六种核心故事线。

这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据，并由此解开了讲故事之所以能够吸引人们的本质特征。

◆ ◆ ◆

实验展示

科学家收集了1327本书作为样本，这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事（P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的）。为了生成样本书的情感线，研究者将文本分为了一个个10000的小块，并分析每个小块里的所表达的感情。（如图2所示)

图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

六种基本故事线形态分别为：

1.“白手起家”（故事线主要特征形态为：上升）

2.“悲剧”或“凤凰变麻雀”（故事线主要特征形态为：下降）

3.“陷入困境的人”（故事线主要特征形态为：先降后升）

4.“伊卡洛斯” （故事线主要特征形态为：先升后降）（P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时，因飞得太高，双翼上的蜡遭太阳融化跌落水中丧生，被埋葬在一个海岛上。）

5.“灰姑娘”（故事线主要特征形态为：先升后降再升）

6.“俄狄浦斯”（故事线主要特征形态为：先降后升再降）（P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下，杀死了自己的父亲并娶了自己的母亲。）

图3 六种基本故事线的形态展示
（注：从左至右从上到下依次为：“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析：Reagan et. al/ University of Vermont）

◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后，又进一步观察了情感线与其故事下载量之间的关系，并据此探索最受欢迎的情感故事线类型。最终的研究结果显示，最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。

另外，把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上，研究结果显示，最受欢迎的故事往往是连续两次出现“陷入困境的人”的，还有“灰姑娘”紧接一个“悲剧”的故事。

来源：大数据文摘

智造家提供

1 推荐

591 浏览

0评论

研究人员或将利用人体传输数据

案例

智能化

大数据

IT软件类 entschuldig 2016-10-21 14:42 发表了文章来自相关话题

随着现代化信息技术的发展，人们对信息安全也是愈发关注，数据安全始终是个热点和难点。如今，指纹识别技术早已在智能手机上普及开来，指纹识别已经成为多数手机的标配，但它们的作用还只限于保障手机本身的安全。

近日，华盛顿大学的研究人员开发的一个新系统，利用手机指纹传感器和笔记本触控板发出的低频信号，穿过人体，用户通过身体接触就可以解锁其他加密设备。

传统的WiFi或蓝牙传输信号的方式，很容易遭到黑客的拦截和攻击。而新系统的身体传输信号的方式则让黑客无从下手，因为他们要找到用户本人才行啦。

研究人员表示，这些带扫描功能的指纹传感器和触控板通常只被当作输入设备来使用，但新开发的系统将其变成输出设备，让它们可以向身体发送信息。

系统的工作原理是利用智能手机指纹传感器或笔记本触控板发出2至10MHz低频信号对一些加密设备进行解锁。这些信号没有办法在空气中传播，但足以穿过人体且不会对人体造成伤害。

目前为止，团队所使用的实验设备有iPhone、联想笔记本电脑触控板和Adafrut电容触控板。他们还在10位身高体重各不相同的人身上进行了实验，结果表明，无论人体是静止还是处于运动状态下，信号的传输都不会受到影响。

智造家提供查看全部

随着现代化信息技术的发展，人们对信息安全也是愈发关注，数据安全始终是个热点和难点。如今，指纹识别技术早已在智能手机上普及开来，指纹识别已经成为多数手机的标配，但它们的作用还只限于保障手机本身的安全。

近日，华盛顿大学的研究人员开发的一个新系统，利用手机指纹传感器和笔记本触控板发出的低频信号，穿过人体，用户通过身体接触就可以解锁其他加密设备。

传统的WiFi或蓝牙传输信号的方式，很容易遭到黑客的拦截和攻击。而新系统的身体传输信号的方式则让黑客无从下手，因为他们要找到用户本人才行啦。

研究人员表示，这些带扫描功能的指纹传感器和触控板通常只被当作输入设备来使用，但新开发的系统将其变成输出设备，让它们可以向身体发送信息。

系统的工作原理是利用智能手机指纹传感器或笔记本触控板发出2至10MHz低频信号对一些加密设备进行解锁。这些信号没有办法在空气中传播，但足以穿过人体且不会对人体造成伤害。

目前为止，团队所使用的实验设备有iPhone、联想笔记本电脑触控板和Adafrut电容触控板。他们还在10位身高体重各不相同的人身上进行了实验，结果表明，无论人体是静止还是处于运动状态下，信号的传输都不会受到影响。

智造家提供

其中之一发表了文章来自相关话题

0 推荐

407 浏览

0评论

专为物联网而设的Wi-Fi、BT、ZigBee无线芯片或模块及其应用.doc

物联网

智能化

工业

案例

机械自动化类爱在有生之年 2016-10-05 09:20 发表了文章来自相关话题

专为物联网而设的Wi-Fi、BT、ZigBee无线芯片或模块及其应用.doc

0 推荐

425 浏览

0评论

中移物联网有限公司“和消防”解决方案.pdf

物联网

智能化

工业

案例

机械自动化类爱在有生之年 2016-10-05 09:20 发表了文章来自相关话题

中移物联网有限公司“和消防”解决方案.pdf

0 推荐

341 浏览

0评论

中国智能家电发展特点及前景趋势分析.docx

物联网

智能化

工业

案例

机械自动化类爱在有生之年 2016-10-05 09:20 发表了文章来自相关话题

中国智能家电发展特点及前景趋势分析.docx

0 推荐

594 浏览

0评论

中国智慧农业发展方向及策略分析.docx

物联网

智能化

工业

案例

机械自动化类爱在有生之年 2016-10-05 09:19 发表了文章来自相关话题

中国智慧农业发展方向及策略分析.docx

0 推荐

443 浏览

0评论

中国特色智慧城市建设思路与规划.doc

物联网

智能化

工业

案例

机械自动化类爱在有生之年 2016-10-05 09:19 发表了文章来自相关话题

中国特色智慧城市建设思路与规划.doc

年月