计算机视觉探奇

4 推荐

617 浏览

0评论

2016年欧洲计算机视觉大会纪要（ECCV’16 Recap）

智能时代

智能化

计算机视觉探奇

设计类集运物流 2016-11-08 13:00 发表了文章来自相关话题

计算机视觉（Computer Vision, CV）是人工智能领域的一个重要研究子领域。随着近年来 CV 学界研究成果在业界产生的巨大产业影响，计算机视觉受到越来越多的关注。机器之心曾整理报道过ECCV‘2016的各项最佳论文奖。本文为机器之心专栏作者魏秀参记录下的大会纪要。

同计算机其他研究领域一样，CV 依然有着较浓厚的「会议情节」，其中每年一届的 Computer Vision and Pattern Recognition (CVPR)、两年一届的 International Conference on Computer Vision (ICCV) 和同样两年一届的 European Conference on Computer Vision (ECCV) 并称 CV 领域的三大顶会，其中 ICCV 和 ECCV 奇偶年交替召开。

笔者有幸参加了 2016 年欧洲计算机视觉大会（ECCV 2016），在此将大会纪要同大家分享。

本次 ECCV 在素有「北方威尼斯」之称的荷兰迷幻浪漫都市阿姆斯特丹举办，会议历时九天（10 月 8 日至 10 月 16 日），可谓「饕餮盛宴」，其中主会从 11 日到 14 日持续四天，其余时间为 workshop 日程。值得一提的是，多媒体领域顶会 ACM Multimedia（ACM MM）于 15 日至 19 日接续 ECCV，同样在阿姆斯特丹举办，真是让人过足了 AI 瘾。此外，城市中不时弥漫开来的大麻气味无疑给这两大会徒添了一种别样的神秘气息。

ECCV 主会

本次 ECCV 主会在始建于 1887 年的皇家剧场 Carré举行，注册参会人数约 1700 人。有效投稿数为 1561 篇，共 74 位 Area Chairs 和 1163 位审稿人（Reviewers），录用论文 415 篇，录用比例 26.6％，其中 28 篇为 Oral（占 1.8%），45 篇为 Spotlight（2.9%）。收录论文的主题仍然延续传统，覆盖了计算机视觉和模式识别的各个方向，包括：

3D computer vision

Computational photography, sensing and displayFace and gestureLow-level vision and image processingMotion and trackingOptimization methodsPhysics-based vision, photometry and shape-from-XRecognition: detection, categorization, indexing, matchingSegmentation, grouping and shape representationStatistical methods and learningVideo: events, activities and surveillanceApplications

其中，深度学习（DL）、3D、视频相关等为热门方向。而审稿人方面，也是 DL、3D 等方向审稿人居多，特别是深度学习，异军突起。（PS：但是审稿人多并不一定是好事。由于不同研究背景的研究人员都进入 DL 领域，导致 DL 审稿人给出的审稿意见参差不齐，不同意见间的「方差」很大。）相比之下，审稿人最少的 Sensors 领域人数只是 DL 的七分之一。

主会日程基本半天一个单元，每个单元中前场分别是 Oral 和 Spotlight 报告，接下来则是 Poster 环节。有关 Oral、Spotlight 和 Poster paper 具体内容可参见 ECCV 2016 主页。

ECCV Workshops

本次依托 ECCV 举办的 workshop 共有 26 个，一些在当地酒店举办，一些在阿姆斯特丹大学举办。Workshop 中比较吸引人眼球的还属「Joint ImageNet and MS COCO Visual Recognition Challenge」了。这次 ImageNet 竞赛比较显著的一个特征即今年的获胜者基本是华人团队，如商汤（SenseTime）、海康威视（HIK Vision）、360 AI，公安部三所等。另外，比赛结果中并未见 Google、微软、百度等公司的身影。在此也祝贺在各项比赛细类中取得名次的队伍！

另外，笔者也有幸作为 team director 参加了 Apparent Personality Analysis 竞赛，历时两个多月，我们的参赛队（NJU-LAMDA）在 86 个参赛者，其中包括有印度「科学皇冠上的瑰宝」之称的 Indian Institutes of Technology（IIT）和荷兰名校 Radboud University 等劲旅中脱引而出，斩获第一。关于竞赛细节，可参看近期我们发布在「深度学习大讲堂」的竞赛经验分享。

晚宴和颁奖

由于阿姆斯特丹是运河城市且沿海，ECCV 晚宴特地选定在「Ocean Diva 号」游轮上举行。各国人工智能研究者济济一堂，好不热闹！只是「晚宴」并不如我们想象中的中式会议晚宴那么丰富甚至奢华，国外会议晚宴一般都是以啤酒、饮料穿插以小吃、汉堡为主。

晚宴的重要时刻即大会颁奖，本次的最佳论文及提名，和最佳学生论文均授予了传统计算机视觉研究问题，而非深度学习。一则可以看出深度学习相关研究目前难度日益加大，欲做出有突破性进展的工作不易；二则可以看出 CV 大佬有意扶持传统研究问题，维护 CV 生态平衡，不致 DL 一家独大。

另外，Koenderink Prize（ECCV「十年最佳论文」）授予了著名的 SURF: Speeded up robust features (ECCV 2006) (Herbert Bay, Tinne Tuytelaars and Luc Van Gool) 和 Machine learning for high-speed corner detection (ECCV 2006) (Edward Rosten and Tom Drummond)。值得一提的是，在宣布 SURF 获奖之际当即引来一片欢呼，可见其工作深入人心之甚。PAMI Everingham Prize（CV 领域的最佳贡献奖）分别授予了 ImageNet 数据集团队和 Ramin Zabih 以表彰其在开源数据集，和服务 Computer Vision Foundation 上的卓越贡献。

干货时间

开会数日，笔者有心记录了一些会议观察，在此与君共享。不过受个人研究兴趣影响，以上内容不免有所偏颇，望诸君选择性参考。

1. 这次会上大佬们如 Jitendra, Cordelia 在力推 self-supervised learning（基于 robot 反馈机制，例如，机械手臂戳一下物体，从 sensor 或视频中获得反馈，可以看作是用 robot 来探知世界吧），最近 arxiv 也有一篇类似的 https://arxiv.org/abs/1605.07157；另外，很多利用 side information，如利用声音辅助视觉，这样的工作在本次 ECCV 上也屡见不鲜；

2. 冠名弱监督学习（Weakly supervised learning）的工作非常多了，但是「弱监督」的内涵却是个圆其说，不像机器学习中有明确的定义；因此，以后基于弱监督设定的计算机视觉问题还应该有做的空间；

3. 底层视觉（Low-level vision）问题／任务极少，几乎没有，不像 ICCV 2015 还有若干篇的样子；而且一些工作开始用 DL 去做 low-level vision 的东西，比如 Ming-Hsuan Yang 在这次会上的两篇利用 DL 技术学习底层视觉中的滤波器（Filters）。

4. 传统细粒度图像相关工作几乎没有，只有一篇做细粒度图像任务的新问题，即细粒度场景图像分类（Fine-grained scene classification）；

5. 有两篇 image colorization 作为 oral paper，不知是否是巧合；

6. Question answering 这类问题相比 ICCV 少了很多，但隐式做 visual-text 的工作还是占了一定比例；

7. 下面几篇文章做的问题比较有趣：

a) Amodal instance segmentation, Ke Li and Jitendra Malik.（构造新数据集，做了新问题）
b) Automatic Attribute Discovery with Neural Activations, Sirion Vittayakorn, University of North Carolina at Chapel Hill; Takayuki Umeda, NTT; Kazuhiko Murasaki, NTT; Kyoko Sudo, NTT; Takayuki Okatani, Tohoku University; Kota Yamaguchi, Tohoku University
c) Pixel-Level Domain Transfer, Donggeun Yoo, KAIST; Namil Kim, KAIST; Sunggyun Park, KAIST; Anthony Paek, Lunit Inc.; In So Kweon, KAIST (根据衣服生成买家秀，或反过来，在真实场景下，从模特照片中生成产品照片)

最后，总结来说，这次参会最明显也是最微妙的一个感受就是，多数工作在开会前都没有看过。而不像前两年参加顶会时发现绝大多数文章已经是 arxiv 上读过很久的工作，甚至已经跑过源码，去开会也只是和作者当面聊聊天，甚至当时还有一种顶会更新速度落后于 arxiv 的感受。ECCV'16 这一现象恰恰说明深度学习研究的发展慢慢从当初的白炽化走向正常化，从着急忙慌的在 arxiv 上占坑走向踏踏实实的顶会发表。另外也从侧面显示了深度学习研究难度的提升，就拿 arxiv 举例，一年前几乎每天都能看到有令人 exciting 的文章更新出来，而近期不仅发布文章的数量有所下降，重要的是有趣的文章更是难得一见。这次会上也与众多老友把酒言欢，同时也认识了很多新朋友，期待下次的 CV 大趴，我们 CVPR'17 再见。

10 月 30 日于澳大利亚阿德莱德

（题图为笔者摄于 Zaandam 风车村）

作者简介：

魏秀参：南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并多次获得国际计算机视觉相关竞赛冠亚军，另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等. 微博 ID：Wilson_NJUer

来源：机器之心
智造家提供查看全部

本次 ECCV 在素有「北方威尼斯」之称的荷兰迷幻浪漫都市阿姆斯特丹举办，会议历时九天（10 月 8 日至 10 月 16 日），可谓「饕餮盛宴」，其中主会从 11 日到 14 日持续四天，其余时间为 workshop 日程。值得一提的是，多媒体领域顶会 ACM Multimedia（ACM MM）于 15 日至 19 日接续 ECCV，同样在阿姆斯特丹举办，真是让人过足了 AI 瘾。此外，城市中不时弥漫开来的大麻气味无疑给这两大会徒添了一种别样的神秘气息。

ECCV 主会

本次 ECCV 主会在始建于 1887 年的皇家剧场 Carré举行，注册参会人数约 1700 人。有效投稿数为 1561 篇，共 74 位 Area Chairs 和 1163 位审稿人（Reviewers），录用论文 415 篇，录用比例 26.6％，其中 28 篇为 Oral（占 1.8%），45 篇为 Spotlight（2.9%）。收录论文的主题仍然延续传统，覆盖了计算机视觉和模式识别的各个方向，包括：

3D computer vision

Computational photography, sensing and display
Face and gesture
Low-level vision and image processing
Motion and tracking
Optimization methods
Physics-based vision, photometry and shape-from-X
Recognition: detection, categorization, indexing, matching
Segmentation, grouping and shape representation
Statistical methods and learning
Video: events, activities and surveillance
Applications

其中，深度学习（DL）、3D、视频相关等为热门方向。而审稿人方面，也是 DL、3D 等方向审稿人居多，特别是深度学习，异军突起。（PS：但是审稿人多并不一定是好事。由于不同研究背景的研究人员都进入 DL 领域，导致 DL 审稿人给出的审稿意见参差不齐，不同意见间的「方差」很大。）相比之下，审稿人最少的 Sensors 领域人数只是 DL 的七分之一。

主会日程基本半天一个单元，每个单元中前场分别是 Oral 和 Spotlight 报告，接下来则是 Poster 环节。有关 Oral、Spotlight 和 Poster paper 具体内容可参见 ECCV 2016 主页。

ECCV Workshops

本次依托 ECCV 举办的 workshop 共有 26 个，一些在当地酒店举办，一些在阿姆斯特丹大学举办。Workshop 中比较吸引人眼球的还属「Joint ImageNet and MS COCO Visual Recognition Challenge」了。这次 ImageNet 竞赛比较显著的一个特征即今年的获胜者基本是华人团队，如商汤（SenseTime）、海康威视（HIK Vision）、360 AI，公安部三所等。另外，比赛结果中并未见 Google、微软、百度等公司的身影。在此也祝贺在各项比赛细类中取得名次的队伍！

另外，笔者也有幸作为 team director 参加了 Apparent Personality Analysis 竞赛，历时两个多月，我们的参赛队（NJU-LAMDA）在 86 个参赛者，其中包括有印度「科学皇冠上的瑰宝」之称的 Indian Institutes of Technology（IIT）和荷兰名校 Radboud University 等劲旅中脱引而出，斩获第一。关于竞赛细节，可参看近期我们发布在「深度学习大讲堂」的竞赛经验分享。

晚宴和颁奖

由于阿姆斯特丹是运河城市且沿海，ECCV 晚宴特地选定在「Ocean Diva 号」游轮上举行。各国人工智能研究者济济一堂，好不热闹！只是「晚宴」并不如我们想象中的中式会议晚宴那么丰富甚至奢华，国外会议晚宴一般都是以啤酒、饮料穿插以小吃、汉堡为主。

晚宴的重要时刻即大会颁奖，本次的最佳论文及提名，和最佳学生论文均授予了传统计算机视觉研究问题，而非深度学习。一则可以看出深度学习相关研究目前难度日益加大，欲做出有突破性进展的工作不易；二则可以看出 CV 大佬有意扶持传统研究问题，维护 CV 生态平衡，不致 DL 一家独大。

另外，Koenderink Prize（ECCV「十年最佳论文」）授予了著名的 SURF: Speeded up robust features (ECCV 2006) (Herbert Bay, Tinne Tuytelaars and Luc Van Gool) 和 Machine learning for high-speed corner detection (ECCV 2006) (Edward Rosten and Tom Drummond)。值得一提的是，在宣布 SURF 获奖之际当即引来一片欢呼，可见其工作深入人心之甚。PAMI Everingham Prize（CV 领域的最佳贡献奖）分别授予了 ImageNet 数据集团队和 Ramin Zabih 以表彰其在开源数据集，和服务 Computer Vision Foundation 上的卓越贡献。

干货时间

开会数日，笔者有心记录了一些会议观察，在此与君共享。不过受个人研究兴趣影响，以上内容不免有所偏颇，望诸君选择性参考。

1. 这次会上大佬们如 Jitendra, Cordelia 在力推 self-supervised learning（基于 robot 反馈机制，例如，机械手臂戳一下物体，从 sensor 或视频中获得反馈，可以看作是用 robot 来探知世界吧），最近 arxiv 也有一篇类似的 https://arxiv.org/abs/1605.07157；另外，很多利用 side information，如利用声音辅助视觉，这样的工作在本次 ECCV 上也屡见不鲜；

2. 冠名弱监督学习（Weakly supervised learning）的工作非常多了，但是「弱监督」的内涵却是个圆其说，不像机器学习中有明确的定义；因此，以后基于弱监督设定的计算机视觉问题还应该有做的空间；

3. 底层视觉（Low-level vision）问题／任务极少，几乎没有，不像 ICCV 2015 还有若干篇的样子；而且一些工作开始用 DL 去做 low-level vision 的东西，比如 Ming-Hsuan Yang 在这次会上的两篇利用 DL 技术学习底层视觉中的滤波器（Filters）。

4. 传统细粒度图像相关工作几乎没有，只有一篇做细粒度图像任务的新问题，即细粒度场景图像分类（Fine-grained scene classification）；

5. 有两篇 image colorization 作为 oral paper，不知是否是巧合；

6. Question answering 这类问题相比 ICCV 少了很多，但隐式做 visual-text 的工作还是占了一定比例；

7. 下面几篇文章做的问题比较有趣：

a) Amodal instance segmentation, Ke Li and Jitendra Malik.（构造新数据集，做了新问题）
b) Automatic Attribute Discovery with Neural Activations, Sirion Vittayakorn, University of North Carolina at Chapel Hill; Takayuki Umeda, NTT; Kazuhiko Murasaki, NTT; Kyoko Sudo, NTT; Takayuki Okatani, Tohoku University; Kota Yamaguchi, Tohoku University
c) Pixel-Level Domain Transfer, Donggeun Yoo, KAIST; Namil Kim, KAIST; Sunggyun Park, KAIST; Anthony Paek, Lunit Inc.; In So Kweon, KAIST (根据衣服生成买家秀，或反过来，在真实场景下，从模特照片中生成产品照片)

最后，总结来说，这次参会最明显也是最微妙的一个感受就是，多数工作在开会前都没有看过。而不像前两年参加顶会时发现绝大多数文章已经是 arxiv 上读过很久的工作，甚至已经跑过源码，去开会也只是和作者当面聊聊天，甚至当时还有一种顶会更新速度落后于 arxiv 的感受。ECCV'16 这一现象恰恰说明深度学习研究的发展慢慢从当初的白炽化走向正常化，从着急忙慌的在 arxiv 上占坑走向踏踏实实的顶会发表。另外也从侧面显示了深度学习研究难度的提升，就拿 arxiv 举例，一年前几乎每天都能看到有令人 exciting 的文章更新出来，而近期不仅发布文章的数量有所下降，重要的是有趣的文章更是难得一见。这次会上也与众多老友把酒言欢，同时也认识了很多新朋友，期待下次的 CV 大趴，我们 CVPR'17 再见。

10 月 30 日于澳大利亚阿德莱德

（题图为笔者摄于 Zaandam 风车村）

作者简介：

魏秀参：南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并多次获得国际计算机视觉相关竞赛冠亚军，另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等. 微博 ID：Wilson_NJUer

来源：机器之心
智造家提供

1 推荐

473 浏览

0评论

“无中生有”计算机视觉探奇

案例

智能视觉

人工智能

“无中生有”

计算机视觉探奇

机械自动化类我是谁 2016-09-23 16:25 发表了文章来自相关话题

计算机视觉（Computer Vision，CV）是一门研究如何使机器“会看”的科学。1963年来自MIT的Larry Roberts发表了该领域第一篇博士论文《Machine Perception of Three-Dimensional Solids》，标志着CV作为一门新兴人工智能方向研究的开始。在发展了50多年后的今天，我们就来聊聊最近让计算机视觉拥有“无中生有”能力的几个有趣尝试：
超分辨率重建；图像着色看图说话；人像复原；图像自动生成。

可以看出，这五个尝试层层递进，难度和趣味程度也逐步提升。由于篇幅有限，本文在此只谈视觉问题，不提太过具体的技术细节，若大家对某部分感兴趣，以后再来单独写文章讨论。

◆ ◆ ◆

超分辨率重建（Image Super-Resolution）

去年夏天，一款名为“waifu 2x”的岛国应用在动画和计算机图形学中着实火了一把。waifu 2x借助深度“卷积神经网络”(Convolutional Neural Network，CNN)技术，可以将图像的分辨率提升2倍，同时还能对图像进行降噪。简单来说，就是让计算机“无中生有”地填充一些原图中并没有的像素，从而让漫画看起来更清晰真切。大家不妨看看图1、图2，真想童年时候看的就是如此高清的龙珠啊！

不过需要指出的是，图像超分辨率的研究始于2009年左右，只是得力于“深度学习”的发展，waifu 2x才可以做出更好的效果。在具体训练CNN时，输入图像为原分辨率，而对应的超分辨率图像则作为目标，以此构成训练的“图像对”（Image Pair），经过模型训练便可得到超分辨率重建模型。waifu 2x的深度网络原型基于香港中文大学汤晓欧教授团队的成果（如图3所示）。有趣的是，这一研究指出可以用传统方法给予深度模型以定性的解释。在图3中，低分辨率图像通过CNN的卷积（Convolution）和池化（Pooling）操作后可以得到抽象后的特征图（Feature Map）。基于低分辨率特征图，同样可以利用卷积和池化实现从低分辨率到高分辨率特征图的非线性映射（Non-Linear Mapping）。最后的步骤则是利用高分辨率特征图重建高分辨率图像。实际上，这三个步骤与传统超分辨率重建方法的三个过程是一致的。

图3 超分辨率重建算法流程。从左至右依次为：低分辨率图像（输入）、经过若干卷积和池化操作得到的低分辨率特征图、低分辨率特征图经过非线性映射得到的高分辨率特征图、高分辨率重建图像（输出）

◆ ◆ ◆
图像着色（Image Colorization）

顾名思义，图像着色是将原本“没有”颜色的黑白图像进行彩色填充。图像着色同样借助卷积神经网络，输入为黑白和对应彩色图像的“图像对”，但仅仅通过对比黑白像素和RGB像素来确定填充的颜色，效果欠佳。因为颜色填充的结果要符合我们的认知习惯，比如，把一条“汪星人”的毛涂成鲜绿色就会让人觉得很怪异。于是近期，早稻田大学发表在2016年计算机图形学国际顶级会议SIGGRAPH上的一项工作就在原来深度模型的基础上，加入了“分类网络”来预先确定图像中物体的类别，以此为“依据”再做以颜色填充。图4就分别展示了模型结构图和颜色恢复示例，其恢复效果还是颇为逼真的。另外，此类工作还可用于黑白电影的颜色恢复，操作时只需简单将视频中逐帧拿来做着色即可。

图4 图像着色的深度学习网络结构和效果。输入黑白图像后即分为两支，上侧一支用于图像着色，下侧一支用于图像分类。在图中红色部分（Fusion layer），两支的深度特征信息进行融合，由于包含了分类网络特征，因此可以起到“用分类结果为依据辅助图像着色”的效果

◆ ◆ ◆
看图说话（Image Caption）

人们常说“图文并茂”，文字是除图像之外另一种描述世界的方式。近期，一项名为“Image Caption”的研究逐渐升温起来，其主要目的是通过计算机视觉和机器学习的方法实现对一张图像自动地生成人类自然语言的描述，即“看图说话”。一般来讲，在Image Caption中，CNN用来获取图像的特征，接着将图像特征作为语言模型LSTM（RNN的一种）的输入，整体作为一个End-to-End的结构进行联合训练，最终输出对图像的语言描述（如图5所示）。

图5 Image Caption网络结构。图像作为输入，首先经过微调后的多标记（Multi-Label）分类网络得到预测的类别标签，并以此连同图像的深度特征作为下方语言模型LSTM的输入，最终进行联合训练。下图左一可完成Image Caption任务，左2为单个单词图像问答任务，右1为句子级别的图像问答任务

◆ ◆ ◆
人像复原（Sketch Inversion）

就在六月初，荷兰科学家在arXiv上发布了他们的最新研究成果——通过深度网络对人脸轮廓图进行“复原”。如图6所示，在模型训练阶段，首先对真实的人脸图像利用传统的线下边缘化方法获得对应人脸的轮廓图，并以原图和轮廓图组成的“图像对”作为深度网络的输入，进行类似超分辨率重建的模型训练。在预测阶段，输入为人脸轮廓（左二Sketch），经过卷积神经网络的层层抽象和后续的“还原”操作，可以逐步把相片般的人脸图像复原出来（右一），与最左边的人脸真实图像对比，足够以假乱真。在模型流程图下还另外展示了一些人像复原的结果，左侧一列为真实人像，中间列为画家手工描绘的人脸轮廓图，并以此作为网络输入进行人像复原，最终得到右侧一列的复原结果——目测以后刑侦警察再也不用苦练美术了。

◆ ◆ ◆
图像自动生成

回顾刚才的四个工作，其实它们的共同点是仍然需要依靠一些“素材”方可“无中生有”，例如“人像复原”还是需要一个轮廓画才可以恢复人像。接下来的这个工作则可以做到由任意一条随机向量生成一张逼近真实场景的图像。

“无监督学习”可谓是计算机视觉领域的圣杯。最近该方向的一项开创性工作是由Ian Goodfellow和Yoshua Bengio等提出的“生成对抗网络”（Generative Adversarial Nets, GAN）。该工作的灵感来自博弈论中的零和博弈。在二元零和博弈中，两位博弈方的利益之和为零或一个常数，即一方有所得，另一方必有所失。而GAN中的两位博弈方分别由一个“判别式网络”和一个“生成式网络”充当，如图7所示。

其中，“判别式网络”的输入为图像，其作用为判断一张图像是真实的，还是由计算机生成的像；“生成式网络”的输入为一条随机向量，可以通过网络“生成”一张合成图像。这张合成图像亦可作为“判别式网络”的输入，只是此时，在理想情况下应能判断出它是由计算机生成的。

接下来，GAN中的零和博弈就发生在“判别式网络”和“生成式网络”上：“生成式网络”想方设法的让自己生成的图像逼近真实图像，从而可以“骗过”“判别式网络”；而“判别式网络”也时刻提高警惕，防止“生成式网络”蒙混过关……你来我往，如此迭代下去，颇有点“左右互搏”的意味。GAN整个过程的最终目标是习得一个可以逼近真实数据分布的“生成式网络”，从而掌握整体真实数据的分布情况，因此取名“生成对抗网络”。需要强调的是，GAN不再像传统的监督式深度学习那样需要海量带有类别标记的图像，它不需任何图像标记即可训练，也就是进行无监督条件下的深度学习。2016年初，在GAN的基础上，Indico Research和Facebook AI实验室将GAN用深度卷积神经网络进行实现（称作DCGAN，Deep Convolutional GAN），工作发表在国际表示学习重要会议ICLR 2016上，并在无监督深度学习模型中取得了当时最好的效果。图8展示了一些由DCGAN生成的卧室图像。

更为有趣的是，DCGAN还可以像word2vec一样支持图像“语义”层面的加减（如图9所示）。

另外，前些天“生成式计算机视觉”研究领域大牛UCLA的Song-Chun Zhu教授团队发布了他们基于生成式卷积网络的最新工作STGConvNet：它不仅可以自动合成动态纹理，同时还可以合成声音，可以说将无监督计算机视觉又向前推进了一大步。

◆ ◆ ◆
结束语

如今借着“深度学习”的东风，计算机视觉中绝大多数任务的性能表现都被“刷”上了新高，甚至连“人像复原”，“图像生成”类似“无中生有”的奇谈都可以较高质量地实现，着实让人激动不已。不过尽管如此，事实上距离所谓的颠覆人类的AI“奇点”还相当遥远，并且可以预见，现阶段甚至相当长的一段时间内，计算机视觉或人工智能还不可能做到真正意义上的“无中生有”——即拥有“自我意识”。

但是，也非常庆幸我们可以目睹并且经历这次计算机视觉乃至是整个人工智能的革命浪潮，相信今后还会有很多“无中生有”的奇迹发生。站在浪潮之巅，我兴奋不已、彻夜难眠。

文章来源于大数据文摘智造家平台提供查看全部

超分辨率重建；
图像着色
看图说话；
人像复原；
图像自动生成。

可以看出，这五个尝试层层递进，难度和趣味程度也逐步提升。由于篇幅有限，本文在此只谈视觉问题，不提太过具体的技术细节，若大家对某部分感兴趣，以后再来单独写文章讨论。

◆ ◆ ◆

超分辨率重建（Image Super-Resolution）

去年夏天，一款名为“waifu 2x”的岛国应用在动画和计算机图形学中着实火了一把。waifu 2x借助深度“卷积神经网络”(Convolutional Neural Network，CNN)技术，可以将图像的分辨率提升2倍，同时还能对图像进行降噪。简单来说，就是让计算机“无中生有”地填充一些原图中并没有的像素，从而让漫画看起来更清晰真切。大家不妨看看图1、图2，真想童年时候看的就是如此高清的龙珠啊！

不过需要指出的是，图像超分辨率的研究始于2009年左右，只是得力于“深度学习”的发展，waifu 2x才可以做出更好的效果。在具体训练CNN时，输入图像为原分辨率，而对应的超分辨率图像则作为目标，以此构成训练的“图像对”（Image Pair），经过模型训练便可得到超分辨率重建模型。waifu 2x的深度网络原型基于香港中文大学汤晓欧教授团队的成果（如图3所示）。有趣的是，这一研究指出可以用传统方法给予深度模型以定性的解释。在图3中，低分辨率图像通过CNN的卷积（Convolution）和池化（Pooling）操作后可以得到抽象后的特征图（Feature Map）。基于低分辨率特征图，同样可以利用卷积和池化实现从低分辨率到高分辨率特征图的非线性映射（Non-Linear Mapping）。最后的步骤则是利用高分辨率特征图重建高分辨率图像。实际上，这三个步骤与传统超分辨率重建方法的三个过程是一致的。

图3 超分辨率重建算法流程。从左至右依次为：低分辨率图像（输入）、经过若干卷积和池化操作得到的低分辨率特征图、低分辨率特征图经过非线性映射得到的高分辨率特征图、高分辨率重建图像（输出）

◆ ◆ ◆
图像着色（Image Colorization）

顾名思义，图像着色是将原本“没有”颜色的黑白图像进行彩色填充。图像着色同样借助卷积神经网络，输入为黑白和对应彩色图像的“图像对”，但仅仅通过对比黑白像素和RGB像素来确定填充的颜色，效果欠佳。因为颜色填充的结果要符合我们的认知习惯，比如，把一条“汪星人”的毛涂成鲜绿色就会让人觉得很怪异。于是近期，早稻田大学发表在2016年计算机图形学国际顶级会议SIGGRAPH上的一项工作就在原来深度模型的基础上，加入了“分类网络”来预先确定图像中物体的类别，以此为“依据”再做以颜色填充。图4就分别展示了模型结构图和颜色恢复示例，其恢复效果还是颇为逼真的。另外，此类工作还可用于黑白电影的颜色恢复，操作时只需简单将视频中逐帧拿来做着色即可。

图4 图像着色的深度学习网络结构和效果。输入黑白图像后即分为两支，上侧一支用于图像着色，下侧一支用于图像分类。在图中红色部分（Fusion layer），两支的深度特征信息进行融合，由于包含了分类网络特征，因此可以起到“用分类结果为依据辅助图像着色”的效果

◆ ◆ ◆
看图说话（Image Caption）

人们常说“图文并茂”，文字是除图像之外另一种描述世界的方式。近期，一项名为“Image Caption”的研究逐渐升温起来，其主要目的是通过计算机视觉和机器学习的方法实现对一张图像自动地生成人类自然语言的描述，即“看图说话”。一般来讲，在Image Caption中，CNN用来获取图像的特征，接着将图像特征作为语言模型LSTM（RNN的一种）的输入，整体作为一个End-to-End的结构进行联合训练，最终输出对图像的语言描述（如图5所示）。

图5 Image Caption网络结构。图像作为输入，首先经过微调后的多标记（Multi-Label）分类网络得到预测的类别标签，并以此连同图像的深度特征作为下方语言模型LSTM的输入，最终进行联合训练。下图左一可完成Image Caption任务，左2为单个单词图像问答任务，右1为句子级别的图像问答任务

◆ ◆ ◆
人像复原（Sketch Inversion）

就在六月初，荷兰科学家在arXiv上发布了他们的最新研究成果——通过深度网络对人脸轮廓图进行“复原”。如图6所示，在模型训练阶段，首先对真实的人脸图像利用传统的线下边缘化方法获得对应人脸的轮廓图，并以原图和轮廓图组成的“图像对”作为深度网络的输入，进行类似超分辨率重建的模型训练。在预测阶段，输入为人脸轮廓（左二Sketch），经过卷积神经网络的层层抽象和后续的“还原”操作，可以逐步把相片般的人脸图像复原出来（右一），与最左边的人脸真实图像对比，足够以假乱真。在模型流程图下还另外展示了一些人像复原的结果，左侧一列为真实人像，中间列为画家手工描绘的人脸轮廓图，并以此作为网络输入进行人像复原，最终得到右侧一列的复原结果——目测以后刑侦警察再也不用苦练美术了。

◆ ◆ ◆
图像自动生成

回顾刚才的四个工作，其实它们的共同点是仍然需要依靠一些“素材”方可“无中生有”，例如“人像复原”还是需要一个轮廓画才可以恢复人像。接下来的这个工作则可以做到由任意一条随机向量生成一张逼近真实场景的图像。

“无监督学习”可谓是计算机视觉领域的圣杯。最近该方向的一项开创性工作是由Ian Goodfellow和Yoshua Bengio等提出的“生成对抗网络”（Generative Adversarial Nets, GAN）。该工作的灵感来自博弈论中的零和博弈。在二元零和博弈中，两位博弈方的利益之和为零或一个常数，即一方有所得，另一方必有所失。而GAN中的两位博弈方分别由一个“判别式网络”和一个“生成式网络”充当，如图7所示。

其中，“判别式网络”的输入为图像，其作用为判断一张图像是真实的，还是由计算机生成的像；“生成式网络”的输入为一条随机向量，可以通过网络“生成”一张合成图像。这张合成图像亦可作为“判别式网络”的输入，只是此时，在理想情况下应能判断出它是由计算机生成的。

接下来，GAN中的零和博弈就发生在“判别式网络”和“生成式网络”上：“生成式网络”想方设法的让自己生成的图像逼近真实图像，从而可以“骗过”“判别式网络”；而“判别式网络”也时刻提高警惕，防止“生成式网络”蒙混过关……你来我往，如此迭代下去，颇有点“左右互搏”的意味。GAN整个过程的最终目标是习得一个可以逼近真实数据分布的“生成式网络”，从而掌握整体真实数据的分布情况，因此取名“生成对抗网络”。需要强调的是，GAN不再像传统的监督式深度学习那样需要海量带有类别标记的图像，它不需任何图像标记即可训练，也就是进行无监督条件下的深度学习。2016年初，在GAN的基础上，Indico Research和Facebook AI实验室将GAN用深度卷积神经网络进行实现（称作DCGAN，Deep Convolutional GAN），工作发表在国际表示学习重要会议ICLR 2016上，并在无监督深度学习模型中取得了当时最好的效果。图8展示了一些由DCGAN生成的卧室图像。

更为有趣的是，DCGAN还可以像word2vec一样支持图像“语义”层面的加减（如图9所示）。

另外，前些天“生成式计算机视觉”研究领域大牛UCLA的Song-Chun Zhu教授团队发布了他们基于生成式卷积网络的最新工作STGConvNet：它不仅可以自动合成动态纹理，同时还可以合成声音，可以说将无监督计算机视觉又向前推进了一大步。

◆ ◆ ◆
结束语

如今借着“深度学习”的东风，计算机视觉中绝大多数任务的性能表现都被“刷”上了新高，甚至连“人像复原”，“图像生成”类似“无中生有”的奇谈都可以较高质量地实现，着实让人激动不已。不过尽管如此，事实上距离所谓的颠覆人类的AI“奇点”还相当遥远，并且可以预见，现阶段甚至相当长的一段时间内，计算机视觉或人工智能还不可能做到真正意义上的“无中生有”——即拥有“自我意识”。

但是，也非常庆幸我们可以目睹并且经历这次计算机视觉乃至是整个人工智能的革命浪潮，相信今后还会有很多“无中生有”的奇迹发生。站在浪潮之巅，我兴奋不已、彻夜难眠。

文章来源于大数据文摘
智造家平台提供

4 推荐

617 浏览

0评论

2016年欧洲计算机视觉大会纪要（ECCV’16 Recap）

智能时代

智能化

计算机视觉探奇

设计类集运物流 2016-11-08 13:00 发表了文章来自相关话题

Computational photography, sensing and display
Face and gesture
Low-level vision and image processing
Motion and tracking
Optimization methods
Physics-based vision, photometry and shape-from-X
Recognition: detection, categorization, indexing, matching
Segmentation, grouping and shape representation
Statistical methods and learning
Video: events, activities and surveillance
Applications

1 推荐

473 浏览

0评论

“无中生有”计算机视觉探奇

案例

智能视觉

人工智能

“无中生有”

计算机视觉探奇

机械自动化类我是谁 2016-09-23 16:25 发表了文章来自相关话题

超分辨率重建；
图像着色
看图说话；
人像复原；
图像自动生成。

更为有趣的是，DCGAN还可以像word2vec一样支持图像“语义”层面的加减（如图9所示）。

文章来源于大数据文摘
智造家平台提供

更多...

年月

2016年欧洲计算机视觉大会纪要（ECCV’16 Recap）

智能时代

智能化

计算机视觉探奇

“无中生有”计算机视觉探奇

案例

智能视觉

人工智能

“无中生有”

计算机视觉探奇

2016年欧洲计算机视觉大会纪要（ECCV’16 Recap）

智能时代

智能化

计算机视觉探奇

“无中生有”计算机视觉探奇

案例

智能视觉

人工智能

“无中生有”

计算机视觉探奇

标签描述

相关话题

最佳回复者

年 月