本月累计签到次数:

今天获取 积分

图像识别

图像识别

391 浏览

图像传感器的分类及原理

智能制造类 星旭自动化 2016-11-17 19:00 发表了文章 来自相关话题

一、图像传感器的原理

成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上(焦平面),并形成二 维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。图像传感器输出的一维时序信号经过放大和同步控制处理后,送给图像显示器,可以还原并显示二维光学图像。当然,图像传感器与图像显示器之间的信号传输与接收都要遵守一定的规则,这个规则被称为制式。例如,广播电视系统中规定的规则称为电视制式(NTSC、PAL、SECAM),还有其他的一些专用制式。按电视制式输出的——维时序信号被称为视频信号;本节主要讨论从光学图像到视频信号的转换原理,即图像传感器的原理。

定义:成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上,形成二维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。

二、图像传感器的分类

图像传感器,是组成数字摄像头的重要组成部分。根据元件的不同,可分为CCD(Charge Coupled Device,电荷耦合元件)和CMOS(Complementary Metal-Oxide Semiconductor,金属氧化物半导体元件)两大类。

1、CCD图像传感器






1969年,美国贝尔实验室的w.s.boyle与g.e.smith将可视电话和半导体泡存储技术结合,率先发明了CCD (charged coupled device,电荷耦合件)元件本身开始是被当作单纯的存储器使用 。由于它能存储并传输信号电荷,CCD还可以利用内光电效应来拍摄并存储图象,具备图像传感器的功能。

经过30多年研究与开发,CCD在像素集成度、分辨力、灵敏度,工作速度等指标上取得突破性进展,其应用正从一维、二维向三维发展,其光波范围从紫外区到红外区,CCD已成为光子探测及视频采集领域最重要的技术,普遍认为是20世纪70年代以来出现的最重要的半导体器件之一,得到了广泛应用。

如今CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多,这也是市场很多采用USB接口的产品无须外接电源且价格便宜的原因。尽管在技术上有较大的不同,但CCD和CMOS两者性能差距不是很大,只是CMOS摄像头对光源的要求要高一些,但现在该问题已经基本得到解决。目前CCD元件的尺寸多为1/3英寸或者1/4英寸,在相同的分辨率下,宜选择元件尺寸较大的为好。图像传感器又叫感光元件。

2、CCD图像传感器的优势

CCD作为固态图像传感器有体积小、重量轻、分辨率高、灵敏度高、动态范围宽、光敏元的几何精度高、光谱响应范围宽、工作电压低、功耗小、寿命长、抗震性和抗冲击性好、不受电磁场干扰和可靠性高等一系列优点。

具高敏感度,很低光度的入射光也能侦测到,其讯号不会被掩饰,使CCD的利用较不受天候拘谨。 静态范畴广(High Dynamic Range),同时侦测及辨别强光跟弱光,进步体系情况的应用范畴,不因亮度差别年夜而形成旌旗灯号反差景象。 精良的线性特征曲线(Linearity),入射光源强度跟输出讯号年夜小成精良的正比关联,物体资讯不致丧失,下降旌旗灯号弥补处置本钱。

3、CMOS图像传感器






与CCD有着同样历史渊源的CMOS图像传感器是一种典型的固体成像传感器,CMOS图像传感器通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等几部分组成,这几部分通常都被集成在同一块硅片上。其工作过程一般可分为复位、光电转换、积分、读出几部分。

在CMOS图像传感器芯片上还可以集成其他数字信号处理电路,如AD转换器、自动曝光量控制、非均匀补偿、白平衡处理、黑电平控制、伽玛校正等,为了进行快速计算甚至可以将具有可编程功能的DSP器件与CMOS器件集成在一起,从而组成单片数字相机及图像处理系统。

CMOS图像传感器于80年代发明以来,由于当时CMOS工艺制程的技术不高,以致于传感器在应用中的杂讯较大,商品化进程一直较慢。时至今日,CMOS传感器的应用范围也开始非常的广泛,包括数码相机 、PC Camera、影像电话、第三代手机、视讯会议、智能型保全系统、汽车倒车雷达、玩具,以及工业、医疗等用途。在低档产品方面,其画质质量已接近低档CCD的解析度,相关业者希望用CMOS器件取代CCD的努力正在逐渐明朗。CMOS传感器有可细分为:被动式像素传感器CMOS(Passive Pixel Sensor CMOS)与主动式像素传感器CMOS(Active Pixel Sensor CMOS)。

4、CMOS图像传感器的优势

CMOS传感器的最年夜上风,是它存在高度体系整合的前提。实践上,全部图像传感器所需的功效,比方垂直位移、程度位移暂存器、时序把持、CDS、ADC等, 都可放在集成在一颗晶片上, 乃至于全部的晶片包含后端晶片(Back-end Chip)、快闪影象体(Flash RAM)等也可整分解单晶片(SYSTEM-ON-CHIP),以到达下降整机出产本钱的目标。

5、CCD与CMOS图像传感器的区别

CCD和CMOS在制造上的主要区别是CCD是集成在半导体单晶材料上,而CMOS是集成在被称做金属氧化物的半导体材料上,工作原理没有本质的区别。 从制造工艺上说CCD制造工艺较复杂,只有少数几个厂商,如索尼、松下、夏普等掌握这种技术,因此CCD摄像机的价格会相对比较贵。事实上经过技术改造,目前CCD和高级CMOS的实际效果的差距已经非常小了。而且CMOS的制造成本和功耗都要低于CCD,所以很多低档摄像头生产厂商采用普通CMOS感光元件作为核心组件。

成像方面,在相同像素下CCD的成像通透性、明锐度都很好,色彩还原、曝光可以保证基本准确。而普通CMOS的产品往往通透性一般,对实物的色彩还原能力偏弱,曝光也都不太好,由于自身物理特性的原因,普通CMOS的成像质量和CCD还是有一定差距。但由于低廉的价格以及高度的整合性,因此在摄像头领域还是得到了广泛的应用。

在原理上,CMOS的信号是以点为单位的电荷信号,而CCD是以行为单位的电流信号,前者更为敏感,速度也更快,更为省电。现在高级的CMOS并不比一般CCD差,但是CMOS工艺还不是十分成熟,普通的CMOS一般分辨率较低而成像质量也较差。

目前,许多低档入门型的摄像机使用廉价的低档CMOS芯片,成像质量比较差。普及型、高级型及专业型摄像机使用不同档次的CCD,个别专业型或准专业型数码相机使用高级的CMOS芯片。代表成像技术未来发展的X3芯片实际也是一种CMOS芯片。

图像传感器又分为1/2“,1/3”,1/4“之分。1/2最好。目前以1/3和1/4为多。从产品的技术发展趋势看,无论是CCD还是CMOS,其体积小型化及高像素化仍是业界积极研发的目标。因为像素尺寸小则图像产品的分辨率越高、清晰度越好、体积越小,其应用面更广泛。
 
 
 
来源:1号机器人

智造家提供 查看全部
一、图像传感器的原理

成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上(焦平面),并形成二 维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。图像传感器输出的一维时序信号经过放大和同步控制处理后,送给图像显示器,可以还原并显示二维光学图像。当然,图像传感器与图像显示器之间的信号传输与接收都要遵守一定的规则,这个规则被称为制式。例如,广播电视系统中规定的规则称为电视制式(NTSC、PAL、SECAM),还有其他的一些专用制式。按电视制式输出的——维时序信号被称为视频信号;本节主要讨论从光学图像到视频信号的转换原理,即图像传感器的原理。

定义:成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上,形成二维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。

二、图像传感器的分类

图像传感器,是组成数字摄像头的重要组成部分。根据元件的不同,可分为CCD(Charge Coupled Device,电荷耦合元件)和CMOS(Complementary Metal-Oxide Semiconductor,金属氧化物半导体元件)两大类。

1、CCD图像传感器

2.jpg


1969年,美国贝尔实验室的w.s.boyle与g.e.smith将可视电话和半导体泡存储技术结合,率先发明了CCD (charged coupled device,电荷耦合件)元件本身开始是被当作单纯的存储器使用 。由于它能存储并传输信号电荷,CCD还可以利用内光电效应来拍摄并存储图象,具备图像传感器的功能。

经过30多年研究与开发,CCD在像素集成度、分辨力、灵敏度,工作速度等指标上取得突破性进展,其应用正从一维、二维向三维发展,其光波范围从紫外区到红外区,CCD已成为光子探测及视频采集领域最重要的技术,普遍认为是20世纪70年代以来出现的最重要的半导体器件之一,得到了广泛应用。

如今CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多,这也是市场很多采用USB接口的产品无须外接电源且价格便宜的原因。尽管在技术上有较大的不同,但CCD和CMOS两者性能差距不是很大,只是CMOS摄像头对光源的要求要高一些,但现在该问题已经基本得到解决。目前CCD元件的尺寸多为1/3英寸或者1/4英寸,在相同的分辨率下,宜选择元件尺寸较大的为好。图像传感器又叫感光元件。

2、CCD图像传感器的优势

CCD作为固态图像传感器有体积小、重量轻、分辨率高、灵敏度高、动态范围宽、光敏元的几何精度高、光谱响应范围宽、工作电压低、功耗小、寿命长、抗震性和抗冲击性好、不受电磁场干扰和可靠性高等一系列优点。

具高敏感度,很低光度的入射光也能侦测到,其讯号不会被掩饰,使CCD的利用较不受天候拘谨。 静态范畴广(High Dynamic Range),同时侦测及辨别强光跟弱光,进步体系情况的应用范畴,不因亮度差别年夜而形成旌旗灯号反差景象。 精良的线性特征曲线(Linearity),入射光源强度跟输出讯号年夜小成精良的正比关联,物体资讯不致丧失,下降旌旗灯号弥补处置本钱。

3、CMOS图像传感器

3.jpg


与CCD有着同样历史渊源的CMOS图像传感器是一种典型的固体成像传感器,CMOS图像传感器通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等几部分组成,这几部分通常都被集成在同一块硅片上。其工作过程一般可分为复位、光电转换、积分、读出几部分。

在CMOS图像传感器芯片上还可以集成其他数字信号处理电路,如AD转换器、自动曝光量控制、非均匀补偿、白平衡处理、黑电平控制、伽玛校正等,为了进行快速计算甚至可以将具有可编程功能的DSP器件与CMOS器件集成在一起,从而组成单片数字相机及图像处理系统。

CMOS图像传感器于80年代发明以来,由于当时CMOS工艺制程的技术不高,以致于传感器在应用中的杂讯较大,商品化进程一直较慢。时至今日,CMOS传感器的应用范围也开始非常的广泛,包括数码相机 、PC Camera、影像电话、第三代手机、视讯会议、智能型保全系统、汽车倒车雷达、玩具,以及工业、医疗等用途。在低档产品方面,其画质质量已接近低档CCD的解析度,相关业者希望用CMOS器件取代CCD的努力正在逐渐明朗。CMOS传感器有可细分为:被动式像素传感器CMOS(Passive Pixel Sensor CMOS)与主动式像素传感器CMOS(Active Pixel Sensor CMOS)。

4、CMOS图像传感器的优势

CMOS传感器的最年夜上风,是它存在高度体系整合的前提。实践上,全部图像传感器所需的功效,比方垂直位移、程度位移暂存器、时序把持、CDS、ADC等, 都可放在集成在一颗晶片上, 乃至于全部的晶片包含后端晶片(Back-end Chip)、快闪影象体(Flash RAM)等也可整分解单晶片(SYSTEM-ON-CHIP),以到达下降整机出产本钱的目标。

5、CCD与CMOS图像传感器的区别

CCD和CMOS在制造上的主要区别是CCD是集成在半导体单晶材料上,而CMOS是集成在被称做金属氧化物的半导体材料上,工作原理没有本质的区别。 从制造工艺上说CCD制造工艺较复杂,只有少数几个厂商,如索尼、松下、夏普等掌握这种技术,因此CCD摄像机的价格会相对比较贵。事实上经过技术改造,目前CCD和高级CMOS的实际效果的差距已经非常小了。而且CMOS的制造成本和功耗都要低于CCD,所以很多低档摄像头生产厂商采用普通CMOS感光元件作为核心组件。

成像方面,在相同像素下CCD的成像通透性、明锐度都很好,色彩还原、曝光可以保证基本准确。而普通CMOS的产品往往通透性一般,对实物的色彩还原能力偏弱,曝光也都不太好,由于自身物理特性的原因,普通CMOS的成像质量和CCD还是有一定差距。但由于低廉的价格以及高度的整合性,因此在摄像头领域还是得到了广泛的应用。

在原理上,CMOS的信号是以点为单位的电荷信号,而CCD是以行为单位的电流信号,前者更为敏感,速度也更快,更为省电。现在高级的CMOS并不比一般CCD差,但是CMOS工艺还不是十分成熟,普通的CMOS一般分辨率较低而成像质量也较差。

目前,许多低档入门型的摄像机使用廉价的低档CMOS芯片,成像质量比较差。普及型、高级型及专业型摄像机使用不同档次的CCD,个别专业型或准专业型数码相机使用高级的CMOS芯片。代表成像技术未来发展的X3芯片实际也是一种CMOS芯片。

图像传感器又分为1/2“,1/3”,1/4“之分。1/2最好。目前以1/3和1/4为多。从产品的技术发展趋势看,无论是CCD还是CMOS,其体积小型化及高像素化仍是业界积极研发的目标。因为像素尺寸小则图像产品的分辨率越高、清晰度越好、体积越小,其应用面更广泛。
 
 
 
来源:1号机器人

智造家提供
497 浏览

从图像识别到无限可能

机械自动化类 品管人生 2016-11-14 14:09 发表了文章 来自相关话题

Clarifai 是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。
 
Clarifai 是一家独立的图像识别初创公司,总部位于纽约。在 10 月 25 日,它刚刚收获了价值 3000 万美元的 B 轮融资。作为图像识别领域为数不多的独立玩家,Clarifai 已经在成立三年多的时间里率先将图形识别从静态图片带入了接近实时的级别,同时也收获了为数不少的企业客户。
 
这家公司的创始人和首席执行官 Matthew Zeiler 毕业于纽约大学,师从 Rob Fergus,也接受过 Yann LeCun 的指导。对于这家初创公司的领导者来说,他们面临着科技巨头的不对称竞争。但 Zeiler 认为 Clarifai 也有着自己的优势。
 

首席执行官Matthew Zeiler,纽约大学计算机科学博士
 
竞赛冠军
 
一切都要从 Large Scale Visual Recognition Challenge 竞赛说起。
 
2009 年,华人教授 Jia Deng、李飞飞等人建立了 ImageNet,一个巨大的,手动标注的图形数据集,为图像识别领域的研究奠定了基础。在 ImageNet 上,斯坦福大学每年都会邀请全世界图像识别研究者前来比赛,让计算机识别图片中的物体。在 2012 年的比赛中,时任多伦多大学教授的 Hinton 展示了 DeepNet 算法,其超前的准确率引起了轰动。
 
当时,Hinton 的图像识别准确率超过第二名 10%,达到了 83.57%。很快,深度学习被研究者广泛接受,2013 年比赛的前三名全部被深度学习方法的系统包揽,Matthew Zeiler 和他刚成立的 Clarifai 成为冠军,当时的比赛规则是:任选一张图片让算法识别,算法给出五个答案,如果有一个是正确的就算识别正确。Clarifai 的准确率是 88.26%。
 
Clarifai一直保持着他们的领先优势,他们在2015年初宣布,自己的人工智能系统已经可以从视频中识别信息。现在,他们的系统已经可以在大部分单次猜测中都有超过90%的识别率了。技术的不断创新是公司发展的原动力,「监督和无监督学习都应用在我们的图像识别中了。」Zeiler说道。
 

Clarifai 有着多元化的团队
 
自定义的人工智能
 
随着公司的不断发展,Clarifai 的技术和算法正被转化为实际应用,最近他们的两个新产品是视觉搜索和自定义模型。
 
Clarifai 的图片搜索不同于各大搜索引擎中以图搜图的简单应用。在演示中,Zeiler 把自己家狗的照片上传进系统,很快就搜索出大量同一品种的狗。随后,他又加入了第二、第三张图片,让搜索结果更加准确,又在结果中丢掉了不想要的图片,比如其他品种的狗。这种直观的方式不断增加搜索结果的准确性,同时也帮助算法模型进行了训练,整个过程不需要键盘输入,程序更接近智能。不仅如此,如果用鼠标选定图片中的物品,可以直接搜索出类似的物品。
 
自定义模型允许每个人训练属于自己的人工智能。Zeiler 演示了训练 AI 来识别不同的运动品牌(需要经过几轮后台的训练)。他先手动标识出球鞋品牌,然后展示人工智能搜索球鞋品牌的效果。从算法角度来说,训练 AI 和搜索有很多类似之处,他们采用一些技巧索引了每一个条目。Zeiler 搜索了匡威 (converse),不但成功获得了同类运动鞋的图片,还可以看到他的朋友们在社交网络上关于这个话题讨论的内容。
 
他们的产品或许重新定义了搜索。「不久以后,我们也许不再会习惯使用搜索框了。」Zeiler 说。现在其他公司都可以用自定义模型 API 来开发基于人工智能的产品,不需要自己去训练。这很像谷歌曾经提到的概念,将搜索埋入产品深处,对于 Clarifai 而言,现在是将人工智能融入生活的时代了。
 
无限可能性
 
深度学习曾经彻底改变了图像识别领域,但在 Zeiler 眼里,语音识别才是深度学习最先展现其无限潜力的地方,而探究深度学习处理各种任务的方法也是他工作中的最大兴趣。
 
在 Clarifai 的网站上有一个演示区域,在那里你会看到他们的系统已经能在六七秒时间里解析 2 分 50 秒的视频了,这意味着系统可以比人类更快地分析录像中的信息。配合公司推出的专有模型,图像识别技术可以创造无限可能。
 
Zeiler 向机器之心介绍道,在 Clarifai 建立伊始,他们的系统就已经可以识别物品以外的其他元素了,这也是众多开发者和大公司偏爱他们的应用的原因。计算机目前可以理解的抽象概念包括像「幸福」这样的感情,或者描述性语言,例如「风景优美」和「悠闲的」。在 Clarifai 的通用模型中,有超过 11,000 种此类概念可以被识别出来,最近上线的自定义模型就可以让人们自定义 Clarifai 的平台,识别任何东西。
 
现在的 Clarifai 提供人脸识别,NSFW 内容等多种专有模型。「现在我们有七种专有模型,相比其他公司的通用模型,我们能够识别出更多的信息。」Zeiler 说道,「我们的食物模型可以识别上千种食物的成分。」
 
Clarifai 的一个应用场景在纽约市公共图书馆。图书馆公开的历史图片和文件一般会有人工分类的小标签,但是由于名目繁多,人工分类会出现疏漏。Clarifai 在图书馆公开的数据集上使用了自己的系统之后发现,人工智能系统不仅在很多已有条目上和人工分类表现相当,还把很多当年错误的分类给找了出来(例如一些被遗漏有绿色标记的水粉画)。Zeiler 认为在这项应用中的 AI 系统已经超出了人类的表现。
 

纽约市公共图书馆应用场景
 
另一个更有趣的例子来自于公司里的一名员工。这个员工最近生了个大胖小子,他就在婴儿房里安装相机对着摇篮监控。通过训练图像识别系统,他让计算机可以识别宝宝爬出摇床、宝宝坐卧站立、以及不同的姿势睡觉的情形。在无人监管的情况下,摄像头可以自动进行动作判断,这种应用为监控设备的发展指引了方向。
 

[size=12]识别婴儿车内宝宝的演示:宝宝不见了[/size]
 
 

宝宝在站着
 

宝宝睡着了
 
基于以上思路,Clarifai 主动向合作者提供系统核心,与其他公司的开发者们合作,联合所有人探索图像识别的各种可能性,已经获得了不少成果。其中有个让人眼前一亮的应用,是通过社交网络上棒球迷接到棒球的自拍照片(注:棒球比赛当出现本垒打或出界的情况时,球可能会落入观众席,于是便会出现能接到球的观众;很多人抓到球之后做的第一件事就是自拍一张,发到社交网络),以及这些照片下的 GPS 坐标来训练和统计棒球场上到底哪些地方(称为最佳座位)最有可能接到球,成为幸运观众。这样用户就知道去看棒球要抢什么样的座位了。
 
每当业内研究出现新的进展,Clarifai 的团队都会快速跟进,让他们的产品更快更高效。Zeiler 认为,目前人类只发挥了深度学习的一小部分潜力,但他深信,当他们把人工智能平台送到每个人手中以后,深度学习将会突破所有限制,让人工智能发展到新的阶段。
 
训练模型的艺术
 
在此前接受《连线》的访谈中,Zeiler 曾提到训练模型相比科学更像是艺术,在未知中探索需要创造和努力。多年来,科学家们为了搞清楚神经网络的运行机制,进行了无数次实验。但关于神经网络的内在运行方式,目前还没有系统性的理论,没有具体的路线可以指引你获得更好的性能。简单地下载开源工具包直接使用并不能跑出很棒的结果。
 
进行模型训练的人需要收集高质量标记好的数据,维持高效的数据结构,搭建合理的神经网络架构。当出现错误时,只有经验可以帮你调整参数、修改数据、修改网络结构等。人工智能系统需要多年的不断改进才能变得高效。「利用 Clarifai,开发者们可以跳过这一步骤,直接将最先进的人工智能应用到你的产品中去。」Zeiler 说道。
 
但仅有先进的技术是不够的,人工智能的初创企业似乎也长期面临着缺乏数据的窘境,但 Zeiler 认为,大量的数据当然很有必要,但对于 Clarifai 而言数据的质量更为重要。
 
在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。
 
当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。
 
训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。
 
面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。
 
「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」
 
 
 
 
来源:机器之心
智造家提供 查看全部

Clarifai 是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。


 
Clarifai 是一家独立的图像识别初创公司,总部位于纽约。在 10 月 25 日,它刚刚收获了价值 3000 万美元的 B 轮融资。作为图像识别领域为数不多的独立玩家,Clarifai 已经在成立三年多的时间里率先将图形识别从静态图片带入了接近实时的级别,同时也收获了为数不少的企业客户。
 
这家公司的创始人和首席执行官 Matthew Zeiler 毕业于纽约大学,师从 Rob Fergus,也接受过 Yann LeCun 的指导。对于这家初创公司的领导者来说,他们面临着科技巨头的不对称竞争。但 Zeiler 认为 Clarifai 也有着自己的优势。
 

首席执行官Matthew Zeiler,纽约大学计算机科学博士
 
竞赛冠军
 
一切都要从 Large Scale Visual Recognition Challenge 竞赛说起。
 
2009 年,华人教授 Jia Deng、李飞飞等人建立了 ImageNet,一个巨大的,手动标注的图形数据集,为图像识别领域的研究奠定了基础。在 ImageNet 上,斯坦福大学每年都会邀请全世界图像识别研究者前来比赛,让计算机识别图片中的物体。在 2012 年的比赛中,时任多伦多大学教授的 Hinton 展示了 DeepNet 算法,其超前的准确率引起了轰动。
 
当时,Hinton 的图像识别准确率超过第二名 10%,达到了 83.57%。很快,深度学习被研究者广泛接受,2013 年比赛的前三名全部被深度学习方法的系统包揽,Matthew Zeiler 和他刚成立的 Clarifai 成为冠军,当时的比赛规则是:任选一张图片让算法识别,算法给出五个答案,如果有一个是正确的就算识别正确。Clarifai 的准确率是 88.26%。
 
Clarifai一直保持着他们的领先优势,他们在2015年初宣布,自己的人工智能系统已经可以从视频中识别信息。现在,他们的系统已经可以在大部分单次猜测中都有超过90%的识别率了。技术的不断创新是公司发展的原动力,「监督和无监督学习都应用在我们的图像识别中了。」Zeiler说道。
 

Clarifai 有着多元化的团队
 
自定义的人工智能
 
随着公司的不断发展,Clarifai 的技术和算法正被转化为实际应用,最近他们的两个新产品是视觉搜索和自定义模型。
 
Clarifai 的图片搜索不同于各大搜索引擎中以图搜图的简单应用。在演示中,Zeiler 把自己家狗的照片上传进系统,很快就搜索出大量同一品种的狗。随后,他又加入了第二、第三张图片,让搜索结果更加准确,又在结果中丢掉了不想要的图片,比如其他品种的狗。这种直观的方式不断增加搜索结果的准确性,同时也帮助算法模型进行了训练,整个过程不需要键盘输入,程序更接近智能。不仅如此,如果用鼠标选定图片中的物品,可以直接搜索出类似的物品。
 
自定义模型允许每个人训练属于自己的人工智能。Zeiler 演示了训练 AI 来识别不同的运动品牌(需要经过几轮后台的训练)。他先手动标识出球鞋品牌,然后展示人工智能搜索球鞋品牌的效果。从算法角度来说,训练 AI 和搜索有很多类似之处,他们采用一些技巧索引了每一个条目。Zeiler 搜索了匡威 (converse),不但成功获得了同类运动鞋的图片,还可以看到他的朋友们在社交网络上关于这个话题讨论的内容。
 
他们的产品或许重新定义了搜索。「不久以后,我们也许不再会习惯使用搜索框了。」Zeiler 说。现在其他公司都可以用自定义模型 API 来开发基于人工智能的产品,不需要自己去训练。这很像谷歌曾经提到的概念,将搜索埋入产品深处,对于 Clarifai 而言,现在是将人工智能融入生活的时代了。
 
无限可能性
 
深度学习曾经彻底改变了图像识别领域,但在 Zeiler 眼里,语音识别才是深度学习最先展现其无限潜力的地方,而探究深度学习处理各种任务的方法也是他工作中的最大兴趣。
 
在 Clarifai 的网站上有一个演示区域,在那里你会看到他们的系统已经能在六七秒时间里解析 2 分 50 秒的视频了,这意味着系统可以比人类更快地分析录像中的信息。配合公司推出的专有模型,图像识别技术可以创造无限可能。
 
Zeiler 向机器之心介绍道,在 Clarifai 建立伊始,他们的系统就已经可以识别物品以外的其他元素了,这也是众多开发者和大公司偏爱他们的应用的原因。计算机目前可以理解的抽象概念包括像「幸福」这样的感情,或者描述性语言,例如「风景优美」和「悠闲的」。在 Clarifai 的通用模型中,有超过 11,000 种此类概念可以被识别出来,最近上线的自定义模型就可以让人们自定义 Clarifai 的平台,识别任何东西。
 
现在的 Clarifai 提供人脸识别,NSFW 内容等多种专有模型。「现在我们有七种专有模型,相比其他公司的通用模型,我们能够识别出更多的信息。」Zeiler 说道,「我们的食物模型可以识别上千种食物的成分。」
 
Clarifai 的一个应用场景在纽约市公共图书馆。图书馆公开的历史图片和文件一般会有人工分类的小标签,但是由于名目繁多,人工分类会出现疏漏。Clarifai 在图书馆公开的数据集上使用了自己的系统之后发现,人工智能系统不仅在很多已有条目上和人工分类表现相当,还把很多当年错误的分类给找了出来(例如一些被遗漏有绿色标记的水粉画)。Zeiler 认为在这项应用中的 AI 系统已经超出了人类的表现。
 

纽约市公共图书馆应用场景
 
另一个更有趣的例子来自于公司里的一名员工。这个员工最近生了个大胖小子,他就在婴儿房里安装相机对着摇篮监控。通过训练图像识别系统,他让计算机可以识别宝宝爬出摇床、宝宝坐卧站立、以及不同的姿势睡觉的情形。在无人监管的情况下,摄像头可以自动进行动作判断,这种应用为监控设备的发展指引了方向。
 

[size=12]识别婴儿车内宝宝的演示:宝宝不见了
[/size]
 
 

宝宝在站着
 

宝宝睡着了
 
基于以上思路,Clarifai 主动向合作者提供系统核心,与其他公司的开发者们合作,联合所有人探索图像识别的各种可能性,已经获得了不少成果。其中有个让人眼前一亮的应用,是通过社交网络上棒球迷接到棒球的自拍照片(注:棒球比赛当出现本垒打或出界的情况时,球可能会落入观众席,于是便会出现能接到球的观众;很多人抓到球之后做的第一件事就是自拍一张,发到社交网络),以及这些照片下的 GPS 坐标来训练和统计棒球场上到底哪些地方(称为最佳座位)最有可能接到球,成为幸运观众。这样用户就知道去看棒球要抢什么样的座位了。
 
每当业内研究出现新的进展,Clarifai 的团队都会快速跟进,让他们的产品更快更高效。Zeiler 认为,目前人类只发挥了深度学习的一小部分潜力,但他深信,当他们把人工智能平台送到每个人手中以后,深度学习将会突破所有限制,让人工智能发展到新的阶段。
 
训练模型的艺术
 
在此前接受《连线》的访谈中,Zeiler 曾提到训练模型相比科学更像是艺术,在未知中探索需要创造和努力。多年来,科学家们为了搞清楚神经网络的运行机制,进行了无数次实验。但关于神经网络的内在运行方式,目前还没有系统性的理论,没有具体的路线可以指引你获得更好的性能。简单地下载开源工具包直接使用并不能跑出很棒的结果。
 
进行模型训练的人需要收集高质量标记好的数据,维持高效的数据结构,搭建合理的神经网络架构。当出现错误时,只有经验可以帮你调整参数、修改数据、修改网络结构等。人工智能系统需要多年的不断改进才能变得高效。「利用 Clarifai,开发者们可以跳过这一步骤,直接将最先进的人工智能应用到你的产品中去。」Zeiler 说道。
 
但仅有先进的技术是不够的,人工智能的初创企业似乎也长期面临着缺乏数据的窘境,但 Zeiler 认为,大量的数据当然很有必要,但对于 Clarifai 而言数据的质量更为重要。
 
在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。
 
当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。
 
训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。
 
面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。
 
「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」
 
 
 
 
来源:机器之心
智造家提供
530 浏览

图像识别与机器学习面临的困难和今后的研究方向

机械自动化类 好先生 2016-06-27 12:41 发表了文章 来自相关话题

图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。
一、什么是图像识别?

图像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

二、图像识别有什么应用?

做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

三、图像识别的困难在哪里?

图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

四、图像识别的发展历史






图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

另外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度,包括OCR和指纹识别。

在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

在80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bagofwords)的方法用于图像识别。
 
什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

比如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段落的语法结构,而只要把这些高频词放到一块,叫“bagofwords”。

怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。

这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问题。为什么人工智能现在这么热?主要就是因为这个原因。

张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

五、面临的困难和今后要研究的问题

看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。




比如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了,种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

在2009年李飞飞她们发布了新的数据库ImageNet,大概有几千万张图像数据。

标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

还有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片,标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

还有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测和识别出来。

现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

在这个方面给大家介绍一下我们做的一个工作,叫imagecaption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Imagecaption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像块。在对这张图像生成的句子Abrowncowisstandinginthegrass时,我们看到brown,cow,grass都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fillwith(把…填满),你会发现图片全是容器里面盛东西。

这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

另外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某种意义上来说我们也可以把它们做成产品,让他为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。
 
来源:网络 查看全部
图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。
一、什么是图像识别?

图像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

二、图像识别有什么应用?

做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

三、图像识别的困难在哪里?

图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

四、图像识别的发展历史

636026201776638321534.png


图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

另外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度,包括OCR和指纹识别。

在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

在80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bagofwords)的方法用于图像识别。
 
什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

比如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段落的语法结构,而只要把这些高频词放到一块,叫“bagofwords”。

怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。

这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问题。为什么人工智能现在这么热?主要就是因为这个原因。

张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

五、面临的困难和今后要研究的问题

看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。
2014082916220841841.jpg

比如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了,种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

在2009年李飞飞她们发布了新的数据库ImageNet,大概有几千万张图像数据。

标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

还有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片,标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

还有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测和识别出来。

现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

在这个方面给大家介绍一下我们做的一个工作,叫imagecaption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Imagecaption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像块。在对这张图像生成的句子Abrowncowisstandinginthegrass时,我们看到brown,cow,grass都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fillwith(把…填满),你会发现图片全是容器里面盛东西。

这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

另外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某种意义上来说我们也可以把它们做成产品,让他为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。
 
来源:网络
391 浏览

图像传感器的分类及原理

智能制造类 星旭自动化 2016-11-17 19:00 发表了文章 来自相关话题

一、图像传感器的原理

成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上(焦平面),并形成二 维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。图像传感器输出的一维时序信号经过放大和同步控制处理后,送给图像显示器,可以还原并显示二维光学图像。当然,图像传感器与图像显示器之间的信号传输与接收都要遵守一定的规则,这个规则被称为制式。例如,广播电视系统中规定的规则称为电视制式(NTSC、PAL、SECAM),还有其他的一些专用制式。按电视制式输出的——维时序信号被称为视频信号;本节主要讨论从光学图像到视频信号的转换原理,即图像传感器的原理。

定义:成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上,形成二维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。

二、图像传感器的分类

图像传感器,是组成数字摄像头的重要组成部分。根据元件的不同,可分为CCD(Charge Coupled Device,电荷耦合元件)和CMOS(Complementary Metal-Oxide Semiconductor,金属氧化物半导体元件)两大类。

1、CCD图像传感器






1969年,美国贝尔实验室的w.s.boyle与g.e.smith将可视电话和半导体泡存储技术结合,率先发明了CCD (charged coupled device,电荷耦合件)元件本身开始是被当作单纯的存储器使用 。由于它能存储并传输信号电荷,CCD还可以利用内光电效应来拍摄并存储图象,具备图像传感器的功能。

经过30多年研究与开发,CCD在像素集成度、分辨力、灵敏度,工作速度等指标上取得突破性进展,其应用正从一维、二维向三维发展,其光波范围从紫外区到红外区,CCD已成为光子探测及视频采集领域最重要的技术,普遍认为是20世纪70年代以来出现的最重要的半导体器件之一,得到了广泛应用。

如今CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多,这也是市场很多采用USB接口的产品无须外接电源且价格便宜的原因。尽管在技术上有较大的不同,但CCD和CMOS两者性能差距不是很大,只是CMOS摄像头对光源的要求要高一些,但现在该问题已经基本得到解决。目前CCD元件的尺寸多为1/3英寸或者1/4英寸,在相同的分辨率下,宜选择元件尺寸较大的为好。图像传感器又叫感光元件。

2、CCD图像传感器的优势

CCD作为固态图像传感器有体积小、重量轻、分辨率高、灵敏度高、动态范围宽、光敏元的几何精度高、光谱响应范围宽、工作电压低、功耗小、寿命长、抗震性和抗冲击性好、不受电磁场干扰和可靠性高等一系列优点。

具高敏感度,很低光度的入射光也能侦测到,其讯号不会被掩饰,使CCD的利用较不受天候拘谨。 静态范畴广(High Dynamic Range),同时侦测及辨别强光跟弱光,进步体系情况的应用范畴,不因亮度差别年夜而形成旌旗灯号反差景象。 精良的线性特征曲线(Linearity),入射光源强度跟输出讯号年夜小成精良的正比关联,物体资讯不致丧失,下降旌旗灯号弥补处置本钱。

3、CMOS图像传感器






与CCD有着同样历史渊源的CMOS图像传感器是一种典型的固体成像传感器,CMOS图像传感器通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等几部分组成,这几部分通常都被集成在同一块硅片上。其工作过程一般可分为复位、光电转换、积分、读出几部分。

在CMOS图像传感器芯片上还可以集成其他数字信号处理电路,如AD转换器、自动曝光量控制、非均匀补偿、白平衡处理、黑电平控制、伽玛校正等,为了进行快速计算甚至可以将具有可编程功能的DSP器件与CMOS器件集成在一起,从而组成单片数字相机及图像处理系统。

CMOS图像传感器于80年代发明以来,由于当时CMOS工艺制程的技术不高,以致于传感器在应用中的杂讯较大,商品化进程一直较慢。时至今日,CMOS传感器的应用范围也开始非常的广泛,包括数码相机 、PC Camera、影像电话、第三代手机、视讯会议、智能型保全系统、汽车倒车雷达、玩具,以及工业、医疗等用途。在低档产品方面,其画质质量已接近低档CCD的解析度,相关业者希望用CMOS器件取代CCD的努力正在逐渐明朗。CMOS传感器有可细分为:被动式像素传感器CMOS(Passive Pixel Sensor CMOS)与主动式像素传感器CMOS(Active Pixel Sensor CMOS)。

4、CMOS图像传感器的优势

CMOS传感器的最年夜上风,是它存在高度体系整合的前提。实践上,全部图像传感器所需的功效,比方垂直位移、程度位移暂存器、时序把持、CDS、ADC等, 都可放在集成在一颗晶片上, 乃至于全部的晶片包含后端晶片(Back-end Chip)、快闪影象体(Flash RAM)等也可整分解单晶片(SYSTEM-ON-CHIP),以到达下降整机出产本钱的目标。

5、CCD与CMOS图像传感器的区别

CCD和CMOS在制造上的主要区别是CCD是集成在半导体单晶材料上,而CMOS是集成在被称做金属氧化物的半导体材料上,工作原理没有本质的区别。 从制造工艺上说CCD制造工艺较复杂,只有少数几个厂商,如索尼、松下、夏普等掌握这种技术,因此CCD摄像机的价格会相对比较贵。事实上经过技术改造,目前CCD和高级CMOS的实际效果的差距已经非常小了。而且CMOS的制造成本和功耗都要低于CCD,所以很多低档摄像头生产厂商采用普通CMOS感光元件作为核心组件。

成像方面,在相同像素下CCD的成像通透性、明锐度都很好,色彩还原、曝光可以保证基本准确。而普通CMOS的产品往往通透性一般,对实物的色彩还原能力偏弱,曝光也都不太好,由于自身物理特性的原因,普通CMOS的成像质量和CCD还是有一定差距。但由于低廉的价格以及高度的整合性,因此在摄像头领域还是得到了广泛的应用。

在原理上,CMOS的信号是以点为单位的电荷信号,而CCD是以行为单位的电流信号,前者更为敏感,速度也更快,更为省电。现在高级的CMOS并不比一般CCD差,但是CMOS工艺还不是十分成熟,普通的CMOS一般分辨率较低而成像质量也较差。

目前,许多低档入门型的摄像机使用廉价的低档CMOS芯片,成像质量比较差。普及型、高级型及专业型摄像机使用不同档次的CCD,个别专业型或准专业型数码相机使用高级的CMOS芯片。代表成像技术未来发展的X3芯片实际也是一种CMOS芯片。

图像传感器又分为1/2“,1/3”,1/4“之分。1/2最好。目前以1/3和1/4为多。从产品的技术发展趋势看,无论是CCD还是CMOS,其体积小型化及高像素化仍是业界积极研发的目标。因为像素尺寸小则图像产品的分辨率越高、清晰度越好、体积越小,其应用面更广泛。
 
 
 
来源:1号机器人

智造家提供 查看全部
一、图像传感器的原理

成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上(焦平面),并形成二 维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。图像传感器输出的一维时序信号经过放大和同步控制处理后,送给图像显示器,可以还原并显示二维光学图像。当然,图像传感器与图像显示器之间的信号传输与接收都要遵守一定的规则,这个规则被称为制式。例如,广播电视系统中规定的规则称为电视制式(NTSC、PAL、SECAM),还有其他的一些专用制式。按电视制式输出的——维时序信号被称为视频信号;本节主要讨论从光学图像到视频信号的转换原理,即图像传感器的原理。

定义:成像物镜将外界照明光照射下的(或自身发光的)景物成像在物镜的像面上,形成二维空间的光强分布(光学图像)。能够将二维光强分布的光学图像转变成一维时序电信号的传感器称为图像传感器。

二、图像传感器的分类

图像传感器,是组成数字摄像头的重要组成部分。根据元件的不同,可分为CCD(Charge Coupled Device,电荷耦合元件)和CMOS(Complementary Metal-Oxide Semiconductor,金属氧化物半导体元件)两大类。

1、CCD图像传感器

2.jpg


1969年,美国贝尔实验室的w.s.boyle与g.e.smith将可视电话和半导体泡存储技术结合,率先发明了CCD (charged coupled device,电荷耦合件)元件本身开始是被当作单纯的存储器使用 。由于它能存储并传输信号电荷,CCD还可以利用内光电效应来拍摄并存储图象,具备图像传感器的功能。

经过30多年研究与开发,CCD在像素集成度、分辨力、灵敏度,工作速度等指标上取得突破性进展,其应用正从一维、二维向三维发展,其光波范围从紫外区到红外区,CCD已成为光子探测及视频采集领域最重要的技术,普遍认为是20世纪70年代以来出现的最重要的半导体器件之一,得到了广泛应用。

如今CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多,这也是市场很多采用USB接口的产品无须外接电源且价格便宜的原因。尽管在技术上有较大的不同,但CCD和CMOS两者性能差距不是很大,只是CMOS摄像头对光源的要求要高一些,但现在该问题已经基本得到解决。目前CCD元件的尺寸多为1/3英寸或者1/4英寸,在相同的分辨率下,宜选择元件尺寸较大的为好。图像传感器又叫感光元件。

2、CCD图像传感器的优势

CCD作为固态图像传感器有体积小、重量轻、分辨率高、灵敏度高、动态范围宽、光敏元的几何精度高、光谱响应范围宽、工作电压低、功耗小、寿命长、抗震性和抗冲击性好、不受电磁场干扰和可靠性高等一系列优点。

具高敏感度,很低光度的入射光也能侦测到,其讯号不会被掩饰,使CCD的利用较不受天候拘谨。 静态范畴广(High Dynamic Range),同时侦测及辨别强光跟弱光,进步体系情况的应用范畴,不因亮度差别年夜而形成旌旗灯号反差景象。 精良的线性特征曲线(Linearity),入射光源强度跟输出讯号年夜小成精良的正比关联,物体资讯不致丧失,下降旌旗灯号弥补处置本钱。

3、CMOS图像传感器

3.jpg


与CCD有着同样历史渊源的CMOS图像传感器是一种典型的固体成像传感器,CMOS图像传感器通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等几部分组成,这几部分通常都被集成在同一块硅片上。其工作过程一般可分为复位、光电转换、积分、读出几部分。

在CMOS图像传感器芯片上还可以集成其他数字信号处理电路,如AD转换器、自动曝光量控制、非均匀补偿、白平衡处理、黑电平控制、伽玛校正等,为了进行快速计算甚至可以将具有可编程功能的DSP器件与CMOS器件集成在一起,从而组成单片数字相机及图像处理系统。

CMOS图像传感器于80年代发明以来,由于当时CMOS工艺制程的技术不高,以致于传感器在应用中的杂讯较大,商品化进程一直较慢。时至今日,CMOS传感器的应用范围也开始非常的广泛,包括数码相机 、PC Camera、影像电话、第三代手机、视讯会议、智能型保全系统、汽车倒车雷达、玩具,以及工业、医疗等用途。在低档产品方面,其画质质量已接近低档CCD的解析度,相关业者希望用CMOS器件取代CCD的努力正在逐渐明朗。CMOS传感器有可细分为:被动式像素传感器CMOS(Passive Pixel Sensor CMOS)与主动式像素传感器CMOS(Active Pixel Sensor CMOS)。

4、CMOS图像传感器的优势

CMOS传感器的最年夜上风,是它存在高度体系整合的前提。实践上,全部图像传感器所需的功效,比方垂直位移、程度位移暂存器、时序把持、CDS、ADC等, 都可放在集成在一颗晶片上, 乃至于全部的晶片包含后端晶片(Back-end Chip)、快闪影象体(Flash RAM)等也可整分解单晶片(SYSTEM-ON-CHIP),以到达下降整机出产本钱的目标。

5、CCD与CMOS图像传感器的区别

CCD和CMOS在制造上的主要区别是CCD是集成在半导体单晶材料上,而CMOS是集成在被称做金属氧化物的半导体材料上,工作原理没有本质的区别。 从制造工艺上说CCD制造工艺较复杂,只有少数几个厂商,如索尼、松下、夏普等掌握这种技术,因此CCD摄像机的价格会相对比较贵。事实上经过技术改造,目前CCD和高级CMOS的实际效果的差距已经非常小了。而且CMOS的制造成本和功耗都要低于CCD,所以很多低档摄像头生产厂商采用普通CMOS感光元件作为核心组件。

成像方面,在相同像素下CCD的成像通透性、明锐度都很好,色彩还原、曝光可以保证基本准确。而普通CMOS的产品往往通透性一般,对实物的色彩还原能力偏弱,曝光也都不太好,由于自身物理特性的原因,普通CMOS的成像质量和CCD还是有一定差距。但由于低廉的价格以及高度的整合性,因此在摄像头领域还是得到了广泛的应用。

在原理上,CMOS的信号是以点为单位的电荷信号,而CCD是以行为单位的电流信号,前者更为敏感,速度也更快,更为省电。现在高级的CMOS并不比一般CCD差,但是CMOS工艺还不是十分成熟,普通的CMOS一般分辨率较低而成像质量也较差。

目前,许多低档入门型的摄像机使用廉价的低档CMOS芯片,成像质量比较差。普及型、高级型及专业型摄像机使用不同档次的CCD,个别专业型或准专业型数码相机使用高级的CMOS芯片。代表成像技术未来发展的X3芯片实际也是一种CMOS芯片。

图像传感器又分为1/2“,1/3”,1/4“之分。1/2最好。目前以1/3和1/4为多。从产品的技术发展趋势看,无论是CCD还是CMOS,其体积小型化及高像素化仍是业界积极研发的目标。因为像素尺寸小则图像产品的分辨率越高、清晰度越好、体积越小,其应用面更广泛。
 
 
 
来源:1号机器人

智造家提供
497 浏览

从图像识别到无限可能

机械自动化类 品管人生 2016-11-14 14:09 发表了文章 来自相关话题

Clarifai 是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。
 
Clarifai 是一家独立的图像识别初创公司,总部位于纽约。在 10 月 25 日,它刚刚收获了价值 3000 万美元的 B 轮融资。作为图像识别领域为数不多的独立玩家,Clarifai 已经在成立三年多的时间里率先将图形识别从静态图片带入了接近实时的级别,同时也收获了为数不少的企业客户。
 
这家公司的创始人和首席执行官 Matthew Zeiler 毕业于纽约大学,师从 Rob Fergus,也接受过 Yann LeCun 的指导。对于这家初创公司的领导者来说,他们面临着科技巨头的不对称竞争。但 Zeiler 认为 Clarifai 也有着自己的优势。
 

首席执行官Matthew Zeiler,纽约大学计算机科学博士
 
竞赛冠军
 
一切都要从 Large Scale Visual Recognition Challenge 竞赛说起。
 
2009 年,华人教授 Jia Deng、李飞飞等人建立了 ImageNet,一个巨大的,手动标注的图形数据集,为图像识别领域的研究奠定了基础。在 ImageNet 上,斯坦福大学每年都会邀请全世界图像识别研究者前来比赛,让计算机识别图片中的物体。在 2012 年的比赛中,时任多伦多大学教授的 Hinton 展示了 DeepNet 算法,其超前的准确率引起了轰动。
 
当时,Hinton 的图像识别准确率超过第二名 10%,达到了 83.57%。很快,深度学习被研究者广泛接受,2013 年比赛的前三名全部被深度学习方法的系统包揽,Matthew Zeiler 和他刚成立的 Clarifai 成为冠军,当时的比赛规则是:任选一张图片让算法识别,算法给出五个答案,如果有一个是正确的就算识别正确。Clarifai 的准确率是 88.26%。
 
Clarifai一直保持着他们的领先优势,他们在2015年初宣布,自己的人工智能系统已经可以从视频中识别信息。现在,他们的系统已经可以在大部分单次猜测中都有超过90%的识别率了。技术的不断创新是公司发展的原动力,「监督和无监督学习都应用在我们的图像识别中了。」Zeiler说道。
 

Clarifai 有着多元化的团队
 
自定义的人工智能
 
随着公司的不断发展,Clarifai 的技术和算法正被转化为实际应用,最近他们的两个新产品是视觉搜索和自定义模型。
 
Clarifai 的图片搜索不同于各大搜索引擎中以图搜图的简单应用。在演示中,Zeiler 把自己家狗的照片上传进系统,很快就搜索出大量同一品种的狗。随后,他又加入了第二、第三张图片,让搜索结果更加准确,又在结果中丢掉了不想要的图片,比如其他品种的狗。这种直观的方式不断增加搜索结果的准确性,同时也帮助算法模型进行了训练,整个过程不需要键盘输入,程序更接近智能。不仅如此,如果用鼠标选定图片中的物品,可以直接搜索出类似的物品。
 
自定义模型允许每个人训练属于自己的人工智能。Zeiler 演示了训练 AI 来识别不同的运动品牌(需要经过几轮后台的训练)。他先手动标识出球鞋品牌,然后展示人工智能搜索球鞋品牌的效果。从算法角度来说,训练 AI 和搜索有很多类似之处,他们采用一些技巧索引了每一个条目。Zeiler 搜索了匡威 (converse),不但成功获得了同类运动鞋的图片,还可以看到他的朋友们在社交网络上关于这个话题讨论的内容。
 
他们的产品或许重新定义了搜索。「不久以后,我们也许不再会习惯使用搜索框了。」Zeiler 说。现在其他公司都可以用自定义模型 API 来开发基于人工智能的产品,不需要自己去训练。这很像谷歌曾经提到的概念,将搜索埋入产品深处,对于 Clarifai 而言,现在是将人工智能融入生活的时代了。
 
无限可能性
 
深度学习曾经彻底改变了图像识别领域,但在 Zeiler 眼里,语音识别才是深度学习最先展现其无限潜力的地方,而探究深度学习处理各种任务的方法也是他工作中的最大兴趣。
 
在 Clarifai 的网站上有一个演示区域,在那里你会看到他们的系统已经能在六七秒时间里解析 2 分 50 秒的视频了,这意味着系统可以比人类更快地分析录像中的信息。配合公司推出的专有模型,图像识别技术可以创造无限可能。
 
Zeiler 向机器之心介绍道,在 Clarifai 建立伊始,他们的系统就已经可以识别物品以外的其他元素了,这也是众多开发者和大公司偏爱他们的应用的原因。计算机目前可以理解的抽象概念包括像「幸福」这样的感情,或者描述性语言,例如「风景优美」和「悠闲的」。在 Clarifai 的通用模型中,有超过 11,000 种此类概念可以被识别出来,最近上线的自定义模型就可以让人们自定义 Clarifai 的平台,识别任何东西。
 
现在的 Clarifai 提供人脸识别,NSFW 内容等多种专有模型。「现在我们有七种专有模型,相比其他公司的通用模型,我们能够识别出更多的信息。」Zeiler 说道,「我们的食物模型可以识别上千种食物的成分。」
 
Clarifai 的一个应用场景在纽约市公共图书馆。图书馆公开的历史图片和文件一般会有人工分类的小标签,但是由于名目繁多,人工分类会出现疏漏。Clarifai 在图书馆公开的数据集上使用了自己的系统之后发现,人工智能系统不仅在很多已有条目上和人工分类表现相当,还把很多当年错误的分类给找了出来(例如一些被遗漏有绿色标记的水粉画)。Zeiler 认为在这项应用中的 AI 系统已经超出了人类的表现。
 

纽约市公共图书馆应用场景
 
另一个更有趣的例子来自于公司里的一名员工。这个员工最近生了个大胖小子,他就在婴儿房里安装相机对着摇篮监控。通过训练图像识别系统,他让计算机可以识别宝宝爬出摇床、宝宝坐卧站立、以及不同的姿势睡觉的情形。在无人监管的情况下,摄像头可以自动进行动作判断,这种应用为监控设备的发展指引了方向。
 

[size=12]识别婴儿车内宝宝的演示:宝宝不见了[/size]
 
 

宝宝在站着
 

宝宝睡着了
 
基于以上思路,Clarifai 主动向合作者提供系统核心,与其他公司的开发者们合作,联合所有人探索图像识别的各种可能性,已经获得了不少成果。其中有个让人眼前一亮的应用,是通过社交网络上棒球迷接到棒球的自拍照片(注:棒球比赛当出现本垒打或出界的情况时,球可能会落入观众席,于是便会出现能接到球的观众;很多人抓到球之后做的第一件事就是自拍一张,发到社交网络),以及这些照片下的 GPS 坐标来训练和统计棒球场上到底哪些地方(称为最佳座位)最有可能接到球,成为幸运观众。这样用户就知道去看棒球要抢什么样的座位了。
 
每当业内研究出现新的进展,Clarifai 的团队都会快速跟进,让他们的产品更快更高效。Zeiler 认为,目前人类只发挥了深度学习的一小部分潜力,但他深信,当他们把人工智能平台送到每个人手中以后,深度学习将会突破所有限制,让人工智能发展到新的阶段。
 
训练模型的艺术
 
在此前接受《连线》的访谈中,Zeiler 曾提到训练模型相比科学更像是艺术,在未知中探索需要创造和努力。多年来,科学家们为了搞清楚神经网络的运行机制,进行了无数次实验。但关于神经网络的内在运行方式,目前还没有系统性的理论,没有具体的路线可以指引你获得更好的性能。简单地下载开源工具包直接使用并不能跑出很棒的结果。
 
进行模型训练的人需要收集高质量标记好的数据,维持高效的数据结构,搭建合理的神经网络架构。当出现错误时,只有经验可以帮你调整参数、修改数据、修改网络结构等。人工智能系统需要多年的不断改进才能变得高效。「利用 Clarifai,开发者们可以跳过这一步骤,直接将最先进的人工智能应用到你的产品中去。」Zeiler 说道。
 
但仅有先进的技术是不够的,人工智能的初创企业似乎也长期面临着缺乏数据的窘境,但 Zeiler 认为,大量的数据当然很有必要,但对于 Clarifai 而言数据的质量更为重要。
 
在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。
 
当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。
 
训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。
 
面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。
 
「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」
 
 
 
 
来源:机器之心
智造家提供 查看全部

Clarifai 是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。


 
Clarifai 是一家独立的图像识别初创公司,总部位于纽约。在 10 月 25 日,它刚刚收获了价值 3000 万美元的 B 轮融资。作为图像识别领域为数不多的独立玩家,Clarifai 已经在成立三年多的时间里率先将图形识别从静态图片带入了接近实时的级别,同时也收获了为数不少的企业客户。
 
这家公司的创始人和首席执行官 Matthew Zeiler 毕业于纽约大学,师从 Rob Fergus,也接受过 Yann LeCun 的指导。对于这家初创公司的领导者来说,他们面临着科技巨头的不对称竞争。但 Zeiler 认为 Clarifai 也有着自己的优势。
 

首席执行官Matthew Zeiler,纽约大学计算机科学博士
 
竞赛冠军
 
一切都要从 Large Scale Visual Recognition Challenge 竞赛说起。
 
2009 年,华人教授 Jia Deng、李飞飞等人建立了 ImageNet,一个巨大的,手动标注的图形数据集,为图像识别领域的研究奠定了基础。在 ImageNet 上,斯坦福大学每年都会邀请全世界图像识别研究者前来比赛,让计算机识别图片中的物体。在 2012 年的比赛中,时任多伦多大学教授的 Hinton 展示了 DeepNet 算法,其超前的准确率引起了轰动。
 
当时,Hinton 的图像识别准确率超过第二名 10%,达到了 83.57%。很快,深度学习被研究者广泛接受,2013 年比赛的前三名全部被深度学习方法的系统包揽,Matthew Zeiler 和他刚成立的 Clarifai 成为冠军,当时的比赛规则是:任选一张图片让算法识别,算法给出五个答案,如果有一个是正确的就算识别正确。Clarifai 的准确率是 88.26%。
 
Clarifai一直保持着他们的领先优势,他们在2015年初宣布,自己的人工智能系统已经可以从视频中识别信息。现在,他们的系统已经可以在大部分单次猜测中都有超过90%的识别率了。技术的不断创新是公司发展的原动力,「监督和无监督学习都应用在我们的图像识别中了。」Zeiler说道。
 

Clarifai 有着多元化的团队
 
自定义的人工智能
 
随着公司的不断发展,Clarifai 的技术和算法正被转化为实际应用,最近他们的两个新产品是视觉搜索和自定义模型。
 
Clarifai 的图片搜索不同于各大搜索引擎中以图搜图的简单应用。在演示中,Zeiler 把自己家狗的照片上传进系统,很快就搜索出大量同一品种的狗。随后,他又加入了第二、第三张图片,让搜索结果更加准确,又在结果中丢掉了不想要的图片,比如其他品种的狗。这种直观的方式不断增加搜索结果的准确性,同时也帮助算法模型进行了训练,整个过程不需要键盘输入,程序更接近智能。不仅如此,如果用鼠标选定图片中的物品,可以直接搜索出类似的物品。
 
自定义模型允许每个人训练属于自己的人工智能。Zeiler 演示了训练 AI 来识别不同的运动品牌(需要经过几轮后台的训练)。他先手动标识出球鞋品牌,然后展示人工智能搜索球鞋品牌的效果。从算法角度来说,训练 AI 和搜索有很多类似之处,他们采用一些技巧索引了每一个条目。Zeiler 搜索了匡威 (converse),不但成功获得了同类运动鞋的图片,还可以看到他的朋友们在社交网络上关于这个话题讨论的内容。
 
他们的产品或许重新定义了搜索。「不久以后,我们也许不再会习惯使用搜索框了。」Zeiler 说。现在其他公司都可以用自定义模型 API 来开发基于人工智能的产品,不需要自己去训练。这很像谷歌曾经提到的概念,将搜索埋入产品深处,对于 Clarifai 而言,现在是将人工智能融入生活的时代了。
 
无限可能性
 
深度学习曾经彻底改变了图像识别领域,但在 Zeiler 眼里,语音识别才是深度学习最先展现其无限潜力的地方,而探究深度学习处理各种任务的方法也是他工作中的最大兴趣。
 
在 Clarifai 的网站上有一个演示区域,在那里你会看到他们的系统已经能在六七秒时间里解析 2 分 50 秒的视频了,这意味着系统可以比人类更快地分析录像中的信息。配合公司推出的专有模型,图像识别技术可以创造无限可能。
 
Zeiler 向机器之心介绍道,在 Clarifai 建立伊始,他们的系统就已经可以识别物品以外的其他元素了,这也是众多开发者和大公司偏爱他们的应用的原因。计算机目前可以理解的抽象概念包括像「幸福」这样的感情,或者描述性语言,例如「风景优美」和「悠闲的」。在 Clarifai 的通用模型中,有超过 11,000 种此类概念可以被识别出来,最近上线的自定义模型就可以让人们自定义 Clarifai 的平台,识别任何东西。
 
现在的 Clarifai 提供人脸识别,NSFW 内容等多种专有模型。「现在我们有七种专有模型,相比其他公司的通用模型,我们能够识别出更多的信息。」Zeiler 说道,「我们的食物模型可以识别上千种食物的成分。」
 
Clarifai 的一个应用场景在纽约市公共图书馆。图书馆公开的历史图片和文件一般会有人工分类的小标签,但是由于名目繁多,人工分类会出现疏漏。Clarifai 在图书馆公开的数据集上使用了自己的系统之后发现,人工智能系统不仅在很多已有条目上和人工分类表现相当,还把很多当年错误的分类给找了出来(例如一些被遗漏有绿色标记的水粉画)。Zeiler 认为在这项应用中的 AI 系统已经超出了人类的表现。
 

纽约市公共图书馆应用场景
 
另一个更有趣的例子来自于公司里的一名员工。这个员工最近生了个大胖小子,他就在婴儿房里安装相机对着摇篮监控。通过训练图像识别系统,他让计算机可以识别宝宝爬出摇床、宝宝坐卧站立、以及不同的姿势睡觉的情形。在无人监管的情况下,摄像头可以自动进行动作判断,这种应用为监控设备的发展指引了方向。
 

[size=12]识别婴儿车内宝宝的演示:宝宝不见了
[/size]
 
 

宝宝在站着
 

宝宝睡着了
 
基于以上思路,Clarifai 主动向合作者提供系统核心,与其他公司的开发者们合作,联合所有人探索图像识别的各种可能性,已经获得了不少成果。其中有个让人眼前一亮的应用,是通过社交网络上棒球迷接到棒球的自拍照片(注:棒球比赛当出现本垒打或出界的情况时,球可能会落入观众席,于是便会出现能接到球的观众;很多人抓到球之后做的第一件事就是自拍一张,发到社交网络),以及这些照片下的 GPS 坐标来训练和统计棒球场上到底哪些地方(称为最佳座位)最有可能接到球,成为幸运观众。这样用户就知道去看棒球要抢什么样的座位了。
 
每当业内研究出现新的进展,Clarifai 的团队都会快速跟进,让他们的产品更快更高效。Zeiler 认为,目前人类只发挥了深度学习的一小部分潜力,但他深信,当他们把人工智能平台送到每个人手中以后,深度学习将会突破所有限制,让人工智能发展到新的阶段。
 
训练模型的艺术
 
在此前接受《连线》的访谈中,Zeiler 曾提到训练模型相比科学更像是艺术,在未知中探索需要创造和努力。多年来,科学家们为了搞清楚神经网络的运行机制,进行了无数次实验。但关于神经网络的内在运行方式,目前还没有系统性的理论,没有具体的路线可以指引你获得更好的性能。简单地下载开源工具包直接使用并不能跑出很棒的结果。
 
进行模型训练的人需要收集高质量标记好的数据,维持高效的数据结构,搭建合理的神经网络架构。当出现错误时,只有经验可以帮你调整参数、修改数据、修改网络结构等。人工智能系统需要多年的不断改进才能变得高效。「利用 Clarifai,开发者们可以跳过这一步骤,直接将最先进的人工智能应用到你的产品中去。」Zeiler 说道。
 
但仅有先进的技术是不够的,人工智能的初创企业似乎也长期面临着缺乏数据的窘境,但 Zeiler 认为,大量的数据当然很有必要,但对于 Clarifai 而言数据的质量更为重要。
 
在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。
 
当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。
 
训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。
 
面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。
 
「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」
 
 
 
 
来源:机器之心
智造家提供
530 浏览

图像识别与机器学习面临的困难和今后的研究方向

机械自动化类 好先生 2016-06-27 12:41 发表了文章 来自相关话题

图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。
一、什么是图像识别?

图像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

二、图像识别有什么应用?

做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

三、图像识别的困难在哪里?

图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

四、图像识别的发展历史






图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

另外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度,包括OCR和指纹识别。

在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

在80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bagofwords)的方法用于图像识别。
 
什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

比如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段落的语法结构,而只要把这些高频词放到一块,叫“bagofwords”。

怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。

这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问题。为什么人工智能现在这么热?主要就是因为这个原因。

张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

五、面临的困难和今后要研究的问题

看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。




比如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了,种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

在2009年李飞飞她们发布了新的数据库ImageNet,大概有几千万张图像数据。

标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

还有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片,标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

还有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测和识别出来。

现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

在这个方面给大家介绍一下我们做的一个工作,叫imagecaption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Imagecaption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像块。在对这张图像生成的句子Abrowncowisstandinginthegrass时,我们看到brown,cow,grass都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fillwith(把…填满),你会发现图片全是容器里面盛东西。

这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

另外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某种意义上来说我们也可以把它们做成产品,让他为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。
 
来源:网络 查看全部
图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。
一、什么是图像识别?

图像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

二、图像识别有什么应用?

做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

三、图像识别的困难在哪里?

图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

四、图像识别的发展历史

636026201776638321534.png


图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

另外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度,包括OCR和指纹识别。

在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

在80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bagofwords)的方法用于图像识别。
 
什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

比如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段落的语法结构,而只要把这些高频词放到一块,叫“bagofwords”。

怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。

这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问题。为什么人工智能现在这么热?主要就是因为这个原因。

张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

五、面临的困难和今后要研究的问题

看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。
2014082916220841841.jpg

比如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了,种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

在2009年李飞飞她们发布了新的数据库ImageNet,大概有几千万张图像数据。

标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

还有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片,标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

还有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测和识别出来。

现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

在这个方面给大家介绍一下我们做的一个工作,叫imagecaption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Imagecaption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像块。在对这张图像生成的句子Abrowncowisstandinginthegrass时,我们看到brown,cow,grass都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fillwith(把…填满),你会发现图片全是容器里面盛东西。

这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

另外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某种意义上来说我们也可以把它们做成产品,让他为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。
 
来源:网络