本月累计签到次数:

今天获取 积分

智能语音

智能语音

412 浏览

现阶段让机器人开口说话,需要技巧

机械自动化类 品管人生 2016-11-28 16:40 发表了文章 来自相关话题

从上一篇《让机器人开口说话,依然令人头疼》这篇文章中,降噪问题让机器人企业很头疼,对机器人企业而言,既然语音降噪问题目前是解决不了的问题,那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲,能做智能语音的企业都是具备雄厚资金的企业,因为研发投入非常高昂,可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题,因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论,我们主要探讨语音与语义的后续发展。

 

之前,我们把语音与语义进行区分,现在这两者正在快速结合,因为语音与语义的标杆企业都在快速进入双方领域,可以说现在语音与语义已经不分开,因此,我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上,一个麦克风阵列实际上已经包含好几层的过滤处理,比如:当你开口说话,麦克风阵列会立马锁定你这个方向的声源,那其它方向的声音就会直接过滤掉,这是第一层过滤,当然,哪怕是你这个方向的声音,也会带有很多杂音,这些声音都会全部收录上传至云端,这个时候会有一个软件降噪模型,会把多余的噪音过滤掉,这是第二层过滤。

现在像科大讯飞股份有限公司(简称:科大讯飞)以及苏州思必驰信息科技有限公司(简称:思必驰)都在研发声纹识别,如果加上声纹识别就会有三层四层的过滤,那语音识别准确率就会进一步的提高。 

虽然目前没有办法完全过滤掉降噪,但是它是一个不断优化的过程。

 

这次1号机器人网研讨会上,困扰机器人企业的问题是如何在展会上演示机器人的时候,能够有比较完善的语音交互。
 
我们知道在展会上,声音是非常嘈杂,特别是让机器人演示语音交互,基本上都要挂掉。

以目前的技术是没有办法完全处理好,都是有技巧的去演示。

 

思必驰市场总监龙梦竹说:“在展会上演示,会涉及到众多的技术,比如降噪、回声消除、唤醒等等一套解决方案,非常考验技术。现在麦克风阵列基本上都是装在机器人的头部,在展会上与机器人交互的时候,对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说:“另外一个方式是通过手机,用嘴挨着手机讲,这个准确率是很高的,然后再传到机器人,这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说,目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

 

声纹识别就是密码,相当于钥匙,生物识别跟指纹识别又不一样,它是识别手指里面的静脉血管,因为每个人的静脉血管都不一样,所以它的精确度非常高,那像声纹识别其实也算是生物识别的一种,每个人声音的判定都不一样,这技术可以确认身份。也可以进行多人与机器人交互。

比如说:三个人同时与机器人进行对话,它能够识别这三个人的声音,然后把这些声音转化成文字,再上传进入后台。

这是目前语音技术的发展方向,那我们还要谈谈语义的发展方向。

针对语义,目前各个企业都是以垂直领域为主,每一个垂直领域都是一个独立的云,如果把各个垂直领域都结合起来,在针对一个产业,这是非常庞大且非常有价值的知识库,我们知道针对语义,最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于,我们每个人针对一个问题的答案是不一样的,比如说:明天会下雨吗?针对这个问题,汽车4S店要的答案是明天适不适合洗车,那针对普通大众想知道的是,明天上班需不需要带雨伞。

所以这个对于智能语音而言,目前是非常大的挑战,你不可能回答所有人的问题。

因此,语义下一步的发展方向,一定是围绕这些问题去处理。

甘楚辉说:“小i机器人就在往这方面努力,举个例子,‘今天天气怎么样’,我们的技术会把这句话打散,分成三个词,如‘今天、天气、怎么样’,如果是针对其他的领域,它会把天天等所有的词汇,各种组合抓取出来,再去算它的概率,然后进行整合,针对不同人推算出不同答案。”

当然,现在不管是语音还是语义,目前这些技术都还停留在实验室的阶段。

那很多同仁会问,明年哪些技术能落地。

在这次1号机器人网研讨会上,龙梦竹说:“个性化合成音,明年可以落地。”

个性化合成音,目前很多机器人企业也在研发,我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间,所谓的个性化合成音,就是机器人会记录你说话的声音,然后可以模仿你的说话声,进入生活中的场景可以做到,当妈妈不在家时,机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些,很多人把电影里的机器人当成是机器人未来的模样,认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上,我们认为未来的机器人可以达到这个水平,目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述,所谓的多模态交互,就是让机器人具备人一样的行动能力,那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议,所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞,科大讯飞与北京市商汤科技开发有限公司(简称:商汤科技)合作,把智能语音与图像识别结合,这样可以做到,当你与机器人对话,一开口,机器人就定位声源,同时能转头看向你,且可以识别你是谁,这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通,到时可以让机器人与人交互,变得更加自然。我们认为未来十年多模态技术可以落地,因此,我们对未来还是要有所期待。
 
 
 
 
来源:1号机器人
智造家提供 查看全部
从上一篇《让机器人开口说话,依然令人头疼》这篇文章中,降噪问题让机器人企业很头疼,对机器人企业而言,既然语音降噪问题目前是解决不了的问题,那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲,能做智能语音的企业都是具备雄厚资金的企业,因为研发投入非常高昂,可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题,因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论,我们主要探讨语音与语义的后续发展。

 

之前,我们把语音与语义进行区分,现在这两者正在快速结合,因为语音与语义的标杆企业都在快速进入双方领域,可以说现在语音与语义已经不分开,因此,我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上,一个麦克风阵列实际上已经包含好几层的过滤处理,比如:当你开口说话,麦克风阵列会立马锁定你这个方向的声源,那其它方向的声音就会直接过滤掉,这是第一层过滤,当然,哪怕是你这个方向的声音,也会带有很多杂音,这些声音都会全部收录上传至云端,这个时候会有一个软件降噪模型,会把多余的噪音过滤掉,这是第二层过滤。

现在像科大讯飞股份有限公司(简称:科大讯飞)以及苏州思必驰信息科技有限公司(简称:思必驰)都在研发声纹识别,如果加上声纹识别就会有三层四层的过滤,那语音识别准确率就会进一步的提高。 

虽然目前没有办法完全过滤掉降噪,但是它是一个不断优化的过程。

 

这次1号机器人网研讨会上,困扰机器人企业的问题是如何在展会上演示机器人的时候,能够有比较完善的语音交互。
 
我们知道在展会上,声音是非常嘈杂,特别是让机器人演示语音交互,基本上都要挂掉。

以目前的技术是没有办法完全处理好,都是有技巧的去演示。

 

思必驰市场总监龙梦竹说:“在展会上演示,会涉及到众多的技术,比如降噪、回声消除、唤醒等等一套解决方案,非常考验技术。现在麦克风阵列基本上都是装在机器人的头部,在展会上与机器人交互的时候,对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说:“另外一个方式是通过手机,用嘴挨着手机讲,这个准确率是很高的,然后再传到机器人,这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说,目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

 

声纹识别就是密码,相当于钥匙,生物识别跟指纹识别又不一样,它是识别手指里面的静脉血管,因为每个人的静脉血管都不一样,所以它的精确度非常高,那像声纹识别其实也算是生物识别的一种,每个人声音的判定都不一样,这技术可以确认身份。也可以进行多人与机器人交互。

比如说:三个人同时与机器人进行对话,它能够识别这三个人的声音,然后把这些声音转化成文字,再上传进入后台。

这是目前语音技术的发展方向,那我们还要谈谈语义的发展方向。

针对语义,目前各个企业都是以垂直领域为主,每一个垂直领域都是一个独立的云,如果把各个垂直领域都结合起来,在针对一个产业,这是非常庞大且非常有价值的知识库,我们知道针对语义,最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于,我们每个人针对一个问题的答案是不一样的,比如说:明天会下雨吗?针对这个问题,汽车4S店要的答案是明天适不适合洗车,那针对普通大众想知道的是,明天上班需不需要带雨伞。

所以这个对于智能语音而言,目前是非常大的挑战,你不可能回答所有人的问题。

因此,语义下一步的发展方向,一定是围绕这些问题去处理。

甘楚辉说:“小i机器人就在往这方面努力,举个例子,‘今天天气怎么样’,我们的技术会把这句话打散,分成三个词,如‘今天、天气、怎么样’,如果是针对其他的领域,它会把天天等所有的词汇,各种组合抓取出来,再去算它的概率,然后进行整合,针对不同人推算出不同答案。”

当然,现在不管是语音还是语义,目前这些技术都还停留在实验室的阶段。

那很多同仁会问,明年哪些技术能落地。

在这次1号机器人网研讨会上,龙梦竹说:“个性化合成音,明年可以落地。”

个性化合成音,目前很多机器人企业也在研发,我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间,所谓的个性化合成音,就是机器人会记录你说话的声音,然后可以模仿你的说话声,进入生活中的场景可以做到,当妈妈不在家时,机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些,很多人把电影里的机器人当成是机器人未来的模样,认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上,我们认为未来的机器人可以达到这个水平,目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述,所谓的多模态交互,就是让机器人具备人一样的行动能力,那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议,所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞,科大讯飞与北京市商汤科技开发有限公司(简称:商汤科技)合作,把智能语音与图像识别结合,这样可以做到,当你与机器人对话,一开口,机器人就定位声源,同时能转头看向你,且可以识别你是谁,这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通,到时可以让机器人与人交互,变得更加自然。我们认为未来十年多模态技术可以落地,因此,我们对未来还是要有所期待。
 
 
 
 
来源:1号机器人
智造家提供
507 浏览

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)

机械自动化类 凯麦亿精密机械 2016-11-23 15:21 发表了文章 来自相关话题

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓






同样一段剪辑,但是人工智能系统已经给出了字幕↓↓







◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列





来进行唇语识别,输入音频序列





进行辅助。这样,模型的输出的概率分布为




 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓






其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 





这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
  查看全部
3.1_.jpg

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓

3.2_.gif


同样一段剪辑,但是人工智能系统已经给出了字幕↓↓

3.3_.gif



◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列
3.4_.JPG


来进行唇语识别,输入音频序列
3.5_.JPG


进行辅助。这样,模型的输出的概率分布为
3.6_.JPG

 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

3.7_.jpg


其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 
3.8_.JPG


这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
 
412 浏览

现阶段让机器人开口说话,需要技巧

机械自动化类 品管人生 2016-11-28 16:40 发表了文章 来自相关话题

从上一篇《让机器人开口说话,依然令人头疼》这篇文章中,降噪问题让机器人企业很头疼,对机器人企业而言,既然语音降噪问题目前是解决不了的问题,那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲,能做智能语音的企业都是具备雄厚资金的企业,因为研发投入非常高昂,可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题,因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论,我们主要探讨语音与语义的后续发展。

 

之前,我们把语音与语义进行区分,现在这两者正在快速结合,因为语音与语义的标杆企业都在快速进入双方领域,可以说现在语音与语义已经不分开,因此,我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上,一个麦克风阵列实际上已经包含好几层的过滤处理,比如:当你开口说话,麦克风阵列会立马锁定你这个方向的声源,那其它方向的声音就会直接过滤掉,这是第一层过滤,当然,哪怕是你这个方向的声音,也会带有很多杂音,这些声音都会全部收录上传至云端,这个时候会有一个软件降噪模型,会把多余的噪音过滤掉,这是第二层过滤。

现在像科大讯飞股份有限公司(简称:科大讯飞)以及苏州思必驰信息科技有限公司(简称:思必驰)都在研发声纹识别,如果加上声纹识别就会有三层四层的过滤,那语音识别准确率就会进一步的提高。 

虽然目前没有办法完全过滤掉降噪,但是它是一个不断优化的过程。

 

这次1号机器人网研讨会上,困扰机器人企业的问题是如何在展会上演示机器人的时候,能够有比较完善的语音交互。
 
我们知道在展会上,声音是非常嘈杂,特别是让机器人演示语音交互,基本上都要挂掉。

以目前的技术是没有办法完全处理好,都是有技巧的去演示。

 

思必驰市场总监龙梦竹说:“在展会上演示,会涉及到众多的技术,比如降噪、回声消除、唤醒等等一套解决方案,非常考验技术。现在麦克风阵列基本上都是装在机器人的头部,在展会上与机器人交互的时候,对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说:“另外一个方式是通过手机,用嘴挨着手机讲,这个准确率是很高的,然后再传到机器人,这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说,目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

 

声纹识别就是密码,相当于钥匙,生物识别跟指纹识别又不一样,它是识别手指里面的静脉血管,因为每个人的静脉血管都不一样,所以它的精确度非常高,那像声纹识别其实也算是生物识别的一种,每个人声音的判定都不一样,这技术可以确认身份。也可以进行多人与机器人交互。

比如说:三个人同时与机器人进行对话,它能够识别这三个人的声音,然后把这些声音转化成文字,再上传进入后台。

这是目前语音技术的发展方向,那我们还要谈谈语义的发展方向。

针对语义,目前各个企业都是以垂直领域为主,每一个垂直领域都是一个独立的云,如果把各个垂直领域都结合起来,在针对一个产业,这是非常庞大且非常有价值的知识库,我们知道针对语义,最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于,我们每个人针对一个问题的答案是不一样的,比如说:明天会下雨吗?针对这个问题,汽车4S店要的答案是明天适不适合洗车,那针对普通大众想知道的是,明天上班需不需要带雨伞。

所以这个对于智能语音而言,目前是非常大的挑战,你不可能回答所有人的问题。

因此,语义下一步的发展方向,一定是围绕这些问题去处理。

甘楚辉说:“小i机器人就在往这方面努力,举个例子,‘今天天气怎么样’,我们的技术会把这句话打散,分成三个词,如‘今天、天气、怎么样’,如果是针对其他的领域,它会把天天等所有的词汇,各种组合抓取出来,再去算它的概率,然后进行整合,针对不同人推算出不同答案。”

当然,现在不管是语音还是语义,目前这些技术都还停留在实验室的阶段。

那很多同仁会问,明年哪些技术能落地。

在这次1号机器人网研讨会上,龙梦竹说:“个性化合成音,明年可以落地。”

个性化合成音,目前很多机器人企业也在研发,我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间,所谓的个性化合成音,就是机器人会记录你说话的声音,然后可以模仿你的说话声,进入生活中的场景可以做到,当妈妈不在家时,机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些,很多人把电影里的机器人当成是机器人未来的模样,认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上,我们认为未来的机器人可以达到这个水平,目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述,所谓的多模态交互,就是让机器人具备人一样的行动能力,那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议,所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞,科大讯飞与北京市商汤科技开发有限公司(简称:商汤科技)合作,把智能语音与图像识别结合,这样可以做到,当你与机器人对话,一开口,机器人就定位声源,同时能转头看向你,且可以识别你是谁,这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通,到时可以让机器人与人交互,变得更加自然。我们认为未来十年多模态技术可以落地,因此,我们对未来还是要有所期待。
 
 
 
 
来源:1号机器人
智造家提供 查看全部
从上一篇《让机器人开口说话,依然令人头疼》这篇文章中,降噪问题让机器人企业很头疼,对机器人企业而言,既然语音降噪问题目前是解决不了的问题,那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲,能做智能语音的企业都是具备雄厚资金的企业,因为研发投入非常高昂,可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题,因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论,我们主要探讨语音与语义的后续发展。

 

之前,我们把语音与语义进行区分,现在这两者正在快速结合,因为语音与语义的标杆企业都在快速进入双方领域,可以说现在语音与语义已经不分开,因此,我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上,一个麦克风阵列实际上已经包含好几层的过滤处理,比如:当你开口说话,麦克风阵列会立马锁定你这个方向的声源,那其它方向的声音就会直接过滤掉,这是第一层过滤,当然,哪怕是你这个方向的声音,也会带有很多杂音,这些声音都会全部收录上传至云端,这个时候会有一个软件降噪模型,会把多余的噪音过滤掉,这是第二层过滤。

现在像科大讯飞股份有限公司(简称:科大讯飞)以及苏州思必驰信息科技有限公司(简称:思必驰)都在研发声纹识别,如果加上声纹识别就会有三层四层的过滤,那语音识别准确率就会进一步的提高。 

虽然目前没有办法完全过滤掉降噪,但是它是一个不断优化的过程。

 

这次1号机器人网研讨会上,困扰机器人企业的问题是如何在展会上演示机器人的时候,能够有比较完善的语音交互。
 
我们知道在展会上,声音是非常嘈杂,特别是让机器人演示语音交互,基本上都要挂掉。

以目前的技术是没有办法完全处理好,都是有技巧的去演示。

 

思必驰市场总监龙梦竹说:“在展会上演示,会涉及到众多的技术,比如降噪、回声消除、唤醒等等一套解决方案,非常考验技术。现在麦克风阵列基本上都是装在机器人的头部,在展会上与机器人交互的时候,对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说:“另外一个方式是通过手机,用嘴挨着手机讲,这个准确率是很高的,然后再传到机器人,这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说,目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

 

声纹识别就是密码,相当于钥匙,生物识别跟指纹识别又不一样,它是识别手指里面的静脉血管,因为每个人的静脉血管都不一样,所以它的精确度非常高,那像声纹识别其实也算是生物识别的一种,每个人声音的判定都不一样,这技术可以确认身份。也可以进行多人与机器人交互。

比如说:三个人同时与机器人进行对话,它能够识别这三个人的声音,然后把这些声音转化成文字,再上传进入后台。

这是目前语音技术的发展方向,那我们还要谈谈语义的发展方向。

针对语义,目前各个企业都是以垂直领域为主,每一个垂直领域都是一个独立的云,如果把各个垂直领域都结合起来,在针对一个产业,这是非常庞大且非常有价值的知识库,我们知道针对语义,最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于,我们每个人针对一个问题的答案是不一样的,比如说:明天会下雨吗?针对这个问题,汽车4S店要的答案是明天适不适合洗车,那针对普通大众想知道的是,明天上班需不需要带雨伞。

所以这个对于智能语音而言,目前是非常大的挑战,你不可能回答所有人的问题。

因此,语义下一步的发展方向,一定是围绕这些问题去处理。

甘楚辉说:“小i机器人就在往这方面努力,举个例子,‘今天天气怎么样’,我们的技术会把这句话打散,分成三个词,如‘今天、天气、怎么样’,如果是针对其他的领域,它会把天天等所有的词汇,各种组合抓取出来,再去算它的概率,然后进行整合,针对不同人推算出不同答案。”

当然,现在不管是语音还是语义,目前这些技术都还停留在实验室的阶段。

那很多同仁会问,明年哪些技术能落地。

在这次1号机器人网研讨会上,龙梦竹说:“个性化合成音,明年可以落地。”

个性化合成音,目前很多机器人企业也在研发,我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间,所谓的个性化合成音,就是机器人会记录你说话的声音,然后可以模仿你的说话声,进入生活中的场景可以做到,当妈妈不在家时,机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些,很多人把电影里的机器人当成是机器人未来的模样,认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上,我们认为未来的机器人可以达到这个水平,目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述,所谓的多模态交互,就是让机器人具备人一样的行动能力,那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议,所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞,科大讯飞与北京市商汤科技开发有限公司(简称:商汤科技)合作,把智能语音与图像识别结合,这样可以做到,当你与机器人对话,一开口,机器人就定位声源,同时能转头看向你,且可以识别你是谁,这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通,到时可以让机器人与人交互,变得更加自然。我们认为未来十年多模态技术可以落地,因此,我们对未来还是要有所期待。
 
 
 
 
来源:1号机器人
智造家提供
507 浏览

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)

机械自动化类 凯麦亿精密机械 2016-11-23 15:21 发表了文章 来自相关话题

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓






同样一段剪辑,但是人工智能系统已经给出了字幕↓↓







◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列





来进行唇语识别,输入音频序列





进行辅助。这样,模型的输出的概率分布为




 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓






其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 





这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供
  查看全部
3.1_.jpg

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据,创造唇语解读系统,把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目,如Newslight,BBC Breakfast 和Question Time。总体而言,视频包含了118,000个句子。


牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统,并用2016年3月至9月的节目来做测试。


这里是一段没有字幕的剪辑↓↓

3.2_.gif


同样一段剪辑,但是人工智能系统已经给出了字幕↓↓

3.3_.gif



◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段,在唇语解读这件事上,人工智能完胜人类专家。

在测试数据集上,人类专家无错误注释的字数仅有12.4%,而人工智能达到46.8%。同时,它犯的许多错误是很小的缺省,如少了一个词尾的“s”。这样的成绩,也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒(音译)说:“没有那个巨大的数据集,我们无法检验像深度学习这样的新技术。”

两个星期前,一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表,而BBC数据集包含了近17,500个独立单词,挑战要大得多。

另外,BBC数据集的语法来自广泛的真实人类语言,而GRID的33,000个句子语法单一,都是同样的模式,预测起来要简单得多。

DeepMind向牛津大学的这个小组表示,他们将开放BBC数据集以供训练用。 来自LipNet的Yannis Assael说,他非常渴望能使用这个数据集。


◆ ◆ ◆


唇语解读之路

为了让BBC数据集可供自动唇语解读所用,视频片段需先用机器学习进行处理。问题在于,音频流和视频流经常有1秒左右的延迟,这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。


但是,假设大多数的视频和音频对应完好,一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息,系统找出那些不匹配的的,将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后,唇语解读的挑战就可以开始了——这个挑战对人工而言,是艰巨的。


在此之前,大家已经进行了许多相关的尝试。他们使用卷积神经网络(CNNs)来从静止的图像中预测音位(phoneme)和视位(viseme)。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。


大神们使用离散余弦变换(DCT),深度瓶颈特征(DBF)等等手段来进行词汇及词组的预测。总的来讲,此前的研究有两个方面,其一是使用CTC(Connectionist Temporal Classification),这中方法首先在帧的层次上给出预测,然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列,然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。


这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下,通过识别讲话人的面部,输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中,定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列
3.4_.JPG


来进行唇语识别,输入音频序列
3.5_.JPG


进行辅助。这样,模型的输出的概率分布为
3.6_.JPG

 
系统由三个主要部分组成:图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

3.7_.jpg


其中,s 为状态向量,o为编码器的输出。最后会输出字符序列的概率分布。
 
3.8_.JPG


这套系统可以应用在许多方面,当然不包括唇语窃听:) 。它可以在嘈杂的环境中,向手机发送文字信息,这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然,它还有很多可以改进的空间,比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中,它只能获得当前所有的唇语动作,未来的唇语动作显然是无法获得的。


接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话,因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为,唇语解读最有可能用在用户设备上,帮助它们理解人类想要说的。

Assael 说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”
 
 
 
转自:大数据文摘 
智造家提供