智能语音

0 推荐

412 浏览

0评论

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

机械自动化类品管人生 2016-11-28 16:40 发表了文章来自相关话题

从上一篇《让机器人开口说话，依然令人头疼》这篇文章中，降噪问题让机器人企业很头疼，对机器人企业而言，既然语音降噪问题目前是解决不了的问题，那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲，能做智能语音的企业都是具备雄厚资金的企业，因为研发投入非常高昂，可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题，因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论，我们主要探讨语音与语义的后续发展。

之前，我们把语音与语义进行区分，现在这两者正在快速结合，因为语音与语义的标杆企业都在快速进入双方领域，可以说现在语音与语义已经不分开，因此，我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上，一个麦克风阵列实际上已经包含好几层的过滤处理，比如：当你开口说话，麦克风阵列会立马锁定你这个方向的声源，那其它方向的声音就会直接过滤掉，这是第一层过滤，当然，哪怕是你这个方向的声音，也会带有很多杂音，这些声音都会全部收录上传至云端，这个时候会有一个软件降噪模型，会把多余的噪音过滤掉，这是第二层过滤。

现在像科大讯飞股份有限公司（简称：科大讯飞）以及苏州思必驰信息科技有限公司（简称：思必驰）都在研发声纹识别，如果加上声纹识别就会有三层四层的过滤，那语音识别准确率就会进一步的提高。

虽然目前没有办法完全过滤掉降噪，但是它是一个不断优化的过程。

这次1号机器人网研讨会上，困扰机器人企业的问题是如何在展会上演示机器人的时候，能够有比较完善的语音交互。

我们知道在展会上，声音是非常嘈杂，特别是让机器人演示语音交互，基本上都要挂掉。

以目前的技术是没有办法完全处理好，都是有技巧的去演示。

思必驰市场总监龙梦竹说：“在展会上演示，会涉及到众多的技术，比如降噪、回声消除、唤醒等等一套解决方案，非常考验技术。现在麦克风阵列基本上都是装在机器人的头部，在展会上与机器人交互的时候，对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说：“另外一个方式是通过手机，用嘴挨着手机讲，这个准确率是很高的，然后再传到机器人，这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说，目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

声纹识别就是密码，相当于钥匙，生物识别跟指纹识别又不一样，它是识别手指里面的静脉血管，因为每个人的静脉血管都不一样，所以它的精确度非常高，那像声纹识别其实也算是生物识别的一种，每个人声音的判定都不一样，这技术可以确认身份。也可以进行多人与机器人交互。

比如说：三个人同时与机器人进行对话，它能够识别这三个人的声音，然后把这些声音转化成文字，再上传进入后台。

这是目前语音技术的发展方向，那我们还要谈谈语义的发展方向。

针对语义，目前各个企业都是以垂直领域为主，每一个垂直领域都是一个独立的云，如果把各个垂直领域都结合起来，在针对一个产业，这是非常庞大且非常有价值的知识库，我们知道针对语义，最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于，我们每个人针对一个问题的答案是不一样的，比如说：明天会下雨吗？针对这个问题，汽车4S店要的答案是明天适不适合洗车，那针对普通大众想知道的是，明天上班需不需要带雨伞。

所以这个对于智能语音而言，目前是非常大的挑战，你不可能回答所有人的问题。

因此，语义下一步的发展方向，一定是围绕这些问题去处理。

甘楚辉说：“小i机器人就在往这方面努力，举个例子，‘今天天气怎么样’，我们的技术会把这句话打散，分成三个词，如‘今天、天气、怎么样’，如果是针对其他的领域，它会把天天等所有的词汇，各种组合抓取出来，再去算它的概率，然后进行整合，针对不同人推算出不同答案。”

当然，现在不管是语音还是语义，目前这些技术都还停留在实验室的阶段。

那很多同仁会问，明年哪些技术能落地。

在这次1号机器人网研讨会上，龙梦竹说：“个性化合成音，明年可以落地。”

个性化合成音，目前很多机器人企业也在研发，我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间，所谓的个性化合成音，就是机器人会记录你说话的声音，然后可以模仿你的说话声，进入生活中的场景可以做到，当妈妈不在家时，机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些，很多人把电影里的机器人当成是机器人未来的模样，认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上，我们认为未来的机器人可以达到这个水平，目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述，所谓的多模态交互，就是让机器人具备人一样的行动能力，那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议，所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞，科大讯飞与北京市商汤科技开发有限公司（简称：商汤科技）合作，把智能语音与图像识别结合，这样可以做到，当你与机器人对话，一开口，机器人就定位声源，同时能转头看向你，且可以识别你是谁，这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通，到时可以让机器人与人交互，变得更加自然。我们认为未来十年多模态技术可以落地，因此，我们对未来还是要有所期待。

来源：1号机器人
智造家提供查看全部

1 推荐

507 浏览

0评论

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI

机械自动化类凯麦亿精密机械 2016-11-23 15:21 发表了文章来自相关话题

【导语】人工智能正在进军唇语解读阵地。谷歌DeepMind和牛津大学应用深度学习实验室的一个项目正利用BBC的大量节目数据，创造唇语解读系统，把人类专家远远地甩在身后。

◆ ◆ ◆

这套系统的训练材料包括约5000小时、6个不同的电视节目，如Newslight，BBC Breakfast 和Question Time。总体而言，视频包含了118,000个句子。

牛津大学和DeepMind的研究人员用2010年1月至2015年12月播出的节目训练了这套系统，并用2016年3月至9月的节目来做测试。

这里是一段没有字幕的剪辑↓↓

同样一段剪辑，但是人工智能系统已经给出了字幕↓↓

◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段，在唇语解读这件事上，人工智能完胜人类专家。

在测试数据集上，人类专家无错误注释的字数仅有12.4%，而人工智能达到46.8%。同时，它犯的许多错误是很小的缺省，如少了一个词尾的“s”。这样的成绩，也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒（音译）说：“没有那个巨大的数据集，我们无法检验像深度学习这样的新技术。”

两个星期前，一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表，而BBC数据集包含了近17，500个独立单词，挑战要大得多。

另外，BBC数据集的语法来自广泛的真实人类语言，而GRID的33，000个句子语法单一，都是同样的模式，预测起来要简单得多。

DeepMind向牛津大学的这个小组表示，他们将开放BBC数据集以供训练用。来自LipNet的Yannis Assael说，他非常渴望能使用这个数据集。

◆ ◆ ◆

唇语解读之路

为了让BBC数据集可供自动唇语解读所用，视频片段需先用机器学习进行处理。问题在于，音频流和视频流经常有1秒左右的延迟，这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。

但是，假设大多数的视频和音频对应完好，一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息，系统找出那些不匹配的的，将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后，唇语解读的挑战就可以开始了——这个挑战对人工而言，是艰巨的。

在此之前，大家已经进行了许多相关的尝试。他们使用卷积神经网络（CNNs）来从静止的图像中预测音位（phoneme）和视位（viseme）。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。

大神们使用离散余弦变换（DCT），深度瓶颈特征（DBF）等等手段来进行词汇及词组的预测。总的来讲，此前的研究有两个方面，其一是使用CTC（Connectionist Temporal Classification），这中方法首先在帧的层次上给出预测，然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列，然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。

这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下，通过识别讲话人的面部，输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中，定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列

来进行唇语识别，输入音频序列

进行辅助。这样，模型的输出的概率分布为

系统由三个主要部分组成：图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

其中，s 为状态向量，o为编码器的输出。最后会输出字符序列的概率分布。

这套系统可以应用在许多方面，当然不包括唇语窃听:) 。它可以在嘈杂的环境中，向手机发送文字信息，这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然，它还有很多可以改进的空间，比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中，它只能获得当前所有的唇语动作，未来的唇语动作显然是无法获得的。

接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话，因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为，唇语解读最有可能用在用户设备上，帮助它们理解人类想要说的。

Assael 说：“我们相信，机器唇语解读器有非常大的应用前景，比如改进助听器，公共场所的无声指令（Siri再也不必听到你的声音了），嘈杂环境下的语音识别等。”

转自：大数据文摘
智造家提供
查看全部

同样一段剪辑，但是人工智能系统已经给出了字幕↓↓

◆ ◆ ◆

人工智能制胜之道

对数据集中随机选择的200个片段，在唇语解读这件事上，人工智能完胜人类专家。

在测试数据集上，人类专家无错误注释的字数仅有12.4%，而人工智能达到46.8%。同时，它犯的许多错误是很小的缺省，如少了一个词尾的“s”。这样的成绩，也完胜其它的自动唇语解读系统。

“这是迈向全自动唇语解读系统的一大步。”芬兰奥卢大学的周子恒（音译）说：“没有那个巨大的数据集，我们无法检验像深度学习这样的新技术。”

两个星期前，一个名为LipNet的类似深度学习系统——同样是牛津大学开发的——在一个名为GRID的数据集上胜过了人类。但是GRID只包含了由51个独立单词组成的词表，而BBC数据集包含了近17，500个独立单词，挑战要大得多。

另外，BBC数据集的语法来自广泛的真实人类语言，而GRID的33，000个句子语法单一，都是同样的模式，预测起来要简单得多。

DeepMind向牛津大学的这个小组表示，他们将开放BBC数据集以供训练用。来自LipNet的Yannis Assael说，他非常渴望能使用这个数据集。

◆ ◆ ◆

唇语解读之路

为了让BBC数据集可供自动唇语解读所用，视频片段需先用机器学习进行处理。问题在于，音频流和视频流经常有1秒左右的延迟，这使得人工智能几乎无法在所说的单词和相应的口型之间建立联系。

但是，假设大多数的视频和音频对应完好，一个计算机系统可以学会将声音和口型正确地对应起来。基于这个信息，系统找出那些不匹配的的，将它们重新匹配。这样自动处理了所有的5000小时的视频和音频资料后，唇语解读的挑战就可以开始了——这个挑战对人工而言，是艰巨的。

在此之前，大家已经进行了许多相关的尝试。他们使用卷积神经网络（CNNs）来从静止的图像中预测音位（phoneme）和视位（viseme）。这两个概念分别是声音和图像中可以辨认出来的语言的最小单位。然后人们接着尝试去识别词汇及词组。

大神们使用离散余弦变换（DCT），深度瓶颈特征（DBF）等等手段来进行词汇及词组的预测。总的来讲，此前的研究有两个方面，其一是使用CTC（Connectionist Temporal Classification），这中方法首先在帧的层次上给出预测，然后把输出的字符流按照合适的方式组合起来。这种方法的缺陷是词汇与词汇之间是独立的。另一个方向是训练序列-序列模型。这种方式是读取整个输入序列，然后再进行预测。对这个系统帮助最大的就是Chan等人的论文《Vinyals. Listen, attend and spell》。论文中提出了一种很精致的声音到文字的序列-序列方法。

这套唇语识别系统由一套“看-听-同步-写”网络组成。它可以在有声音或没有声音的情况下，通过识别讲话人的面部，输出视频里面讲的句子。在输出向量Y=(y1,y2,...,yl)中，定义每一个输出字符yi都是前面左右字符y<i的条件分布。
输出图像序列

来进行唇语识别，输入音频序列

进行辅助。这样，模型的输出的概率分布为

系统由三个主要部分组成：图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

其中，s 为状态向量，o为编码器的输出。最后会输出字符序列的概率分布。

这套系统可以应用在许多方面，当然不包括唇语窃听:) 。它可以在嘈杂的环境中，向手机发送文字信息，这样你的siri就可以不必听你讲清楚了。也可以为档案中无声的电影进行配音。还可以处理同时有好多人说话的情况。当然，它还有很多可以改进的空间，比如它的输入是一个视频的完整的唇语动作。但是在实时的视频处理中，它只能获得当前所有的唇语动作，未来的唇语动作显然是无法获得的。

接下来的问题是如何应用人工智能的唇语解读新能力。我们不必担心计算机通过解读唇语来偷听我们的谈话，因为长距离麦克风的偷听能力在多数情况下要好得多。

周子恒认为，唇语解读最有可能用在用户设备上，帮助它们理解人类想要说的。

Assael 说：“我们相信，机器唇语解读器有非常大的应用前景，比如改进助听器，公共场所的无声指令（Siri再也不必听到你的声音了），嘈杂环境下的语音识别等。”

转自：大数据文摘
智造家提供

0 推荐

412 浏览

0评论

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

机械自动化类品管人生 2016-11-28 16:40 发表了文章来自相关话题

1 推荐

507 浏览

0评论

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI

机械自动化类凯麦亿精密机械 2016-11-23 15:21 发表了文章来自相关话题

同样一段剪辑，但是人工智能系统已经给出了字幕↓↓

来进行唇语识别，输入音频序列

进行辅助。这样，模型的输出的概率分布为

系统由三个主要部分组成：图像编码、音频编码和文字解码。

下图是系统的示意图↓↓

其中，s 为状态向量，o为编码器的输出。最后会输出字符序列的概率分布。

更多...

年月

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI

标签描述

相关话题

年 月

智能语音

现阶段让机器人开口说话，需要技巧 智能语音 工业革命 人工智能

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家（附论文下载） 案例 智能制造 智能语音 AI

现阶段让机器人开口说话，需要技巧 智能语音 工业革命 人工智能

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家（附论文下载） 案例 智能制造 智能语音 AI

标签描述

相关话题

年月

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI

现阶段让机器人开口说话，需要技巧

智能语音

工业革命

人工智能

谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）

案例

智能制造

智能语音

AI