从上一篇《让机器人开口说话，依然令人头疼》这篇文章中，降噪问题让机器人企业很头疼，对机器人企业而言，既然语音降噪问题目前是解决不了的问题，那至少在智能语音产品上能降低成本。

站在语音企业的立场去讲，能做智能语音的企业都是具备雄厚资金的企业，因为研发投入非常高昂，可以说目前的智能语音产品是不赚钱的。这也是尴尬的问题，因为一些语音企业内部还在讨论提高现有产品的价格。

这篇文章不在这些问题上讨论，我们主要探讨语音与语义的后续发展。

之前，我们把语音与语义进行区分，现在这两者正在快速结合，因为语音与语义的标杆企业都在快速进入双方领域，可以说现在语音与语义已经不分开，因此，我们把语音与语义结合统称为“智能语音”。

在智能语音的降噪问题上，一个麦克风阵列实际上已经包含好几层的过滤处理，比如：当你开口说话，麦克风阵列会立马锁定你这个方向的声源，那其它方向的声音就会直接过滤掉，这是第一层过滤，当然，哪怕是你这个方向的声音，也会带有很多杂音，这些声音都会全部收录上传至云端，这个时候会有一个软件降噪模型，会把多余的噪音过滤掉，这是第二层过滤。

现在像科大讯飞股份有限公司（简称：科大讯飞）以及苏州思必驰信息科技有限公司（简称：思必驰）都在研发声纹识别，如果加上声纹识别就会有三层四层的过滤，那语音识别准确率就会进一步的提高。

虽然目前没有办法完全过滤掉降噪，但是它是一个不断优化的过程。

这次1号机器人网研讨会上，困扰机器人企业的问题是如何在展会上演示机器人的时候，能够有比较完善的语音交互。

我们知道在展会上，声音是非常嘈杂，特别是让机器人演示语音交互，基本上都要挂掉。

以目前的技术是没有办法完全处理好，都是有技巧的去演示。

思必驰市场总监龙梦竹说：“在展会上演示，会涉及到众多的技术，比如降噪、回声消除、唤醒等等一套解决方案，非常考验技术。现在麦克风阵列基本上都是装在机器人的头部，在展会上与机器人交互的时候，对着头部距离要控制在1米以内。而且千万不要在视频播放或者音乐播放的时候去打断它。”

小i机器人售前技术顾问甘楚辉说：“另外一个方式是通过手机，用嘴挨着手机讲，这个准确率是很高的，然后再传到机器人，这样可以让机器人在展会上的语音识别率大幅提高。”

从语音技术的发展层面上来说，目前包括思必驰、科大讯飞等都在往声纹识别、生物识别的方向发展。

声纹识别就是密码，相当于钥匙，生物识别跟指纹识别又不一样，它是识别手指里面的静脉血管，因为每个人的静脉血管都不一样，所以它的精确度非常高，那像声纹识别其实也算是生物识别的一种，每个人声音的判定都不一样，这技术可以确认身份。也可以进行多人与机器人交互。

比如说：三个人同时与机器人进行对话，它能够识别这三个人的声音，然后把这些声音转化成文字，再上传进入后台。

这是目前语音技术的发展方向，那我们还要谈谈语义的发展方向。

针对语义，目前各个企业都是以垂直领域为主，每一个垂直领域都是一个独立的云，如果把各个垂直领域都结合起来，在针对一个产业，这是非常庞大且非常有价值的知识库，我们知道针对语义，最重要的东西也就是这些知识库。

目前小i机器人就在做这样的事情。

现在语义的问题在于，我们每个人针对一个问题的答案是不一样的，比如说：明天会下雨吗？针对这个问题，汽车4S店要的答案是明天适不适合洗车，那针对普通大众想知道的是，明天上班需不需要带雨伞。

所以这个对于智能语音而言，目前是非常大的挑战，你不可能回答所有人的问题。

因此，语义下一步的发展方向，一定是围绕这些问题去处理。

甘楚辉说：“小i机器人就在往这方面努力，举个例子，‘今天天气怎么样’，我们的技术会把这句话打散，分成三个词，如‘今天、天气、怎么样’，如果是针对其他的领域，它会把天天等所有的词汇，各种组合抓取出来，再去算它的概率，然后进行整合，针对不同人推算出不同答案。”

当然，现在不管是语音还是语义，目前这些技术都还停留在实验室的阶段。

那很多同仁会问，明年哪些技术能落地。

在这次1号机器人网研讨会上，龙梦竹说：“个性化合成音，明年可以落地。”

个性化合成音，目前很多机器人企业也在研发，我们传统做一个语音模型至少需要5000小时的输出量去做训练。

现在通过最新的技术只需要5-10分钟的训练时间，所谓的个性化合成音，就是机器人会记录你说话的声音，然后可以模仿你的说话声，进入生活中的场景可以做到，当妈妈不在家时，机器人可以做到模仿妈妈的声音与小孩交互。这也算是一个亮点技术。

如果我们把目光再扩展一些，很多人把电影里的机器人当成是机器人未来的模样，认为机器人智能程度就应该像电影里的机器人一样。

在这次1号机器人网研讨会上，我们认为未来的机器人可以达到这个水平，目前行业内诉说的多模态交互就是让机器人往这方向发展。

用通俗的语言描述，所谓的多模态交互，就是让机器人具备人一样的行动能力，那基本上要把机器人身上的众多技术都要打通。目前的困难点是很多企业不愿意开发协议，所以要让机器人身上的各种技术都互通协议是非常困难的。

目前行业内多模态交互技术走在行业前面的是科大讯飞，科大讯飞与北京市商汤科技开发有限公司（简称：商汤科技）合作，把智能语音与图像识别结合，这样可以做到，当你与机器人对话，一开口，机器人就定位声源，同时能转头看向你，且可以识别你是谁，这是智能语音与图像识别结合的多模态交互。

未来还会有很多技术互通，到时可以让机器人与人交互，变得更加自然。我们认为未来十年多模态技术可以落地，因此，我们对未来还是要有所期待。

来源：1号机器人
智造家提供

现阶段让机器人开口说话，需要技巧

作者相关

品管人生

0 个评论

写评论

相关问题

相关标签