语音识别

1 推荐

500 浏览

0评论

从算法平台到机器视觉和语音识别，优必选全面布局人工智能

语音识别

人工智能

智能科技类第四人称 2017-03-31 14:26 发表了文章来自相关话题

从 2008 年到 2012 年，周剑用了第一个五年时间，研发出满意的舵机。这成为周剑在 2012 年创立优必选科技（下简称优必选）的底气，也成就了优必选的第一个五年————舵机是优必选的核心技术，覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品，由于市场对其产品的看好，公司也在 2016 年完成 B 轮 1 亿美元融资，估值超 10 亿美元，入选 CB Insights 发布的全球独角兽榜单。

在舵机技术上站稳脚跟之后，周剑为优必选下一个五年定调。今年 2 月，优必选创始人兼 CEO 周剑宣布，「2017 年优必选将重点布局人工智能领域，通过产品创新和商业创新实现 15 亿元的销售目标。」

今年的两会将人工智能写进政府报告，人工智能在国内的发展达到了前所未有的热度。无论是 BAT 这样的巨头，还是众多创业公司，都试图在人工智能上找到能落地的应用场景。周剑认为，「在人工智能这件事上，优必选有天然的优势。因为从某种意义上来说，机器人是人工智能落地最好的平台。」

寻找人形机器人商业化突破口

「机器人的最终形态应该是能适应人类生活环境的双足人形机器人，比如它能像人类一样，在多种环境中行走，比如上下楼梯，这其中的核心问题就是驱动，只有解决这个问题，机器人才能真正意义上进入家庭环境。」周剑说。目前国际上名气较大的人形机器人产品并不多，比如软银收购的 Aldebaran Robotics 公司研发的人形机器人 NAO、以及本田的 ASIMO 机器人和波士顿动力的轮式、腿式机器人等。

在周剑看来，目前市面上很多机器人产品都是过渡型产物，比如现在的一些音箱产品。「如果实现商业化，是没有人愿意跟一个音箱对话的。」因为智能家居最终无法满足人类的情感需求，「它代替不了类似于《太空旅客》真正的人形机器人。」

然而，目前人形机器人在驱动，包括关节驱动、运动技术、控制运动算法上面，还没有实现真正突破，尤其是可商业化的驱动技术。据周剑介绍，在驱动方面，波士顿动力用的是液压技术，本田的阿西莫（ASIMO）机器人用的是电机伺服的控制方式，这两种技术都能实现不错的驱动，但是问题在于成本太高，阿西莫（ASIMO）一台机器人搭出来需要 200 多万美金。

除了高昂的成本外，使用中繁琐的技术方式也让一些机器人很难真正走进市场，比如 ASIMO 机器人的传动中用了 20 多根皮带，在使用过程中，每隔一段时间都需要重新打开机器人内部来调整皮带的松紧度。这种技术方式导致 ASIMO 很难实现商业化量产，而且本田在这条技术道路上耕耘了几十年，某种程度上有些积重难返，即便他们的核心算法和机器人躯干部分都搭建的很好。

因此，用高性价比的技术方式，让人形机器人价格降下来，被一般家庭所接受，是优必选的目标。周剑说，「优必选一直在朝着一个能够真正让驱动关节模块化、商业化的方向去努力，所以我们现在做的伺服舵机，包括在腿部的一些舵机，某种意义上就是在朝着商业化目标努力。」

人形机器人的市场才刚刚开始，优必选需要做一些比较前沿性、引导性的工作。「未来我们希望在某种意义上建立一套全球化的机器人标准，比如人形机器人的标准是什么、规格是什么、它的曲轴运动，包括人工智能的一些基本的需求。」

不过，虽然轮式机器人不是人形机器人的最终形式，但周剑也坦言，「目前技术平台下面，轮式机器人还有一些优势，包括在 2B 的一些场所。」因此，优必选在今年年初的 CES 上推出了首款商用服务机器人 Cruzr。Cruzr 是首款提供企业级商用服务的机器人，可为客户提供定制的人工智能商务服务。

全面布局人工智能战略

优必选的机器人研发从舵机开始，经过近 10 年的研发，舵机已经成为优必选的核心技术，并由此开拓了多个产品线。在舵机这条技术产品线上，优必选一直专注于核心零部件的供应，硬件开发逐渐成为优必选的优势。

而机器人商业化所需要的语音识别、机器视觉以及算法平台等软件技术能力，则是优必选明显存在的劣势。周剑也坦言，「优必选是硬件起家，舵机一直是其引以为豪的核心技术，而软件是最薄弱的地方」，这也是优必选决定大力布局人工智能的原因。

据周剑介绍，优必选在北京、硅谷分别设有研发中心，研发方向侧重在机器视觉、语音识别、语义理解、算法平台等人工智能领域，博士背景的核心研发人员达到数十人，公司在人工智能方面投入的资金比重也大大提升，占总营收的 45%。

除了大型的伺服舵机关键驱动技术外，算法平台和人工智能，将成为优必选最为重要的发展阵地。

周剑希望能够自助搭建出一个类似于比波士顿动力更好的平台的一个算法。在此之前，优必选对谷歌、波士顿动力、本田等全球所有大型人形机器人公司的技术都进行了长期研究。在周剑看来，与优必选在驱动产品上下功夫不同，「这些机构不算纯商业化的公司，也根本没有打算很快推出商业化的产品。」他接着补充道：「我们现正在研发中的伺服舵机，跟波士顿他们的完全不一样。此外优必选把能耗看的很重，在运动算法上投入了很大力量。」

在人工智能方面，优必选主要力量放在机器视觉和数据上。周剑解释称：「因为信息来源大部分还是来自机器视觉，另外由于机器视觉技术需要更大量的数据，数据是其要推动的技术。」比如光线的细微变化都能影响到机器对物体的判断。这一点周剑印象颇深，他举了一个例子，在家庭厨房场景中，炒菜时的油烟会导致机器人的视觉判断模糊，针对这个问题就需要做雾化、去白、去油烟的技术。

事实上，优必选去年年底就开始为人工智能布局招揽人才，前 IEEE 主席霍华德博士、清华大学赵明国教授、欧洲科学院院士陶大程博士，先后加入并分别担任其教育 CTO、「人形机器人首席科学家」。

去年科大讯飞入股优必选，也给了后者在语音识别上得到了强有力的支撑，周剑称，讯飞的技术「能用的我们都会拿来用」。

在视觉和语音之外，另一个无法回避的问题是语义理解。「这是一个全球性难题」，周剑说，「单纯的自然语言理解（NLU）解决不了所有的机器人问题，未来的识别理解是多模态的，是基于视觉、语音、语意的多模态的理解。包括识别人体的姿态，人类的动作有很多，机器人会做很多动作，到底这个动作的目的、意义是什么？」比如，当两人第一次见面时，举手就意味着是握手打招呼，在离别的时候，举手的含义就是道别，这些都需要机器人能够准确的识别。

但优必选并不打算全面开展这些技术的自主研发，周剑表示，「不可能所有的东西都由优必选自己来做，可以通过融资来收购、并购一些技术公司。」据了解，优必选已经有了比较中意的合作对象，可能会对其进行战略投资、入股，甚至是更加深入的合作，与此同时，其新一轮融资也在进行中。

更多内容请关注：www.imefuture.com

来源：微信公众号机器之心杜雪查看全部

在舵机技术上站稳脚跟之后，周剑为优必选下一个五年定调。今年 2 月，优必选创始人兼 CEO 周剑宣布，「2017 年优必选将重点布局人工智能领域，通过产品创新和商业创新实现 15 亿元的销售目标。」

今年的两会将人工智能写进政府报告，人工智能在国内的发展达到了前所未有的热度。无论是 BAT 这样的巨头，还是众多创业公司，都试图在人工智能上找到能落地的应用场景。周剑认为，「在人工智能这件事上，优必选有天然的优势。因为从某种意义上来说，机器人是人工智能落地最好的平台。」

寻找人形机器人商业化突破口

「机器人的最终形态应该是能适应人类生活环境的双足人形机器人，比如它能像人类一样，在多种环境中行走，比如上下楼梯，这其中的核心问题就是驱动，只有解决这个问题，机器人才能真正意义上进入家庭环境。」周剑说。目前国际上名气较大的人形机器人产品并不多，比如软银收购的 Aldebaran Robotics 公司研发的人形机器人 NAO、以及本田的 ASIMO 机器人和波士顿动力的轮式、腿式机器人等。

在周剑看来，目前市面上很多机器人产品都是过渡型产物，比如现在的一些音箱产品。「如果实现商业化，是没有人愿意跟一个音箱对话的。」因为智能家居最终无法满足人类的情感需求，「它代替不了类似于《太空旅客》真正的人形机器人。」

然而，目前人形机器人在驱动，包括关节驱动、运动技术、控制运动算法上面，还没有实现真正突破，尤其是可商业化的驱动技术。据周剑介绍，在驱动方面，波士顿动力用的是液压技术，本田的阿西莫（ASIMO）机器人用的是电机伺服的控制方式，这两种技术都能实现不错的驱动，但是问题在于成本太高，阿西莫（ASIMO）一台机器人搭出来需要 200 多万美金。

除了高昂的成本外，使用中繁琐的技术方式也让一些机器人很难真正走进市场，比如 ASIMO 机器人的传动中用了 20 多根皮带，在使用过程中，每隔一段时间都需要重新打开机器人内部来调整皮带的松紧度。这种技术方式导致 ASIMO 很难实现商业化量产，而且本田在这条技术道路上耕耘了几十年，某种程度上有些积重难返，即便他们的核心算法和机器人躯干部分都搭建的很好。

因此，用高性价比的技术方式，让人形机器人价格降下来，被一般家庭所接受，是优必选的目标。周剑说，「优必选一直在朝着一个能够真正让驱动关节模块化、商业化的方向去努力，所以我们现在做的伺服舵机，包括在腿部的一些舵机，某种意义上就是在朝着商业化目标努力。」

人形机器人的市场才刚刚开始，优必选需要做一些比较前沿性、引导性的工作。「未来我们希望在某种意义上建立一套全球化的机器人标准，比如人形机器人的标准是什么、规格是什么、它的曲轴运动，包括人工智能的一些基本的需求。」

不过，虽然轮式机器人不是人形机器人的最终形式，但周剑也坦言，「目前技术平台下面，轮式机器人还有一些优势，包括在 2B 的一些场所。」因此，优必选在今年年初的 CES 上推出了首款商用服务机器人 Cruzr。Cruzr 是首款提供企业级商用服务的机器人，可为客户提供定制的人工智能商务服务。

全面布局人工智能战略

优必选的机器人研发从舵机开始，经过近 10 年的研发，舵机已经成为优必选的核心技术，并由此开拓了多个产品线。在舵机这条技术产品线上，优必选一直专注于核心零部件的供应，硬件开发逐渐成为优必选的优势。

而机器人商业化所需要的语音识别、机器视觉以及算法平台等软件技术能力，则是优必选明显存在的劣势。周剑也坦言，「优必选是硬件起家，舵机一直是其引以为豪的核心技术，而软件是最薄弱的地方」，这也是优必选决定大力布局人工智能的原因。

据周剑介绍，优必选在北京、硅谷分别设有研发中心，研发方向侧重在机器视觉、语音识别、语义理解、算法平台等人工智能领域，博士背景的核心研发人员达到数十人，公司在人工智能方面投入的资金比重也大大提升，占总营收的 45%。

除了大型的伺服舵机关键驱动技术外，算法平台和人工智能，将成为优必选最为重要的发展阵地。

周剑希望能够自助搭建出一个类似于比波士顿动力更好的平台的一个算法。在此之前，优必选对谷歌、波士顿动力、本田等全球所有大型人形机器人公司的技术都进行了长期研究。在周剑看来，与优必选在驱动产品上下功夫不同，「这些机构不算纯商业化的公司，也根本没有打算很快推出商业化的产品。」他接着补充道：「我们现正在研发中的伺服舵机，跟波士顿他们的完全不一样。此外优必选把能耗看的很重，在运动算法上投入了很大力量。」

在人工智能方面，优必选主要力量放在机器视觉和数据上。周剑解释称：「因为信息来源大部分还是来自机器视觉，另外由于机器视觉技术需要更大量的数据，数据是其要推动的技术。」比如光线的细微变化都能影响到机器对物体的判断。这一点周剑印象颇深，他举了一个例子，在家庭厨房场景中，炒菜时的油烟会导致机器人的视觉判断模糊，针对这个问题就需要做雾化、去白、去油烟的技术。

事实上，优必选去年年底就开始为人工智能布局招揽人才，前 IEEE 主席霍华德博士、清华大学赵明国教授、欧洲科学院院士陶大程博士，先后加入并分别担任其教育 CTO、「人形机器人首席科学家」。

去年科大讯飞入股优必选，也给了后者在语音识别上得到了强有力的支撑，周剑称，讯飞的技术「能用的我们都会拿来用」。

在视觉和语音之外，另一个无法回避的问题是语义理解。「这是一个全球性难题」，周剑说，「单纯的自然语言理解（NLU）解决不了所有的机器人问题，未来的识别理解是多模态的，是基于视觉、语音、语意的多模态的理解。包括识别人体的姿态，人类的动作有很多，机器人会做很多动作，到底这个动作的目的、意义是什么？」比如，当两人第一次见面时，举手就意味着是握手打招呼，在离别的时候，举手的含义就是道别，这些都需要机器人能够准确的识别。

但优必选并不打算全面开展这些技术的自主研发，周剑表示，「不可能所有的东西都由优必选自己来做，可以通过融资来收购、并购一些技术公司。」据了解，优必选已经有了比较中意的合作对象，可能会对其进行战略投资、入股，甚至是更加深入的合作，与此同时，其新一轮融资也在进行中。

更多内容请关注：www.imefuture.com

来源：微信公众号机器之心杜雪

0 推荐

391 浏览

0评论

从技术角度，回顾2016年语音识别的发展

语音识别

人工智能

智能制造类喷漆李 2016-12-26 13:56 发表了文章来自相关话题

得益于深度学习与人工神经网络的发展，语音识别在2016年取得了一系列突破性的进展，在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环，语音识别一直是科技巨头研究的重点，国内外也涌现出了一批优秀的创业公司。

今年年初，机器之心发布来自 ACM 中文版的文章《深度 | 四十年的难题与荣耀——从历史视角看语音识别发展》，文中微软首席语音科学家黄学东为我们深入解读了语音识别的历史以及发展难题。

长久以来，人与机器交谈一直是人机交互领域内的一个梦想。语音识别做为很基础的技术在这一年中再次有了更大的发展。

一年中，机器之心拜访过科大讯飞，接触过云知声、思必驰等创业公司，在微软的英语语音识别取得突破后更是深度专访了微软的黄学东、俞栋，不久之前的百度语音开发平台三周年的主题活动上我们也向百度首席科学家吴恩达了解过百度的语音识别发展。我们希望从机器之心文章中梳理出的线索，能为接下来语音识别的发展提供一丝洞见。

在这篇文章中，我们会依次梳理 2016 年机器之心关注到的语音识别领域的突破性研究、未来待解决的难题、语音识别发展历史中较为重要的时间点。

一、2016 年语音识别有哪些突破？

这一部分盘点了 2016 年机器之心所关注到的在语音识别准确率上取得的突破，主要涉及的公司包括百度、IBM 和微软等。根据这些突破，我们梳理出了一条语音识别技术发展的线路。

1. 百度 Deep Speech 2 的短语识别的词错率降到了 3.7%

发生时间：2016 年 2 月

Deep Speech 2 于 2015 年 12 月首次发布时，首席科学家吴恩达表示其识别的精度已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。到今年 2 月份时，Deep Speech 2 的短语识别的词错率已经降到了 3.7%

不久之前，百度又将 Deep CNN 应用于语音识别研究，使用了 VGGNet，以及包含 Residual 连接的深层 CNN 等结构，并将 LSTM 和 CTC 的端对端语音识别技术相结合，使得识别错误率相对下降了 10%（原错误率的 90%）以上。

据百度语音技术部识别技术负责人、Deep Speech 中文研发负责人李先刚博士介绍说，百度正在努力推进 Deep Speech 3，这项研究不排除将会是 Deep Speech 3 的核心组成部分。

技术提升基础：1. 端到端深度学习方法；2. 深层卷积神经网络技术（Deep CNN）应用于语音识别声学建模中，与基于长短时记忆单元（LSTM）和连接时序分类（CTC）的端对端语音识别技术相结合。

2.IBM Watson 会话词错率低至 6.9%

发生时间：2016 年 5 月

2015 年，IBM Watson 公布了英语会话语音识别领域的一个重大里程碑：系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率（WER）。到了今年 5 月份，IBM Watson 团队再次宣布在同样的任务中他们的系统创造了 6.9% 的词错率新纪录。

技术提升基础：声学和语言建模两方面技术的提高

3. 微软新系统英语语音识别词错率低至 6.3%

发生时间：2016 年 9 月

在产业标准 Switchboard 语音识别任务上，微软研究者取得了产业中最低的 6.3% 的词错率（WER）。

技术提升基础：基于神经网络的声学和语言模型的发展，数个声学模型的结合，把 ResNet 用到语音识别。

4. 微软英语语音识别词错率达到了 5.9%，媲美人类

发生时间：2016 年 10 月

微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率（WER），达到了 5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平，而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。这个里程碑意味着，一台计算机在识别对话中的词上第一次能和人类做得一样好。

技术提升基础：系统性地使用了卷积和 LSTM 神经网络，并结合了一个全新的空间平滑方法（spatial smoothing method）和 lattice-free MMI 声学训练。

虽然在准确率的突破上都给出了数字基准，但百度与微软、IBM（switchboard 上测试）有较大的不同。微软的研究更加学术，是在标准数据库——口语数据库 switchboard 上面完成的，这个数据库只有 2000 小时。

微软研究院的研究关注点是基于 switchboard 数据库，语音识别最终能做到什么样的性能。而据百度语音识别技术负责人李先刚介绍，他们的关注点是语音技术能够深入到大家的日常应用中，他们用的数据长达数万小时。

黄学东在之前接受机器之心专访时也表示他们的这个语音识别系统里面没有 bug，因为要在标准数据上做到这样的水平，实际上体现了工程的完美。

就各项突破的技术提升基础，我们可以很明晰的梳理出一条线：

1. 之前 LSTM 这样的模型开始成功应用于语音识别，今年的后续研究不断提升 LSTM 的模型效果。

2. 另外一个比较大的进展是 Deep CNN。Deep CNN 比起双向 LSTM（双向效果比较好）有一个好处——时延。所以在实时系统里会更倾向于用 Deep CNN 而不是双向 LSTM。

3. 端到端学习，这也是百度首席科学家吴恩达在 NIPS 2016 上重点提到的。比如语音识别，输入的是语音，输出的是文本，这是比较纯粹的端对端学习。但是它也有缺点——需要足够大的训练集。

图：吴恩达 NIPS 2016 ppt

这方面现在的研究工作主要集中在两类模型上。一类就是 CTC 模型，包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI；还有一类是基于注意的序列到序列模型。今天它们的表现也还是比混合模型逊色，训练的稳定性也更差，但是这些模型有比较大的潜力（参考机器之心对俞栋老师的专访）。

国内还有其他几家做语音识别的公司，这里对科大讯飞、搜狗、云知声的语音识别系统做个简单介绍。

去年年底，科大讯飞提出了以前馈型序列记忆网络（FSMN, Feed-forward Sequential Memory Network）为代表的新一代语音识别系统。

今年，科大讯飞又推出了全新的深度全序列卷积神经网络（Deep Fully Convolutional Neural Network, DFCNN）语音识别框架，使用大量的卷积层直接对整句语音信号进行建模，更好的表达了语音的长时相关性。据介绍，该框架的表现比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。其结构图如下：

科大讯飞 DFCNN 的结构图

同时，我也附上搜狗、云知声提供的各自的语音识别系统的流程，以供大家学习、比较、参考：

语音识别系统流程：语音信号经过前端信号处理、端点检测等处理后，逐帧提取语音特征，传统的特征类型包括 MFCC、PLP、FBANK 等特征，提取好的特征送至解码器，在声学模型、语言模型以及发音词典的共同指导下，找到最为匹配的词序列作为识别结果输出。

搜狗 CNN 语音识别系统建模流程

云知声语音识别系统

二、难题与前沿方向

在语音识别高速发展的一年，我们曾专访过黄学东、俞栋等多位领域内的专家，不可避免的探讨了未来语音识别领域所面临的方向、挑战、抑或是难题。现如今整理如下，希望能对大家接下来的语音识别研究有所帮助：

1. 语义理解

黄学东认为，要做好语音识别需要更好的语义理解，二者相辅相成。「人的鲁棒性非常好，一个新的课题过来，他可以通过会话的方式跟你沟通，也能得到很好的结果。而机器对噪音的抗噪性不够强，对新的课题会话沟通能力比较差。最重要的一点是，语音识别并没有理解你的语义。理解语义是人工智能下一个需要攻克的难题，这也是我们团队花很多时间和精力正在做的事情。」

2. 值得关注的四大方向

在之前机器之心对俞栋的专访中，他为我们指出了语音识别领域的几大前沿：

在安静环境下并使用近距麦克风的场合，语音识别的识别率已越过了实用的门槛；但是在某些场景下效果还不是那么好，这就是我们这个领域的 frontier。现在大家主攻几点：

首先，是不是能够进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右，所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理（例如麦克风阵列）和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外，大家还在研究更好的识别算法。这个「更好」有几个方面：一个方面是能不能更简单。现在的模型训练过程还是比较复杂的，需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话，很多团队都要用很长时间才能搭建一个还 OK 的系统，即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe，包括像 CNTK 这样的深度学习工具包，事情已经容易多了，但还有继续简化的空间。这方面有很多的工作正在做，包括如何才能不需要 alignment 、或者不需要 dictionary。现在的研究主要还是基于 end-to-end 的方法，就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system，但是已经接近 hybrid system 的 performance 了。

另外一个方面，最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试，比如说人在跟另外一个人对话的过程中，他会一直做 prediction，这个 prediction 包括很多东西，不单是包括你下一句想要说什么话，还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法—就是快速的不需要人工干预的自适应方法（unsupervised adaptation）。现在虽然已经有一些自适应的算法了，但是它们相对来说自适应的速度比较慢，或者需要较多的数据。有没有办法做到更快的自适应？就好像第一次跟一个口音很重的人说话的时候，你可能开始听不懂，但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

三、语音识别历史的梳理

在这一部分我简单的梳理了一下语音识别历史上比较关键的一些时间点，至于详细的语音识别技术研究历史可参考之前提到的黄学东老师写的《四十年的难题与荣耀——从历史视角看语音识别发展》。

1952 年，贝尔实验室 Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统，但只能识别一人的发音。

1962 年，IBM 展示了 Shoebox。Shoebox 能理解 16 个口语单词以及 0-9 的英文数字。

1969 年，贝尔实验室的 John Pierce 预言成熟的语音识别在数十年内不会成为现实，因为它需要人工智能。

1970 年，普林斯顿大学的 Lenny Baum 发明隐马尔可夫模型（Hidden Markov Model)。

20 世纪 70 年代，卡耐基梅隆大学研发 harpy speech recognition system，能够识别 1011 个单词，相当于 3 岁儿童的词汇量。

20 世纪 80 年代，语音识别引入了隐马尔可夫模型（Hidden Markov Model)。

20 世纪 90 年代出现首个消费级产品 DragonDictate，由国际语音识别公司 Nuance 发布。

2007 年，Dag Kittlaus 和 Adam Cheyer 创立 Siri.Inc。后被苹果收购并于 2011 年首次出现在 iPhone 4s 上。

2009 年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

2011 年微软率先取得突破，使用深度神经网络模型之后，语音识别错误率降低 30%。

2015 年，IBM Watson 公布了英语会话语音识别领域的一个重大里程碑：系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率（WER）。

语音识别，在这一年有了极大的发展，从算法到模型都有了质的变化，在加上语音领域（语音合成等）的其他研究，语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。当有一天，机器能够真正「理解」人类语言，并作出回应，那时我们必将迎来一个崭新的时代。

来源：李亚洲机器之心

更多内容请关注：www.imefuture.com

工业现场的有线通讯
基于C51的嵌入式实时控制模块的设计与实现

智造家查看全部

得益于深度学习与人工神经网络的发展，语音识别在2016年取得了一系列突破性的进展，在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环，语音识别一直是科技巨头研究的重点，国内外也涌现出了一批优秀的创业公司。

今年年初，机器之心发布来自 ACM 中文版的文章《深度 | 四十年的难题与荣耀——从历史视角看语音识别发展》，文中微软首席语音科学家黄学东为我们深入解读了语音识别的历史以及发展难题。

长久以来，人与机器交谈一直是人机交互领域内的一个梦想。语音识别做为很基础的技术在这一年中再次有了更大的发展。

一年中，机器之心拜访过科大讯飞，接触过云知声、思必驰等创业公司，在微软的英语语音识别取得突破后更是深度专访了微软的黄学东、俞栋，不久之前的百度语音开发平台三周年的主题活动上我们也向百度首席科学家吴恩达了解过百度的语音识别发展。我们希望从机器之心文章中梳理出的线索，能为接下来语音识别的发展提供一丝洞见。

在这篇文章中，我们会依次梳理 2016 年机器之心关注到的语音识别领域的突破性研究、未来待解决的难题、语音识别发展历史中较为重要的时间点。

一、2016 年语音识别有哪些突破？

这一部分盘点了 2016 年机器之心所关注到的在语音识别准确率上取得的突破，主要涉及的公司包括百度、IBM 和微软等。根据这些突破，我们梳理出了一条语音识别技术发展的线路。

1. 百度 Deep Speech 2 的短语识别的词错率降到了 3.7%

发生时间：2016 年 2 月

Deep Speech 2 于 2015 年 12 月首次发布时，首席科学家吴恩达表示其识别的精度已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。到今年 2 月份时，Deep Speech 2 的短语识别的词错率已经降到了 3.7%

不久之前，百度又将 Deep CNN 应用于语音识别研究，使用了 VGGNet，以及包含 Residual 连接的深层 CNN 等结构，并将 LSTM 和 CTC 的端对端语音识别技术相结合，使得识别错误率相对下降了 10%（原错误率的 90%）以上。

据百度语音技术部识别技术负责人、Deep Speech 中文研发负责人李先刚博士介绍说，百度正在努力推进 Deep Speech 3，这项研究不排除将会是 Deep Speech 3 的核心组成部分。

技术提升基础：1. 端到端深度学习方法；2. 深层卷积神经网络技术（Deep CNN）应用于语音识别声学建模中，与基于长短时记忆单元（LSTM）和连接时序分类（CTC）的端对端语音识别技术相结合。

2.IBM Watson 会话词错率低至 6.9%

发生时间：2016 年 5 月

2015 年，IBM Watson 公布了英语会话语音识别领域的一个重大里程碑：系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率（WER）。到了今年 5 月份，IBM Watson 团队再次宣布在同样的任务中他们的系统创造了 6.9% 的词错率新纪录。

技术提升基础：声学和语言建模两方面技术的提高

3. 微软新系统英语语音识别词错率低至 6.3%

发生时间：2016 年 9 月

在产业标准 Switchboard 语音识别任务上，微软研究者取得了产业中最低的 6.3% 的词错率（WER）。

技术提升基础：基于神经网络的声学和语言模型的发展，数个声学模型的结合，把 ResNet 用到语音识别。

4. 微软英语语音识别词错率达到了 5.9%，媲美人类

发生时间：2016 年 10 月

微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率（WER），达到了 5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平，而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。这个里程碑意味着，一台计算机在识别对话中的词上第一次能和人类做得一样好。

技术提升基础：系统性地使用了卷积和 LSTM 神经网络，并结合了一个全新的空间平滑方法（spatial smoothing method）和 lattice-free MMI 声学训练。

虽然在准确率的突破上都给出了数字基准，但百度与微软、IBM（switchboard 上测试）有较大的不同。微软的研究更加学术，是在标准数据库——口语数据库 switchboard 上面完成的，这个数据库只有 2000 小时。

微软研究院的研究关注点是基于 switchboard 数据库，语音识别最终能做到什么样的性能。而据百度语音识别技术负责人李先刚介绍，他们的关注点是语音技术能够深入到大家的日常应用中，他们用的数据长达数万小时。

黄学东在之前接受机器之心专访时也表示他们的这个语音识别系统里面没有 bug，因为要在标准数据上做到这样的水平，实际上体现了工程的完美。

就各项突破的技术提升基础，我们可以很明晰的梳理出一条线：

1. 之前 LSTM 这样的模型开始成功应用于语音识别，今年的后续研究不断提升 LSTM 的模型效果。

2. 另外一个比较大的进展是 Deep CNN。Deep CNN 比起双向 LSTM（双向效果比较好）有一个好处——时延。所以在实时系统里会更倾向于用 Deep CNN 而不是双向 LSTM。

3. 端到端学习，这也是百度首席科学家吴恩达在 NIPS 2016 上重点提到的。比如语音识别，输入的是语音，输出的是文本，这是比较纯粹的端对端学习。但是它也有缺点——需要足够大的训练集。

图：吴恩达 NIPS 2016 ppt

这方面现在的研究工作主要集中在两类模型上。一类就是 CTC 模型，包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI；还有一类是基于注意的序列到序列模型。今天它们的表现也还是比混合模型逊色，训练的稳定性也更差，但是这些模型有比较大的潜力（参考机器之心对俞栋老师的专访）。

国内还有其他几家做语音识别的公司，这里对科大讯飞、搜狗、云知声的语音识别系统做个简单介绍。

去年年底，科大讯飞提出了以前馈型序列记忆网络（FSMN, Feed-forward Sequential Memory Network）为代表的新一代语音识别系统。

今年，科大讯飞又推出了全新的深度全序列卷积神经网络（Deep Fully Convolutional Neural Network, DFCNN）语音识别框架，使用大量的卷积层直接对整句语音信号进行建模，更好的表达了语音的长时相关性。据介绍，该框架的表现比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。其结构图如下：

科大讯飞 DFCNN 的结构图

同时，我也附上搜狗、云知声提供的各自的语音识别系统的流程，以供大家学习、比较、参考：

语音识别系统流程：语音信号经过前端信号处理、端点检测等处理后，逐帧提取语音特征，传统的特征类型包括 MFCC、PLP、FBANK 等特征，提取好的特征送至解码器，在声学模型、语言模型以及发音词典的共同指导下，找到最为匹配的词序列作为识别结果输出。

搜狗 CNN 语音识别系统建模流程

云知声语音识别系统

二、难题与前沿方向

在语音识别高速发展的一年，我们曾专访过黄学东、俞栋等多位领域内的专家，不可避免的探讨了未来语音识别领域所面临的方向、挑战、抑或是难题。现如今整理如下，希望能对大家接下来的语音识别研究有所帮助：

1. 语义理解

黄学东认为，要做好语音识别需要更好的语义理解，二者相辅相成。「人的鲁棒性非常好，一个新的课题过来，他可以通过会话的方式跟你沟通，也能得到很好的结果。而机器对噪音的抗噪性不够强，对新的课题会话沟通能力比较差。最重要的一点是，语音识别并没有理解你的语义。理解语义是人工智能下一个需要攻克的难题，这也是我们团队花很多时间和精力正在做的事情。」

2. 值得关注的四大方向

在之前机器之心对俞栋的专访中，他为我们指出了语音识别领域的几大前沿：

在安静环境下并使用近距麦克风的场合，语音识别的识别率已越过了实用的门槛；但是在某些场景下效果还不是那么好，这就是我们这个领域的 frontier。现在大家主攻几点：

首先，是不是能够进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右，所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理（例如麦克风阵列）和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外，大家还在研究更好的识别算法。这个「更好」有几个方面：一个方面是能不能更简单。现在的模型训练过程还是比较复杂的，需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话，很多团队都要用很长时间才能搭建一个还 OK 的系统，即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe，包括像 CNTK 这样的深度学习工具包，事情已经容易多了，但还有继续简化的空间。这方面有很多的工作正在做，包括如何才能不需要 alignment 、或者不需要 dictionary。现在的研究主要还是基于 end-to-end 的方法，就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system，但是已经接近 hybrid system 的 performance 了。

另外一个方面，最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试，比如说人在跟另外一个人对话的过程中，他会一直做 prediction，这个 prediction 包括很多东西，不单是包括你下一句想要说什么话，还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法—就是快速的不需要人工干预的自适应方法（unsupervised adaptation）。现在虽然已经有一些自适应的算法了，但是它们相对来说自适应的速度比较慢，或者需要较多的数据。有没有办法做到更快的自适应？就好像第一次跟一个口音很重的人说话的时候，你可能开始听不懂，但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

三、语音识别历史的梳理

在这一部分我简单的梳理了一下语音识别历史上比较关键的一些时间点，至于详细的语音识别技术研究历史可参考之前提到的黄学东老师写的《四十年的难题与荣耀——从历史视角看语音识别发展》。

1952 年，贝尔实验室 Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统，但只能识别一人的发音。

1962 年，IBM 展示了 Shoebox。Shoebox 能理解 16 个口语单词以及 0-9 的英文数字。

1969 年，贝尔实验室的 John Pierce 预言成熟的语音识别在数十年内不会成为现实，因为它需要人工智能。

1970 年，普林斯顿大学的 Lenny Baum 发明隐马尔可夫模型（Hidden Markov Model)。

20 世纪 70 年代，卡耐基梅隆大学研发 harpy speech recognition system，能够识别 1011 个单词，相当于 3 岁儿童的词汇量。

20 世纪 80 年代，语音识别引入了隐马尔可夫模型（Hidden Markov Model)。

20 世纪 90 年代出现首个消费级产品 DragonDictate，由国际语音识别公司 Nuance 发布。

2007 年，Dag Kittlaus 和 Adam Cheyer 创立 Siri.Inc。后被苹果收购并于 2011 年首次出现在 iPhone 4s 上。

2009 年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

2011 年微软率先取得突破，使用深度神经网络模型之后，语音识别错误率降低 30%。

2015 年，IBM Watson 公布了英语会话语音识别领域的一个重大里程碑：系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率（WER）。

语音识别，在这一年有了极大的发展，从算法到模型都有了质的变化，在加上语音领域（语音合成等）的其他研究，语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。当有一天，机器能够真正「理解」人类语言，并作出回应，那时我们必将迎来一个崭新的时代。

来源：李亚洲机器之心

更多内容请关注：www.imefuture.com

工业现场的有线通讯
基于C51的嵌入式实时控制模块的设计与实现

智造家

0 推荐

337 浏览

0评论

聊聊语音识别的发展历程

语音识别

深度学习

人工智能

机械自动化类品管人生 2016-12-05 13:28 发表了文章来自相关话题

现在的语音识别的准确率看起来已经很高了,虽然已经将近95%了,不过从95%到99%还有很大的距离,如果识别准确率到了99%了,相信语音的应用应该会非常广泛了吧!

在深度学习发展之前,语音识别还是基于传统的机器学习算法,如混合高斯分布(GMM)拟合以及隐马尔科夫模型(HMM)对音标状态进行推测.但是基于这类算法实现的语音识别系统精确度不够高,这类算法主要在2010年以前.而在2012年以后,随着Hinto的ImageNet比赛上神经网络的大显身手之后,深度学习开始走向热门.

这主要是由于现阶段计算机的计算性能显著提高,加上2006年Hinto提出了一种新型的神经网络训练算法使得深度学习死灰复燃.而深度学习主要是基于神经网络,通过构造多层神经网络来实现对输入数据进行得到较好的抽象的特征分布.当然,最基本的神经网络就是一层前馈神经网络,它由一个隐含层构成,隐含层上具有一个核函数或称激活函数,此核函数可以为线性的也可以为非线性的,只要满足可微的性质就好,这种较浅的神经网络无法拟合较为复杂的高维问题,例如语音识别.

因此,人们开始探索构建深层的前馈神经网络,即DNN,通过DNN对语音特征(一般为音频的功率谱)进行学习,然后再接入状态的HMM中去来获得最优的音节.这种由DNN表示的对语音特征进行分布学习的网络结构并不具有时间关联性,因为其隐含层里面的神经元之间没有连接,所以为了刻画语音识别中的内部关联性,循环神经网络就派上了用场,即RNN。

由于循环神经网络隐含层的神经元之间有连接,这样可以保证后一时刻记录了前一时刻的特征信息,从而提高了语音识别准确率,当然,这里我说的识别准确率主要是针对声学模型而言的,实践表明语音识别的准确率主要取决于声学模型的准确率,语言模型在这里只是起到了一个锦上添花的作用.在RNN以及Deep RNN被应用之后,为了更全面地获取音频的上下文信息,又引入了Bidirectional RNN,即双向循环神经网络,这种网络包含两条隐含层,即前向记忆层和后向记忆层,这样就使得网络对特征的记忆更加全面了。

但是由于RNN难以训练,经常会遇到梯度消失或梯度爆炸问题,LSTM很好地客服了这个缺点,所以尽管训练复杂度更大了,但是LSTM独特的记忆结构以及优于RNN的训练使得语音识别更加准确了,同时双向LSTM网络也被广泛使用了.

语音识别目前还处在监督学习阶段,监督学习主要由两部分构成,一是模型,二是目标函数.在语音识别问题上,目标函数主要有两种.一种是最传统的交叉熵形势,即把每一帧所得到的音标与目标音标进行比较,这样就得到一个交叉熵公式或者平方差公式作为目标函数,然后使用此目标函数利用梯度下降算法进行训练;而第二种则是使用一种端对端的训练方法,即不考虑每一帧的准确性,因为有时候我们只有音频和其对应的整句文字,而并不知道每一帧所对应的是哪个字母或哪个音标,这时候端对端的训练就派上用场了,端对端的训练所使用的算法是CTC,输入挣个音频得到整个句子再计算其误差函数从而进行训练.实践表明,第一种方法更容易训练一点,但是我觉得第二种训练方法是趋势,第二种训练方法的技巧我本人也在不断探索中.恰好,前不久百度硅谷研究院也开源了一个CTC代码,在github上面有.

这是我的一点语音识别的体会,当然还有其他一些方法,例如使用注意力模型或者使用深度卷积神经网络.这两块我以后再慢慢介绍.

来源： Pony 深度学习每日摘要
智造家查看全部

0 推荐

402 浏览

0评论

语音识别技术原理详解

原理介绍

语音识别

新技术

机械自动化类星旭自动化 2016-11-16 18:42 发表了文章来自相关话题

语音识别技术原理在本质上就是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字；其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

在人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别开始被越来越多的人关注，国外微软、苹果、谷歌、nuance，国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法，似乎人类与语音的自然交互渐行渐近。

我们都希望像《钢铁侠》中那样智能先进的语音助手，在与机器人进行语音交流时，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别技术，也被称为自动语音识别AutomaTIc Speech RecogniTIon，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。下面我们来详细解读语音识别技术原理。

一：语音识别技术原理-语音识别系统的基础单元

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字；其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

自动语音识别技术有三个基本原理：首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码；其次语音是可以阅读的，即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示；第三语音交互是一个认知过程，因而不能与语言的语法、语义和语用结构割裂开来。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。声学建模；语言模型

搜索

连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。

系统实现

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。

二：语音识别技术原理-工作原理解读

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，声学特征也不止有MFCC这一种，具体这里不讲。

至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing DicTIonary‎。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别是怎么工作的呢？实际上一点都不神秘，无非是：

第一步，把帧识别成状态（难点）。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢？有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，这里不讲。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型（Hidden Markov Model，HMM）。这东西听起来好像很高深的样子，实际上用起来很简单：

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢？把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

三：语音识别技术原理-语音识别系统的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：

①对语音信号进行分析和处理，除去冗余信息。

②提取影响语音识别的关键信息和表达语言含义的特征信息。

③紧扣特征信息，用最小单元识别字词。

④按照不同语言的各自语法，依照先后次序识别字词。

⑤把前后意思当作辅助识别条件，有利于分析和识别。

⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

音识别系统基本原理框图

语音识别系统基本原理结构如图所示。语音识别原理有三点：①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行；②由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示；③语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

四：语音识别技术原理-发展历程

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院（Colledge of London）的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear PredicTIve Coding （LPC），及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学（CarnegieMellonUniversity）的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。

来源：1号机器人

智造家提供查看全部

未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字；其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

自动语音识别技术有三个基本原理：首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码；其次语音是可以阅读的，即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示；第三语音交互是一个认知过程，因而不能与语言的语法、语义和语用结构割裂开来。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。声学建模；语言模型

搜索

连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。

系统实现

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。

二：语音识别技术原理-工作原理解读

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，声学特征也不止有MFCC这一种，具体这里不讲。

至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing DicTIonary‎。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别是怎么工作的呢？实际上一点都不神秘，无非是：

第一步，把帧识别成状态（难点）。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢？有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，这里不讲。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型（Hidden Markov Model，HMM）。这东西听起来好像很高深的样子，实际上用起来很简单：

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢？把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

三：语音识别技术原理-语音识别系统的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：

①对语音信号进行分析和处理，除去冗余信息。

②提取影响语音识别的关键信息和表达语言含义的特征信息。

③紧扣特征信息，用最小单元识别字词。

④按照不同语言的各自语法，依照先后次序识别字词。

⑤把前后意思当作辅助识别条件，有利于分析和识别。

⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

音识别系统基本原理框图

语音识别系统基本原理结构如图所示。语音识别原理有三点：①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行；②由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示；③语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

四：语音识别技术原理-发展历程

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院（Colledge of London）的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear PredicTIve Coding （LPC），及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学（CarnegieMellonUniversity）的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。

来源：1号机器人

智造家提供

4 推荐

674 浏览

0评论

让机器人开口说话，依然令人头疼

工业4.0

智能化

语音识别

机器人的发展现状

机械自动化类品管人生 2016-11-07 10:55 发表了文章来自相关话题

对大部分人而言，机器人不能说话，那就不能代表是机器人。但说到机器人的说话能力，那就涉及到智能语音与语义，扯到语音与语义，这是让行业人士都头疼的问题。

虽然我们在实验室里测试，机器人的说话能力可以达到预期的效果，比如，在测试过程中，你问一个问题，机器人回答一个问题，这基本上符合要求。

但是要让机器人进入终端各种市场，面临的问题是非常大的。

主要是噪音问题，语音企业说在安静的场所下，语音的识别率可以达到95%以上，但是在现实生活中，到处充满着噪音，所以很难达到要求。

从一线市场反应的情况是，就算机器人进入到家庭，一个是电视机的播放声，导致机器人经常被唤醒；一个是让机器人处在一个四周都是玻璃门的环境中，识音效果是非常糟糕的；另外，我们人与人之间的对话是有停顿的，但是与机器人之间的对话还要控制好停顿的时间，需要把语言整理的比较顺畅才可以。

所以种种原因导致机器人进入终端市场，体验感非常差。这就是目前我们所面临的情况。

在这次1号机器人网研讨会上，很多嘉宾都清楚语音与语义的问题点出在哪里，虽然现在我们把智能语音分成语音与语义，但是这两者都将归为统一，这是趋势。

[login]
因为在产品使用的过程中，用户不能容忍语音编出来的文字，是非常不准确的，如果错误率高，那就是一个伪功能的产品。

所以不管是语音或语义企业，去收购团队也好，还是自己研发也好，语音与语义终归要一体化。

另外，大部分机器人企业基本上都接触过主流的语音与语义企业，都清楚每家都各有优缺点，例如：深圳市捷通华声科技有限公司（简称：捷通华声）可以对语言模型进行定制，在这一点上，科大讯飞股份有限公司（简称：科大讯飞）可以提供声学定制，但对于语言模型就显得很尴尬。

当我们用语音模型的时候，在音、字完全不对的情况下，这些东西就只能在后台纠错，这个纠错本身就是数据。

总的来说，目前不管是语音企业还是语义企业，提供产品还是很难达到预期效果的，深圳市狗尾草智能科技有限公司（简称：狗尾草）CTO王昊奋说：“很多情况下，不能单靠语音企业，语音企业要更加的开放，然后语义企业需要更积极的往前端迈一步，只有双方交集更紧密，这个生态圈才会更好。”

另外在语义方面，小i机器人是走在行业的前面，因为数据库很庞大，但对于机器人企业而言，不需要这么多的数据库，因为产品基本上都是场景驱动，只要达到听的少，说的自然就足够了。

从机器人企业这边反馈而来，其实现在语音企业的解决方案都很类似，在技术差不多的情况下，优势就体现在数据库。

在数据库方面，各家都有自己的优势，例如：科大讯飞的优势体现在教育领域，捷通华声的优势体现在高铁领域，苏州思必驰信息科技有限公司（简称“思必驰”）优势体现在车载领域，北京云知声信息技术有限公司（简称：云知声）的优势在医院应用领域等等。

所以在语义方面，走向专业化也是一个趋势，图灵机器人是针对通用领域，但目前瓶颈也是在通用型对话领域，图灵机器人技术总监孙永超说：“通用型是没有边界，我们现在能达到80%以上的语义理解准确率，但是达到80%以后，就很难提升了，所以现在图灵机器人下一步的重点将会聚焦在儿童领域。”

在语音与语义领域，我们还存在很多的技术难题，很多时候不只是识别声音，还有场景识别，包括：在家庭里，婴儿的哭声、电话的铃声、还有其他非人的声音等等。这些东西都需要再进行处理。

总之，现在还不能叫人工智能的时代，叫人工智障时代。

因为机器人更擅长大数据，只会计算，不会算计，只有智商，没有情商，现在的机器人还只是冰冷冷的东西，只会用一种调子讲话，离用户的期望还是很大的。

另外，还有降噪问题，目前是没有根本的解决方案，只能做一些技术上的改进。

深圳市中智科创机器人有限公司（简称：中智科创）市场部营销副总经理彭勋禄说：“针对语音与语义，我们也是希望有一家企业能提供解决方案，但是我们发现很难用起来，主要的原因是，我们设计的场景跟客户设计的场景会有很大的区别，如果我们在这上面做二次开发的代价是，比我们自己研发投入，其实是差不多的。”

王昊奋说：“甚至我们自己研发去做，情况还不会更坏，后续产品迭代会更有好处。”

特别是在麦克风阵列上，降噪是绕不过去的问题，如果短期内没有更好的解决方案，那么在成本上是我们需要去突破的。

目前麦克风阵列五麦的价格差不多是200元/个，但是对于做儿童陪伴机器人的企业而言，希望麦克风阵列价格能够控制在100元/个以内，这是需要语音企业去突破的。
[/login]

来源：1号机器人
智造家提供查看全部

5 推荐

790 浏览

0评论

专访 | 顶级语音专家、MSR首席研究员俞栋：语音识别的四大前沿研究

案例

新兴产业

人工智能

语音识别

机械自动化类品管人生 2016-10-31 14:25 发表了文章来自相关话题

9 月中旬，微软报告了在语音识别方面取得的新里程碑：新系统的识别词错率降至 6.3%；一个月后，微软又公布了在这一领域成功实现了历史性突破：他们的语音识别系统实现了和专业转录员相当甚至更低的词错率（WER），达到了 5.9%！机器之心在此期间曾对微软首席语音科学家黄学东进行了专访，探讨了这一连串突破性背后的技术和语音识别领域未来的可能性。近日，机器之心又对微软研究院首席研究员俞栋进行了一次独家专访，谈论了深度学习与语音识别相辅相成的发展以及相关领域的现状和未来。

俞栋简介：1998 年加入微软公司，现任微软研究院首席研究员，兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家，出版了两本专著，发表了 160 多篇论文，是 60 余项专利的发明人及深度学习开源软件 CNTK 的发起人和主要作者之一。曾获 2013 年 IEEE 信号处理协会最佳论文奖。现担任 IEEE 语音语言处理专业委员会委员，曾担任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

以下是此次专访的内容：

机器之心：请俞老师先给我们的读者介绍一下目前语音识别方面最值得关注的一些方向。

俞栋：在安静环境下并使用近距麦克风的场合，语音识别的识别率已越过了实用的门槛；但是在某些场景下效果还不是那么好，这就是我们这个领域的 frontier。现在大家主攻几点：

首先，是不是能够进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右，所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理（例如麦克风阵列）和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外，大家还在研究更好的识别算法。这个「更好」有几个方面：一个方面是能不能更简单。现在的模型训练过程还是比较复杂的，需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话，很多团队都要用很长时间才能搭建一个还 OK 的系统即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe，包括像 CNTK 这样的深度学习工具包，事情已经容易多了，但还有继续简化的空间。这方面有很多的工作正在做，包括如何才能不需要 alignment 、或者不需要 dictionary。现在的研究主要还是基于 end-to-end 的方法，就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system，但是已经接近 hybrid system 的 performance 了。

另外一个方面，最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试，比如说人在跟另外一个人对话的过程中，他会一直做 prediction，这个 prediction 包括很多东西，不单是包括你下一句想要说什么话，还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法—就是快速的不需要人工干预的自适应方法（unsupervised adaptation）。现在虽然已经有一些自适应的算法了，但是它们相对来说自适应的速度比较慢，或者需要较多的数据。有没有办法做到更快的自适应？就好像第一次跟一个口音很重的人说话的时候，你可能开始听不懂，但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

从识别来讲，我觉得目前主要是这些方向。

机器之心：Google DeepMind 最近提出了一种通过学习合成波形的方式生成语音的技术 WaveNet，据说可以生成感觉更自然的语音，微软在这方面有什么研究项目？

俞栋：微软也在做类似的工作，但是因为合成的研究团队和工程团队都在中国，我对他们具体到哪个地步不是特别清楚。有一些信息我也不能直接披露，所以就不详细讲了。

机器之心：深度学习已经在语音识别得到了非常出色的表现，您觉得未来语音识别还能在深度学习的哪些方面实现突破？

俞栋：刚才我讲了，其中的一个可能性就是通过各种类型的 prediction 和 adaptation 使得深度学习模型表现更出色，这是有可能继续提升的地方。另外就是 end-to-end 建模。

还有，像我们最近也在做一些特殊环境中的语音识别，比如说在高噪音环境下、或者你说话的时候有背景的音乐、或者是会议室里面有多个人同时说话——这些情况下现在的语音识别效果是很差的。所以我们也在研究如何用深度学习的方法在比如多说话人的情况下做得比原来传统的方法好。我们现在已经在 arXiv 上面发布了一个早期结果的预印本（Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation），含有更多实验结果的正式版本现在正在审稿中。我们的这一称为 Permutation Invariant Training 的方法主要用于语音分离。用这种方法整个 process 比较简单而效果很好。在这些方面深度学习都能带来一定的突破。当然，我前面也讲了，完全解决这些问题需要软硬结合，从拾音到前端和后端需要系统性优化。

机器之心：在类似汉语这种多音字、多音词比较多的语言中，语音识别方面有什么和英语这样的拼音语言不一样的地方？

俞栋：从语音识别的技术角度来讲，没有太大的区别。因为你最终都是将语音信号，即 waveform sequence，变成字或者词的 sequence。多音字和多音词只是词表里对应的字或词有多个发音规则而已，这在其他语言比如英语中也很常见。

不过中文是一个有音调的语言，音调对字和词的识别是有影响的。音调信息如果用好的话，就有可能提升识别率。不过大家发现 deep learning 模型有很强的非线性映射功能，很多音调里的信息可以被模型自动学到，不需要特别处理。

唯一可能不一样的地方是如果你用 end-to-end system，建模单元会不一样。因为在英语里面你一般会选用字母、音素、或音节作为建模单元，而不会选用词作为建模单元。但在中文里面你可以直接用汉字作为建模单元。所以建模单元的选择上可能会不太一样。除此之外，基本上没有太大区别。

机器之心：技术上没有太大区别？

俞栋：没有太大区别。

机器之心：具体来说，您觉得自然语言处理能够给语音识别带来哪些帮助？

俞栋：目前来讲，自然语言处理对语音识别本身的帮助还不是很大。要说帮助比较大的方面——如果语言模型（language model）算做自然语言处理的话，语言模型还是起到了很大作用的，尤其是在有噪音的环境下，如果没有语言模型来做约束，效果一般来说都比较差。但是除此之外，现在的 NLP 技术对语音识别没有起到很大的作用。大家尝试过很多用自然语言处理技术提升识别率的方法，但效果都不理想。

但是理论上来讲它应该是可以起到作用的。因为我们理解句子含义，我们能发现有一些语音识别结果是不 make sense 的，比如说前面的主语跟后面的宾语根本就不搭，在这种情况下识别系统应该选择其他的 hypothesis，对话系统则应该寻求澄清，但是现有系统没有这么做。没有这么做的原因在于它其实不理解到底用户说了什么，也没能充分利用远距离的 dependency 信息。这样的错误，有可能通过自然语言处理的技术发现并得到更正。但是语义分析是个很困难的问题，如何做还是一个未知数。

机器之心：刚才我们讲到在噪音环境下，包括远距离环境下的识别，除了这个，还有多个说话人一起说话的情况下的语音识别。在这三个方面，您觉得现在和未来可以通过什么样的方式来解决这个问题？

俞栋：前面提到过，解决远距离识别很重要的一点是需要硬件的支持。至少以目前的技术，仅仅通过后端处理效果还不够好。因为信号在传输的过程中衰减很厉害，距离越远衰减越厉害，信噪比就越差。所以远距离识别一般都需要做增强。比较好的增强需要硬件支持，比如说麦克风阵列。深度学习方法也能提供一些帮助。当你有多通道信息的时候，深度学习方法还可以做自动的信息融合以提升远距离语音识别的性能。

多通道信号处理，比如麦克风阵列，对分离含噪语音和多人混合语音也至关重要。另外，深度学习方法比如我刚才提到的 Permutation Invariant 训练方法也可以解决一部分语音分离问题，是整体解决方案中的重要一环。分离后的结果可以送到后端做识别。后端的识别结果反馈回来也能帮助提升分离和说话人跟踪的效果。所以最终的系统应该是前端的分离跟后端的识别融合互助的系统。

机器之心：从您和邓力老师的那本书《Automatic Speech Recognition： A Deep Learning Approach》出版到现在，您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的？

俞栋：我们写这本书的时候，LSTM 这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多技巧还没有很好的了解。所以训练出来的模型效果还不是那么好。最近，我的同事 Jasha Droppo 博士花了很多时间在 LSTM 模型上面，提出了一种很有意思的基于 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍。

另外一个比较大的进展是 Deep CNN。最近两年里，很多研究组都发现或证实使用小 Kernel 的 Deep CNN 比我们之前在书里面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一个好处。用 LSTM 的话，一般你需要用双向的 LSTM 效果才比较好。但是双向 LSTM 会引入很长的时延，因为必须要在整个句子说完之后，识别才能开始。而 Deep CNN 的时延相对短很多，所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM。

还有就是端到端的训练方式也是在我们的书完成后才取得进展的。这方面现在大家的研究工作主要集中在两类模型上。一类就是 CTC 模型，包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI；还有一类是 attention-based sequence to sequence model。这些模型在我们的书里面都没有描述，因为当时还没有做成功。即便今天它们的表现也还是比 hybrid model 逊色，训练的稳定性也更差，但是这些模型有比较大的 potential。如果继续研究有可能取得突破。

另外一个进展是单通道语音分离，尤其是多人混合语音的分离。这方面有两项有趣的工作。一个是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法，另外一个是我们提出的 Permutation Invariant Training。实现上，Permutation Invariant Training 更简单。John Hershey 认为有迹象表明 deep clustering 是 permutation invariant training 的一个特例。

这些都是在我们完书之后最近两年里比较有意义的进展。

机器之心：也是在这个月，Google 发了神经网络翻译系统（GNMT），您对这个系统有什么看法？微软在这方面有没有这样的研究？

俞栋：微软很早以前就在做类似的工作了。你可能知道微软有个基于文本的翻译系统，在 Skype 上也有一个 speech to speech translation system。在这些系统里我们已经用到了 neural machine translation 的一些东西。不过翻译主要是由另外的团队在做，我在这里面涉及比较少。

机器之心：语音特征参数提取与鲁棒性语音识别与合成的关键因素，特征参数在不利的噪声环境下，鲁棒性都会急剧下降。目前有什么新的研究可以在特征提取中保持语音信号的最重要参数吗？

俞栋：目前，一个方法是用信号处理技术对输入信号进行分离和增强。另一个方法是用 deep learning 取代人工从 waveform 直接提取特征。只要训练数据的 coverage 足够大，各种各样场景的训练数据都有，模型的结构设计合理，那么模型的泛化能力和鲁棒性就能得到提升。两种方式结合可以得到更好结果。不过，泛化是机器学习的一个未解决的基本问题，更好的解决方案有待于机器学习理论的进展。

机器之心：微软在语音识别上如何解决方言带来的口音问题，比如说「le」和「ne」？针对方言，微软的语料库是从何而来的？

俞栋：一个简单的方法是增加带口音的训练语料。如何有效利用这些语料有些讲究。大概 3、4 年前，我们发过一篇文章，研究怎么样在 deep learning model 上做自适应。带口音的识别问题可以看作一个自适应的问题。假设你已经有标准语音的模型，带口音的语音可以看成标准语音的某种偏离。所以我们的解决方法是做自适应。做自适应的时候，我们可以把有类似口音的语料聚合在一起以增加训练数据。我们发现这样做效果挺不错。如果已经有系统上线，收集带口音的语料并不困难。如果你用过 Windows Phone，你就知道 Windows Phone 的 Cortana 里面有个选项——你想用标准的识别模型还是想用含口音的模型？用户可以选择。

机器之心：今年，微软发布了 CNTK。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗？以及在微软语音系统上是怎么样应用 CNTK 的？

俞栋：所有的这些开源工具现在都做得相当好了，都能够满足一般的研究或者是工程的需要。但是每一个开源工具都有自己的长处和弱点。CNTK 是唯一一个对 Windows 和 Linux 都有比较好的支持的深度学习工具。相比较其他工具，CNTK 对多 GPU 并行训练有更好的支持, 不仅并行效率高，而且简单易用。CNTK 对 C++的支持也是最全面的，你可以完全使用 C++来构建、训练、修改、和解码模型。CNTK 版本 1 对 Python binding 支持比较弱。但是刚刚发布的版本 2.0 提供了非常强大的 Python binding。另外，CNTK 提供了许多运行效率很高的并行文件阅读模块，大大提升了并行效率。这里我想提一下，我的很多同事都对 CNTK 2.0 有很大贡献。尤其值得一提的是 Amit Agarwal，他是我见过的非常难得的优秀软件工程师和架构师，他主导设计了 CNTK2.0 的主要 API。我在他身上学到很多东西，我非常享受与他讨论的时间。

我和几个同事刚开始写 CNTK1.0 的时候，主要用户是语音识别研究员和工程师，所以 CNTK 对语音相关的模型、数据结构、和文件格式支持得相对比较好。因为语音识别系统训练数据很大，我们很早就在 CNTK 中实现了并行训练的算法。目前，微软产品线所有的语音识别模型都是用 CNTK 训练的。最近我们的语音识别系统在 SWB 数据集上能做到比专业转录员错误率还低，CNTK 对缩短我们达到这一里程碑所需的时间有很大贡献。

机器之心：您曾说过，人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中，我们看到目前最新的语音识别的研究用到了多任务优化（Multitask Joint learning）以及多种模型混合（ensembles of models）的方法，能谈谈他们的优势吗？

俞栋：语音识别相对来说是一个任务比较单一而非通用的人工智能系统。语音识别的问题定义得也比较清晰。在这样的系统里面，把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力，即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲，深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳。

语音识别中使用多任务优化的主要目的是增加模型的泛化能力或利用一些不能直接利用的辅助信息。而多种模型混合（ensembles of models）的主要目的是利用模型间的差异来增强混合后模型的表现。值得指出的是，由于深度学习模型是非线性非凸的优化问题，当初始模型不同时，最后的模型也不同。尽管这些模型的平均表现很接近，但因为他们收敛到的点不一样，模型之间仍有差异，融合这些模型也能提升一些性能。

但是更通用的人工智能系统还需要能做决策（decision-making）、要做推理、要能理解。对于这样的系统来说，单靠深度学习方法远远不够。而需要结合过去几十年里人工智能其他分支取得的一些进展，比如说增强学习、逻辑推理、知识表达、以及最优和次优搜索。还有如果我们想让一群人工智能系统自己从与环境的交互中快速寻找答案，那么诸如蚁群算法和遗传算法一类的算法就变得很重要了。

机器之心：今年您觉得在语音识别方面有哪些比较重量级的论文值得去读，能否推荐几个给我们的读者？

俞栋：除了前面提到的 LF-MMI 、 Deep CNN（包括我们最近发表的 LACE 模型）、和 Permutation Invariant Training，另外一个比较有意思的论文是 MERL 在 arXiv 上发表的一篇文章。他们结合了 CTC 和 attention-based model，利用这两个模型各自的长处来克服对方的弱点。

机器之心：您是怎么看待监督学习、半监督学习和无监督学习这三个学习方式呢？

俞栋：监督学习是比较 well-defined，有比较明确的任务。目前来讲，深度学习对这一类问题效果比较好。

无监督学习的目的是要寻找数据中的潜在规律。很多情况下，它试图寻找某种特征变换和相对应的生成模型来表达原始数据。但无监督学习不仅本身困难，对无监督学习系统的评价也很难。原因是通过无监督学习找到的规律不一定对你将来的任务有帮助，或者它对某一任务有帮助，换一个任务就没有帮助了。当然，如果你的目标仅仅是数据压缩，评价还是容易的，但我们使用无监督学习压缩本身往往不是主要目的。

机器之心：那半监督学习呢？

俞栋：半监督学习介于两者中间。因为你已经有一部分标注信息了，所以你的任务是明确的，不存在不知如何评估的问题。半监督学习在实用系统里还是有一定作用的。比如说我们需要标注大量数据来训练语音识别系统，但人工标注既花时间又花钱，所以你往往有比标注数据多得多的未标注数据。没有标注过的数据，也有很多可以利用的信息，虽然它们的价值远远小于标注的数据。半监督学习对我们的系统性能有一定的提升。

机器之心：最后一个问题，在整个人工智能的布局上，您认为语音识别是一个怎样的定位？

俞栋：在很多应用场合，语音识别是一个入口。没有这个入口的话，大家都会觉得这个智能机器不够智能或者与这个智能机器交互会有困难。人机交互中语音识别是第一步。如果语音识别做得不够好，那后期的自然语言理解等的错误率就会大幅上升。这也是为什么语音到语音的翻译要比文本到文本的翻译难很多，因为在语音对语音的翻译系统里语音识别产生的错误会在后面翻译的过程中放大。

历史上，语音识别也为机器学习和人工智能提供了很多新的方法和解决方案。比如语音识别里的关键模型 Hidden Markov Model 对后来机器学习的很多分支都有帮助。深度学习也是先在语音识别上取得成功，然后才在图像识别和其他领域取得成功的。

来源：机器之心
智造家提供查看全部

9 月中旬，微软报告了在语音识别方面取得的新里程碑：新系统的识别词错率降至 6.3%；一个月后，微软又公布了在这一领域成功实现了历史性突破：他们的语音识别系统实现了和专业转录员相当甚至更低的词错率（WER），达到了 5.9%！机器之心在此期间曾对微软首席语音科学家黄学东进行了专访，探讨了这一连串突破性背后的技术和语音识别领域未来的可能性。近日，机器之心又对微软研究院首席研究员俞栋进行了一次独家专访，谈论了深度学习与语音识别相辅相成的发展以及相关领域的现状和未来。

俞栋简介：1998 年加入微软公司，现任微软研究院首席研究员，兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家，出版了两本专著，发表了 160 多篇论文，是 60 余项专利的发明人及深度学习开源软件 CNTK 的发起人和主要作者之一。曾获 2013 年 IEEE 信号处理协会最佳论文奖。现担任 IEEE 语音语言处理专业委员会委员，曾担任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

以下是此次专访的内容：

机器之心：请俞老师先给我们的读者介绍一下目前语音识别方面最值得关注的一些方向。

俞栋：在安静环境下并使用近距麦克风的场合，语音识别的识别率已越过了实用的门槛；但是在某些场景下效果还不是那么好，这就是我们这个领域的 frontier。现在大家主攻几点：

首先，是不是能够进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右，所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理（例如麦克风阵列）和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外，大家还在研究更好的识别算法。这个「更好」有几个方面：一个方面是能不能更简单。现在的模型训练过程还是比较复杂的，需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话，很多团队都要用很长时间才能搭建一个还 OK 的系统即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe，包括像 CNTK 这样的深度学习工具包，事情已经容易多了，但还有继续简化的空间。这方面有很多的工作正在做，包括如何才能不需要 alignment 、或者不需要 dictionary。现在的研究主要还是基于 end-to-end 的方法，就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system，但是已经接近 hybrid system 的 performance 了。

另外一个方面，最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试，比如说人在跟另外一个人对话的过程中，他会一直做 prediction，这个 prediction 包括很多东西，不单是包括你下一句想要说什么话，还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法—就是快速的不需要人工干预的自适应方法（unsupervised adaptation）。现在虽然已经有一些自适应的算法了，但是它们相对来说自适应的速度比较慢，或者需要较多的数据。有没有办法做到更快的自适应？就好像第一次跟一个口音很重的人说话的时候，你可能开始听不懂，但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

从识别来讲，我觉得目前主要是这些方向。

机器之心：Google DeepMind 最近提出了一种通过学习合成波形的方式生成语音的技术 WaveNet，据说可以生成感觉更自然的语音，微软在这方面有什么研究项目？

俞栋：微软也在做类似的工作，但是因为合成的研究团队和工程团队都在中国，我对他们具体到哪个地步不是特别清楚。有一些信息我也不能直接披露，所以就不详细讲了。

机器之心：深度学习已经在语音识别得到了非常出色的表现，您觉得未来语音识别还能在深度学习的哪些方面实现突破？

俞栋：刚才我讲了，其中的一个可能性就是通过各种类型的 prediction 和 adaptation 使得深度学习模型表现更出色，这是有可能继续提升的地方。另外就是 end-to-end 建模。

还有，像我们最近也在做一些特殊环境中的语音识别，比如说在高噪音环境下、或者你说话的时候有背景的音乐、或者是会议室里面有多个人同时说话——这些情况下现在的语音识别效果是很差的。所以我们也在研究如何用深度学习的方法在比如多说话人的情况下做得比原来传统的方法好。我们现在已经在 arXiv 上面发布了一个早期结果的预印本（Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation），含有更多实验结果的正式版本现在正在审稿中。我们的这一称为 Permutation Invariant Training 的方法主要用于语音分离。用这种方法整个 process 比较简单而效果很好。在这些方面深度学习都能带来一定的突破。当然，我前面也讲了，完全解决这些问题需要软硬结合，从拾音到前端和后端需要系统性优化。

机器之心：在类似汉语这种多音字、多音词比较多的语言中，语音识别方面有什么和英语这样的拼音语言不一样的地方？

俞栋：从语音识别的技术角度来讲，没有太大的区别。因为你最终都是将语音信号，即 waveform sequence，变成字或者词的 sequence。多音字和多音词只是词表里对应的字或词有多个发音规则而已，这在其他语言比如英语中也很常见。

不过中文是一个有音调的语言，音调对字和词的识别是有影响的。音调信息如果用好的话，就有可能提升识别率。不过大家发现 deep learning 模型有很强的非线性映射功能，很多音调里的信息可以被模型自动学到，不需要特别处理。

唯一可能不一样的地方是如果你用 end-to-end system，建模单元会不一样。因为在英语里面你一般会选用字母、音素、或音节作为建模单元，而不会选用词作为建模单元。但在中文里面你可以直接用汉字作为建模单元。所以建模单元的选择上可能会不太一样。除此之外，基本上没有太大区别。

机器之心：技术上没有太大区别？

俞栋：没有太大区别。

机器之心：具体来说，您觉得自然语言处理能够给语音识别带来哪些帮助？

俞栋：目前来讲，自然语言处理对语音识别本身的帮助还不是很大。要说帮助比较大的方面——如果语言模型（language model）算做自然语言处理的话，语言模型还是起到了很大作用的，尤其是在有噪音的环境下，如果没有语言模型来做约束，效果一般来说都比较差。但是除此之外，现在的 NLP 技术对语音识别没有起到很大的作用。大家尝试过很多用自然语言处理技术提升识别率的方法，但效果都不理想。

但是理论上来讲它应该是可以起到作用的。因为我们理解句子含义，我们能发现有一些语音识别结果是不 make sense 的，比如说前面的主语跟后面的宾语根本就不搭，在这种情况下识别系统应该选择其他的 hypothesis，对话系统则应该寻求澄清，但是现有系统没有这么做。没有这么做的原因在于它其实不理解到底用户说了什么，也没能充分利用远距离的 dependency 信息。这样的错误，有可能通过自然语言处理的技术发现并得到更正。但是语义分析是个很困难的问题，如何做还是一个未知数。

机器之心：刚才我们讲到在噪音环境下，包括远距离环境下的识别，除了这个，还有多个说话人一起说话的情况下的语音识别。在这三个方面，您觉得现在和未来可以通过什么样的方式来解决这个问题？

俞栋：前面提到过，解决远距离识别很重要的一点是需要硬件的支持。至少以目前的技术，仅仅通过后端处理效果还不够好。因为信号在传输的过程中衰减很厉害，距离越远衰减越厉害，信噪比就越差。所以远距离识别一般都需要做增强。比较好的增强需要硬件支持，比如说麦克风阵列。深度学习方法也能提供一些帮助。当你有多通道信息的时候，深度学习方法还可以做自动的信息融合以提升远距离语音识别的性能。

多通道信号处理，比如麦克风阵列，对分离含噪语音和多人混合语音也至关重要。另外，深度学习方法比如我刚才提到的 Permutation Invariant 训练方法也可以解决一部分语音分离问题，是整体解决方案中的重要一环。分离后的结果可以送到后端做识别。后端的识别结果反馈回来也能帮助提升分离和说话人跟踪的效果。所以最终的系统应该是前端的分离跟后端的识别融合互助的系统。

机器之心：从您和邓力老师的那本书《Automatic Speech Recognition： A Deep Learning Approach》出版到现在，您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的？

俞栋：我们写这本书的时候，LSTM 这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多技巧还没有很好的了解。所以训练出来的模型效果还不是那么好。最近，我的同事 Jasha Droppo 博士花了很多时间在 LSTM 模型上面，提出了一种很有意思的基于 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍。

另外一个比较大的进展是 Deep CNN。最近两年里，很多研究组都发现或证实使用小 Kernel 的 Deep CNN 比我们之前在书里面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一个好处。用 LSTM 的话，一般你需要用双向的 LSTM 效果才比较好。但是双向 LSTM 会引入很长的时延，因为必须要在整个句子说完之后，识别才能开始。而 Deep CNN 的时延相对短很多，所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM。

还有就是端到端的训练方式也是在我们的书完成后才取得进展的。这方面现在大家的研究工作主要集中在两类模型上。一类就是 CTC 模型，包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI；还有一类是 attention-based sequence to sequence model。这些模型在我们的书里面都没有描述，因为当时还没有做成功。即便今天它们的表现也还是比 hybrid model 逊色，训练的稳定性也更差，但是这些模型有比较大的 potential。如果继续研究有可能取得突破。

另外一个进展是单通道语音分离，尤其是多人混合语音的分离。这方面有两项有趣的工作。一个是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法，另外一个是我们提出的 Permutation Invariant Training。实现上，Permutation Invariant Training 更简单。John Hershey 认为有迹象表明 deep clustering 是 permutation invariant training 的一个特例。

这些都是在我们完书之后最近两年里比较有意义的进展。

机器之心：也是在这个月，Google 发了神经网络翻译系统（GNMT），您对这个系统有什么看法？微软在这方面有没有这样的研究？

俞栋：微软很早以前就在做类似的工作了。你可能知道微软有个基于文本的翻译系统，在 Skype 上也有一个 speech to speech translation system。在这些系统里我们已经用到了 neural machine translation 的一些东西。不过翻译主要是由另外的团队在做，我在这里面涉及比较少。

机器之心：语音特征参数提取与鲁棒性语音识别与合成的关键因素，特征参数在不利的噪声环境下，鲁棒性都会急剧下降。目前有什么新的研究可以在特征提取中保持语音信号的最重要参数吗？

俞栋：目前，一个方法是用信号处理技术对输入信号进行分离和增强。另一个方法是用 deep learning 取代人工从 waveform 直接提取特征。只要训练数据的 coverage 足够大，各种各样场景的训练数据都有，模型的结构设计合理，那么模型的泛化能力和鲁棒性就能得到提升。两种方式结合可以得到更好结果。不过，泛化是机器学习的一个未解决的基本问题，更好的解决方案有待于机器学习理论的进展。

机器之心：微软在语音识别上如何解决方言带来的口音问题，比如说「le」和「ne」？针对方言，微软的语料库是从何而来的？

俞栋：一个简单的方法是增加带口音的训练语料。如何有效利用这些语料有些讲究。大概 3、4 年前，我们发过一篇文章，研究怎么样在 deep learning model 上做自适应。带口音的识别问题可以看作一个自适应的问题。假设你已经有标准语音的模型，带口音的语音可以看成标准语音的某种偏离。所以我们的解决方法是做自适应。做自适应的时候，我们可以把有类似口音的语料聚合在一起以增加训练数据。我们发现这样做效果挺不错。如果已经有系统上线，收集带口音的语料并不困难。如果你用过 Windows Phone，你就知道 Windows Phone 的 Cortana 里面有个选项——你想用标准的识别模型还是想用含口音的模型？用户可以选择。

机器之心：今年，微软发布了 CNTK。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗？以及在微软语音系统上是怎么样应用 CNTK 的？

俞栋：所有的这些开源工具现在都做得相当好了，都能够满足一般的研究或者是工程的需要。但是每一个开源工具都有自己的长处和弱点。CNTK 是唯一一个对 Windows 和 Linux 都有比较好的支持的深度学习工具。相比较其他工具，CNTK 对多 GPU 并行训练有更好的支持, 不仅并行效率高，而且简单易用。CNTK 对 C++的支持也是最全面的，你可以完全使用 C++来构建、训练、修改、和解码模型。CNTK 版本 1 对 Python binding 支持比较弱。但是刚刚发布的版本 2.0 提供了非常强大的 Python binding。另外，CNTK 提供了许多运行效率很高的并行文件阅读模块，大大提升了并行效率。这里我想提一下，我的很多同事都对 CNTK 2.0 有很大贡献。尤其值得一提的是 Amit Agarwal，他是我见过的非常难得的优秀软件工程师和架构师，他主导设计了 CNTK2.0 的主要 API。我在他身上学到很多东西，我非常享受与他讨论的时间。

我和几个同事刚开始写 CNTK1.0 的时候，主要用户是语音识别研究员和工程师，所以 CNTK 对语音相关的模型、数据结构、和文件格式支持得相对比较好。因为语音识别系统训练数据很大，我们很早就在 CNTK 中实现了并行训练的算法。目前，微软产品线所有的语音识别模型都是用 CNTK 训练的。最近我们的语音识别系统在 SWB 数据集上能做到比专业转录员错误率还低，CNTK 对缩短我们达到这一里程碑所需的时间有很大贡献。

机器之心：您曾说过，人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中，我们看到目前最新的语音识别的研究用到了多任务优化（Multitask Joint learning）以及多种模型混合（ensembles of models）的方法，能谈谈他们的优势吗？

俞栋：语音识别相对来说是一个任务比较单一而非通用的人工智能系统。语音识别的问题定义得也比较清晰。在这样的系统里面，把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力，即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲，深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳。

语音识别中使用多任务优化的主要目的是增加模型的泛化能力或利用一些不能直接利用的辅助信息。而多种模型混合（ensembles of models）的主要目的是利用模型间的差异来增强混合后模型的表现。值得指出的是，由于深度学习模型是非线性非凸的优化问题，当初始模型不同时，最后的模型也不同。尽管这些模型的平均表现很接近，但因为他们收敛到的点不一样，模型之间仍有差异，融合这些模型也能提升一些性能。

但是更通用的人工智能系统还需要能做决策（decision-making）、要做推理、要能理解。对于这样的系统来说，单靠深度学习方法远远不够。而需要结合过去几十年里人工智能其他分支取得的一些进展，比如说增强学习、逻辑推理、知识表达、以及最优和次优搜索。还有如果我们想让一群人工智能系统自己从与环境的交互中快速寻找答案，那么诸如蚁群算法和遗传算法一类的算法就变得很重要了。

机器之心：今年您觉得在语音识别方面有哪些比较重量级的论文值得去读，能否推荐几个给我们的读者？

俞栋：除了前面提到的 LF-MMI 、 Deep CNN（包括我们最近发表的 LACE 模型）、和 Permutation Invariant Training，另外一个比较有意思的论文是 MERL 在 arXiv 上发表的一篇文章。他们结合了 CTC 和 attention-based model，利用这两个模型各自的长处来克服对方的弱点。

机器之心：您是怎么看待监督学习、半监督学习和无监督学习这三个学习方式呢？

俞栋：监督学习是比较 well-defined，有比较明确的任务。目前来讲，深度学习对这一类问题效果比较好。

无监督学习的目的是要寻找数据中的潜在规律。很多情况下，它试图寻找某种特征变换和相对应的生成模型来表达原始数据。但无监督学习不仅本身困难，对无监督学习系统的评价也很难。原因是通过无监督学习找到的规律不一定对你将来的任务有帮助，或者它对某一任务有帮助，换一个任务就没有帮助了。当然，如果你的目标仅仅是数据压缩，评价还是容易的，但我们使用无监督学习压缩本身往往不是主要目的。

机器之心：那半监督学习呢？

俞栋：半监督学习介于两者中间。因为你已经有一部分标注信息了，所以你的任务是明确的，不存在不知如何评估的问题。半监督学习在实用系统里还是有一定作用的。比如说我们需要标注大量数据来训练语音识别系统，但人工标注既花时间又花钱，所以你往往有比标注数据多得多的未标注数据。没有标注过的数据，也有很多可以利用的信息，虽然它们的价值远远小于标注的数据。半监督学习对我们的系统性能有一定的提升。

机器之心：最后一个问题，在整个人工智能的布局上，您认为语音识别是一个怎样的定位？

俞栋：在很多应用场合，语音识别是一个入口。没有这个入口的话，大家都会觉得这个智能机器不够智能或者与这个智能机器交互会有困难。人机交互中语音识别是第一步。如果语音识别做得不够好，那后期的自然语言理解等的错误率就会大幅上升。这也是为什么语音到语音的翻译要比文本到文本的翻译难很多，因为在语音对语音的翻译系统里语音识别产生的错误会在后面翻译的过程中放大。

历史上，语音识别也为机器学习和人工智能提供了很多新的方法和解决方案。比如语音识别里的关键模型 Hidden Markov Model 对后来机器学习的很多分支都有帮助。深度学习也是先在语音识别上取得成功，然后才在图像识别和其他领域取得成功的。

来源：机器之心
智造家提供

1 推荐

500 浏览

0评论

从算法平台到机器视觉和语音识别，优必选全面布局人工智能

语音识别

人工智能

智能科技类第四人称 2017-03-31 14:26 发表了文章来自相关话题

0 推荐

391 浏览

0评论

从技术角度，回顾2016年语音识别的发展

语音识别

人工智能

智能制造类喷漆李 2016-12-26 13:56 发表了文章来自相关话题

科大讯飞 DFCNN 的结构图

同时，我也附上搜狗、云知声提供的各自的语音识别系统的流程，以供大家学习、比较、参考：

搜狗 CNN 语音识别系统建模流程

1952 年，贝尔实验室 Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统，但只能识别一人的发音。

1962 年，IBM 展示了 Shoebox。Shoebox 能理解 16 个口语单词以及 0-9 的英文数字。

1969 年，贝尔实验室的 John Pierce 预言成熟的语音识别在数十年内不会成为现实，因为它需要人工智能。

1970 年，普林斯顿大学的 Lenny Baum 发明隐马尔可夫模型（Hidden Markov Model)。

20 世纪 70 年代，卡耐基梅隆大学研发 harpy speech recognition system，能够识别 1011 个单词，相当于 3 岁儿童的词汇量。

20 世纪 80 年代，语音识别引入了隐马尔可夫模型（Hidden Markov Model)。

20 世纪 90 年代出现首个消费级产品 DragonDictate，由国际语音识别公司 Nuance 发布。

2007 年，Dag Kittlaus 和 Adam Cheyer 创立 Siri.Inc。后被苹果收购并于 2011 年首次出现在 iPhone 4s 上。

2009 年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

2011 年微软率先取得突破，使用深度神经网络模型之后，语音识别错误率降低 30%。

2015 年，IBM Watson 公布了英语会话语音识别领域的一个重大里程碑：系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率（WER）。

0 推荐

337 浏览

0评论

聊聊语音识别的发展历程

语音识别

深度学习

人工智能

机械自动化类品管人生 2016-12-05 13:28 发表了文章来自相关话题

0 推荐

402 浏览

0评论

语音识别技术原理详解

原理介绍

语音识别

新技术

机械自动化类星旭自动化 2016-11-16 18:42 发表了文章来自相关话题

4 推荐

674 浏览

0评论

让机器人开口说话，依然令人头疼

工业4.0

智能化

语音识别

机器人的发展现状

机械自动化类品管人生 2016-11-07 10:55 发表了文章来自相关话题

5 推荐

790 浏览

0评论

专访 | 顶级语音专家、MSR首席研究员俞栋：语音识别的四大前沿研究

案例

新兴产业

人工智能

语音识别

机械自动化类品管人生 2016-10-31 14:25 发表了文章来自相关话题

更多...

年月

从算法平台到机器视觉和语音识别，优必选全面布局人工智能

语音识别

人工智能

从技术角度，回顾2016年语音识别的发展

语音识别

人工智能

聊聊语音识别的发展历程

语音识别

深度学习

人工智能

语音识别技术原理详解

原理介绍

语音识别

新技术

让机器人开口说话，依然令人头疼

工业4.0

智能化

语音识别

机器人的发展现状

专访 | 顶级语音专家、MSR首席研究员俞栋：语音识别的四大前沿研究

案例

新兴产业

人工智能

语音识别

从算法平台到机器视觉和语音识别，优必选全面布局人工智能

语音识别

人工智能

从技术角度，回顾2016年语音识别的发展

语音识别

人工智能

聊聊语音识别的发展历程

语音识别

深度学习

人工智能

语音识别技术原理详解

原理介绍

语音识别

新技术

让机器人开口说话，依然令人头疼

工业4.0

智能化

语音识别

机器人的发展现状

专访 | 顶级语音专家、MSR首席研究员俞栋：语音识别的四大前沿研究

案例

新兴产业

人工智能

语音识别

标签描述

相关话题

年 月

语音识别

标签描述

相关话题

年月