语音识别系统中增加图像识别技术的设计

来源：电子技术应用作者：重庆大学通信工程学院叶凌峡

摘要：采用机器视觉对语音对象进行跟踪，利用说话人正常发音时，嘴部的开合状况提取语速信息，实时调整语音识别的工作速度，匹配语音韵律，将有效提高语音识别准确性。讨论了系统的设计原理和实现技术，着重介绍了对应辅助图像识别的设计分析。

要害词：语音识别机器视觉图像识别

语音识别是机器自动语音识别（automatic speech recognition by machine）的简称。

语音识别技术关系到多学科的研究领域，不同领域中的研究成果都对语音识别的发展作出了贡献。让机器识别语音的困难在某种程度上就像一个外语不好的人听外围人讲话一样，它与说话人、说话速度、说话内容、环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。

计算机语音识别的过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：

（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。

（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型（模式）进行匹配、比较，得到最佳的识别结果。

（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，通常不需要语言处理部分。

声学模型是识别系统的底层模型，并且是语音识别系统中最关系的一部分。声学模型的目的是提供一种有效的方法，计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计与语言发音特点密切相关。声学模型单元大小（字发音模型、半音字模型或音素模型）对语音练习数据量大小、系统识别率以及灵活性有较大的影响。必须根据不同的语言的特点、识别系统词汇量的大小决定识别单元的大小。由于有了种种困难，语音识别技术通常根据使用中的限制性要求，构建成不同类型的系统，通常包括三类。其一为限制用户的说话方式，这又可以分为孤立词语音识别系统（isolate-Word speech recognition system）、连接词语音识别系统（connected-words speech recognition system）、连续语音识别系统（continue speech recopnition system）和即兴口语语音识别系统（spontaneous speech recognition system）。其二为限制用户的用词范围。第三种为限制系统的用户对象。采用语速作为系统的第二信息渠道，一旦系统跟踪到了目标的语还，在协助语音识别的同时还能够有效地排除与语音信息不同步的外界噪声，因此系统能够获得更好的识别性能。 2．2．2 图像处理算法设计

语言模型对中、大词汇量的语音识别系统非凡重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判定纠正，非凡是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令的语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

语音识别过程实际上是一种熟悉过程。就像人们听语音时，并不把语音和语言的语法结构、语义结构分开。因为当语音发音模糊时人们可以用这些和知识来指导对语言的理解过程，但是对机器来说，识别系统也要利用这些知识，只是如何有效地描述这些语法和语义还有困难：

（1）小词汇量语音识别系统：包括几十个词的语音识别系统。

（2）中等词汇量的语音识别系统：通常包括几百个词至上千个词的识别系统。

（3）大词汇量语音识别系统：通常包括几千至几万个词的语音识别系统。

这些不同的限制也确定了语音识别系统的困难度。

1 增加图像识别设计的目的

如今的语音识别技术正在逐渐成熟，许多语音识别技术都已经能够达到很高的识别率了，不过当识别率到了一定的程度后，再提高就很困难，此时需要采用其他技术来协助语音的识别。

目前的语音识别系统由于采用单一传感器（声音传感器）进行工作，在进行语音识别时，不可能对捕捉的语音信息进行细分，只能采用定速率跟踪识别，将语音信息与系统库中的模板进行匹配判定。假如捕捉信息的速率与存储在系统库中的模板相关不多，则能正常工作，否则将会出现误判。然而现实生活中，人们说话不可能总保持相同的速率，而是不断变化的，这势必造成了语音识别系统的误差增多，以致降低语音识别系统的实用性。

人们在进行语音交流时，在捕捉语音信息的同时，也在获取其他的信息以帮助理解，例如表情、神态等信息。假如得不到相关信息，人们相互之间也会产生误解，例如当两个人在相隔较远距离时，由于不能清楚对方的表情、神态，经常会出现理解错误的情况发生。可见使用单一的信息渠道的确会增加理解难度，因此有必要考虑增加信息渠道来解决这个问题。这就是增加图像识别功能的原因。

对于语音识别系统，假如能像人一样判定语言对象的喜、怒、哀、乐，当然是最好的，但这势必大大增加图像识别的工作量，甚至超过语音识别的成本，不太合理。并且，由于技术的原因，还不能使机器有像人一样的视觉能力，要让机器能够准确识别出人的各种表情还达不到，所以此种方案是不可取的。进一步分析知道，语音识别系统受语速的影响是很大的。人在正常讲话时，嘴的开合状态都是大同小异的，假如让机器只对嘴的开合两种情况进行判定和实时跟踪，得出讲话人的语速信息，是能够做到的。所以仅仅需要机器识别出人说话的速度，以此来调整语音识别的匹配速度，从而适合语音韵律，自然有利于系统的语音识别能力，提高识别的准确性。通过语速对语音识别系统的帮助，将为语音系统提供另一条实用的信息渠道。

2 实现的技术及方法

2．1 系统总体设计概述

语音系统采集说话人（语言对象）的两路信息，一路由声音传感器取得，一路由摄像设备取得。摄像设备取得人的嘴型变化后，将之转化为语速信息送到语音识别器与采集到的语音进行匹配识别，自动调节识别速度，更好地完成语音识别工作。系统的工作流程如图1。

2．2 辅助图像识别设计

捕捉语言对象的说话速率是保证整个系统良好工作的要害。为了实现此目的，使用基于机器视觉的人嘴部状态检测方法来设计。由于对图像的识别精度要求不高，可以选择灰度图像以提高运算速度。在速度答应的情况下，彩色图像的识别精度会更高。

2．2．1 流程分析

整个辅助图像识别设计的目的就是通过机器视觉进行图像采集、图像处理，提取出说话人的语速信息供语音系统使用。

以灰度图像为例，其图像处理过程如图2。

对于彩色图像，特征量会更多一些，也就更复杂一些，但其基本步骤都是先完成图像数字化，再进行图像特片提取，最后进行图像识别和理解。

当完成图像处理后，比较模块将这一帧图像与上一帧图像的数据进行对比，判定出变化，从而统计出语速信息，最后输出给语音识别器进行匹配工作。

（1）图像分割

经过对人脸RGB像素的分析，发现人脸图像中的R、G两分量符合二维高斯分布。因此，可通过这两个分量确定人脸的位置。在人脸定位的基础上，根据人的嘴部处于人脸下半部分的特片，比较轻易确定出嘴部的大致位置，它为嘴部精确定位提供了基本条件，如图3所示。

（2）图像特征的提取

根据系统要求，灰度图像可以满足需要，但由于嘴唇与皮肤的灰度差别不大，而且灰度信息更容量受到光照条件、人脸的运动和旋转变化等影响，使人脸图像中嘴唇区域边缘不明显，非凡是当嘴唇内部的阴影区域与牙齿交替出现时，嘴唇的边缘变得更加模糊，所以利用唇色和肤色的灰度及边缘信息分割不能达到很高的准确度。若要提高对嘴部状况的识别准确度，可以利用彩色信息来对人嘴的外形、位置进行确定。

研究发现，嘴唇的主要颜色特征是唇色相对肤色颜色较红，而且归一化RGB颜色对光照、人脸运动和旋转具有不变性。因此利用颜色信息，采用模式分类技术分割嘴唇区域，可以克服灰度图像本身固有的缺点。由于Fisher线性分类器能够最大限度地分开两类，且其学习是离线处理，减少了计算量，因此可采用Fisher线性分类器进行嘴唇区域分割。

人嘴在说话与正常情况下的外形有明显的区别。说话时嘴部张开较大，而正常情况下，嘴部基本闭合（图4）。因此，可以利用这些特征进行嘴部状态的检测。研究中发现，嘴部区域的最大宽度Wmax、最大高度Hmax能够表征嘴部的张开程度，应取为特征值；上嘴唇与下嘴唇之间的高度Hmin在说话不说话时也有明显不同，应取为特征值。将以上三个特征值组成一组向量，即可描述出不同状态下的嘴部几何特片，如图5所示。

将获得的能够描述人的嘴部区域几何外形特征参数组成一个特征向量Zui，即可作为下一步判别分类的输入向量：Zui=(Wmax,Hmax,Hmin)。

在进行识别时只要确定两个状态“开”、“合”即可。在实际中由于发音时不同的语音会导致嘴的开合程度不一，所以对“开”（Hmin>0）的区分会很多种情况，必然会极大地增加运算存储量。相对而言，嘴的“闭合”状态一般只有一种模式（Hmin=0），因此可以只确定说话人嘴的“闭合”状态，其他状态都判为“开”，这样将方便处理。

（3）图像识别理解

由于对识别精度要求不高，既可以采用传统的统计模式识别方法，也可以采用较热门的神经网络识别方法；但由于系统对实时要求较高，而神经网络识别方法运行速度成问题，因此不建议采用神经网络识别方法。

2．3 语速信息的提取

选用合适的捕捉频率不断采集说话人的图像，用当前帧的数据与上一帧数据进行比较，根据其变化的频率就可以推算出语速信息。实际情况中，所求的语速信息不需要太精确就能够达到一般要求。

3 应用展望

语音识别是一种赋能技术，现有的很多人机交互界面都可能通过补充语音识别功能而得到改善。语音识别技术可以把费脑、费力、费时的机器操作变成一件很轻易且有趣味性的事情，在许多“手忙”、“手不能用”、“手所不能及”、“懒得动手”的场景中，包括像驾驶室、一些危险的工业场合、家电控制等方面，高识别率的语音识别系统将会更加方便人的工作和生活。

由于知识层次和知识领域的差异，现实生活中有相当一部分人很难享受到现代化生活带来的便利，包括信息服务和其他各类先进设备可提供的帮助。高识别率语音识别技术有助于改善这种情况，使社会各个阶层更多的人享受到更多的社会信息资源和现代化服务，提高整个社会的信息化程度和现代化速度。

高识别率语音识别技术还将推出机器人智能技术的发展，由于机器人本来就要配置视觉系统，本方案很轻易实现，提高了人与机器交互的能力。另外高识别率语音识别技术在语音录入系统、会议实时记录及同声翻译、记者采访设备等方向有着广阔的应用前景。