灰关联分析与语音/音乐信号识别
来源:电子技术应用 作者:陈 功 张宏伟
摘要:将灰关联分析方法应用于语音/音乐信号的分类和识别,并给出了对音频信号进行灰关联分析的方法和步骤。利用语音和音乐信号的短时能量均方根的概率统计特征建立目标的参考数据和比较数据,进行语音和音乐信号的灰关联分析,确定目标识别与分类的判据,并对两类信号进行识别。仿真结果表明灰关联分析方法应用于音频信号分类和识别具有一定的可行性。
要害词:灰关联分析 特征 语音和音乐识别 仿真
语音和音乐是两类最重要的音频数据,语音和音乐的自动分类在基于内容的音频检索、视频的摘要以及语音识别等众多领域都有重要的应用价值。
目前,国内外语音信号识别多采用基于感觉特征(例如响度、音调、谐度等)和过零率、功率谱、MFCC系数等多种语音/音乐分类特征的模式识别技术实现信号的自动识别。然而当识别对象的参数不完整、不齐全时,这些方法有的不能给出正确可靠的结果,有的无法进行识别,有的识别的可靠性较差。由于语音信号环境的复杂和多变性,语音和音乐信号参数有时很难完全得到,上述方法在实际应用中存在一定的局限性。
因此,如何有效利用现有的少量音频数据,准确地进行了音频信号的自动分类识别,尤其是语音和音乐的分类,并作为提取音频内容语义和结构的重要手段之一,其研究日益引起人们的重视。灰色系统理论非凡是灰关联分析方法的发展,为解决这一问题提供了问题。
图1
1 语音/音乐信号的灰关联分析方法
灰色系统理论属系统论的范畴,灰色是指信息不完全。灰色系统理主要研究系统模型不明确、行为信息不完全、运行机制不清楚这类系统的建模、猜测、决策和控制等问题。在进行序列关联分析时,必须先确定参考数列,然后比其它序列与参考序列的接近程度,进而进出判定。灰关联分析的主要步骤:(1)确定参考序列和比较序列;(2)求灰关联系数;(3)求灰度联度;(4)按灰关联度大小排序。
2 参考序列和比较序列的确定
选取一定无停顿的语音信号和音乐信号作为待识别音频信号,音频信号的特征提取本质上起到了降维作用,用较少的维度表现了时域上的音频信号。考虑到只有在5~20ms的时间间隔内才可以认为音频信号的特征基本保持不变。因此本文选取短时能量均方根的概率统计方法提取语音和音乐信号的特征。
图1(a)和图2(a)分别为语音和音乐信号短时能量的均方根(RMS)的时域波形。其采样频率均为11025Hz,矩形窗长度N取10ms,时间长度为30s。
式(1)中,x(n)是音频信号,矩形窗序列沿音频样点序列逐帧移动,每段帧长度为N。
30s的RMS的概率分布即信号分布频数直方图如图1(b)、图2(b)所示。由图可知两分布有效明显的差异,可以作为识别语音和音乐信号的特片依据。进一步研究发现其概率分布服从不同参数时的广义X2分布。
选取上述30s的语音和音乐信号RMS概率分布作为参考序列,记为xj={xj(k)k=1,2,…,K},其中x1为语音参序列,x2为音乐参考序列,记作yi={yi(k)k=1,2,…,k},其中y1为语音比较数列,y2为音乐比较序列。K为特征数量,本文取K=10。为检验不同长度比较序列的灰关联度,特征提取的比较序列时间长度分别取0.1s、1s、10s。图3为与30s的语音和音乐参考信号RMS概率分布比较图。由图3可知,比较序列的时间长度越长,概率分布与参考序列的相似程度就越大,当比较序列时长为10s时,概率分布几乎与参考序列吻合。
为保证音频序列的可比性,在进行灰关联分析时,需要对序列进行初值化生成处理,即对一个数列的所有数据均用其第一个数去除。这个新序列表明原始数列中不同时刻的值相对于第一个时刻值的倍数。
图2
3 计算灰关联系数
在语音/音乐识别中,由于目标的类型为两个,有两个参考序列,为区分不同的类型就需要求一组比较序列与组参考序列的灰关联度。假如在局部环境下计算每一组比较序列分别与二组参考序列的灰度联系数,则在不同局部条件下所得到的灰关联度将失去可比性。因此,为实现音频类型的识别,在计算某一个比较序列与各个参考序列的灰关联度时,必须是在相同最大值和最小值下计算,从而得到“全局环境”的灰关联度系数。
计算全局环境下的灰关联系数的算法如下:
其中,Nj={1,2},Ni={1,2},K={1,2,…,10},常数ξ称为分辨系数,ξ∈[0,1],其作用是调整比较环境的大小。ξ越小,分辨力越大。一段取ξ=0.5。minminminxj(k)-yi(k)称为两极最小差,maxmaxmaxxj(k)-yi(k)称为两极最大差,xj(k)-yi(k)称为第k个指标xj与yi的绝对差。
4 计算灰关联度
灰关联分析的实质,就是对数列曲线进行几何关系的比较。若两数列曲线重合,则关联性好,关联系数为1,两数列关联度也行装于1。同时两数列曲线不可能垂直,即无关联性,所以关联系数大于1,故关联度也大于0。由于在比较全过程中,关联系数不止一个,因此,取关联系数的平均值作为比较全过程的关联程度rji的度量,即:
5 按灰关联度大小排序
对参考序列xj和比较序列yi的关联度从大到小进行排序,即得灰度联序列。本文采用最大灰关联度的识别原则。
图3
通过500次蒙特卡罗实验,表1给出时间长度0.1s、1s、10s比较序列,采用最大灰度关联度的识别结果。
表1 不同时间长度语音、音乐信号的正确识别率 (3)时间长度为10s时,语音比较信号与同类模本的关联值高于与音乐比较信号的关联值20%~35%,高于语音参考信号与音乐模本的关联值25%~30%;而音乐比较信号与同类模本的关联值以90%的准确率大于语音比较信号的关联值,并且高于音乐比较信号与音乐的关取值,并且高于音乐比较信号与语音模本的关联值5%~20%。所以,当信号特征提取充分时,识别率可达100%。
时间长度(s)
语音正确识别率
音乐正确识别率
0.1
62.37%
76.22%
1
94.50%
88.70%
10
100%
99.8%
图4为进行100次蒙特卡罗仿真,三种时间长度的语音和音乐比较信号与各比较序列的最大灰关联度。
从图4中可以看出:
(1)在时间长度为0.1s时,语音、音乐信号与其两类模本的关联度值相交。这是由于所表征序列的特征值并不完全的原因。
(2)时间长度为1s时,语音比较信号与其参考信号的关联度均大于0.85,音乐比较信号与语音参考信号的关联度大于0.6小于0.95;而音乐比较信号与其参考信号的关联度均大于0.73小于0.9;语音比较信号与音乐参考信号的关联度大于0.7小于0.85。同为语音模本的条件下,97%以上的语音信号关联值大于音乐信号的关联值。而模本为音乐的条件下,92%以上的音乐信号关联值大于语音信号的关联值。因此,在不同参考信号下,通过设置阈值可以作为识别语音和音乐信号的依据。
图4
事实上,音频信号的灰关联可以认为是近似相关,参考序列与比较序列的特片值相关程度越高,其关联值就越大,反之则较小。