| 導購 | 订阅 | 在线投稿
分享
 
 
 

語音識別系統中增加圖像識別技術的設計

來源:互聯網  2008-06-01 02:25:42  評論

語音識別系統中增加圖像識別技術的設計

來源:電子技術應用 作者:重慶大學通信工程學院 葉淩峽

摘要:采用機器視覺對語音對象進行跟蹤,利用說話人正常發音時,嘴部的開合狀況提取語速信息,實時調整語音識別的工作速度,匹配語音韻律,將有效提高語音識別准確性。討論了系統的設計原理和實現技術,著重介紹了對應輔助圖像識別的設計分析。

要害詞:語音識別 機器視覺 圖像識別

語音識別是機器自動語音識別(automatic speech recognition by machine)的簡稱。

語音識別技術關系到多學科的研究領域,不同領域中的研究成果都對語音識別的發展作出了貢獻。讓機器識別語音的困難在某種程度上就像一個外語不好的人聽外圍人講話一樣,它與說話人、說話速度、說話內容、環境條件有關。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態性、瞬時性和連續性等。

計算機語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術是基于統計模式識別的基本理論。一個完整的語音識別系統可大致分爲三部分:

(1)語音特征提取:其目的是從語音波形中提取出隨時間變化的語音特征序列。

(2)聲學模型與模式匹配(識別算法):聲學模型通常將獲取的語音特征通過學習算法産生。在識別時將輸入的語音特征與聲學模型(模式)進行匹配、比較,得到最佳的識別結果。

(3)語言模型與語言處理:語言模型包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統,通常不需要語言處理部分。

語音識別系統中增加圖像識別技術的設計

聲學模型是識別系統的底層模型,並且是語音識別系統中最關系的一部分。聲學模型的目的是提供一種有效的方法,計算語音的特征矢量序列和每個發音模板之間的距離。聲學模型的設計與語言發音特點密切相關。聲學模型單元大小(字發音模型、半音字模型或音素模型)對語音練習數據量大小、系統識別率以及靈活性有較大的影響。必須根據不同的語言的特點、識別系統詞彙量的大小決定識別單元的大小。 由于有了種種困難,語音識別技術通常根據使用中的限制性要求,構建成不同類型的系統,通常包括三類。其一爲限制用戶的說話方式,這又可以分爲孤立詞語音識別系統(isolate-Word speech recognition system)、連接詞語音識別系統(connected-words speech recognition system)、連續語音識別系統(continue speech recopnition system)和即興口語語音識別系統(spontaneous speech recognition system)。其二爲限制用戶的用詞範圍。第三種爲限制系統的用戶對象。 采用語速作爲系統的第二信息渠道,一旦系統跟蹤到了目標的語還,在協助語音識別的同時還能夠有效地排除與語音信息不同步的外界噪聲,因此系統能夠獲得更好的識別性能。 2.2.2 圖像處理算法設計

語言模型對中、大詞彙量的語音識別系統非凡重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判定糾正,非凡是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是采用統計語法的語言模型與基于規則語法結構命令的語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利于提高系統的識別。

語音識別過程實際上是一種熟悉過程。就像人們聽語音時,並不把語音和語言的語法結構、語義結構分開。因爲當語音發音模糊時人們可以用這些和知識來指導對語言的理解過程,但是對機器來說,識別系統也要利用這些知識,只是如何有效地描述這些語法和語義還有困難:

(1)小詞彙量語音識別系統:包括幾十個詞的語音識別系統。

(2)中等詞彙量的語音識別系統:通常包括幾百個詞至上千個詞的識別系統。

(3)大詞彙量語音識別系統:通常包括幾千至幾萬個詞的語音識別系統。

這些不同的限制也確定了語音識別系統的困難度。

語音識別系統中增加圖像識別技術的設計

1 增加圖像識別設計的目的

如今的語音識別技術正在逐漸成熟,許多語音識別技術都已經能夠達到很高的識別率了,不過當識別率到了一定的程度後,再提高就很困難,此時需要采用其他技術來協助語音的識別。

目前的語音識別系統由于采用單一傳感器(聲音傳感器)進行工作,在進行語音識別時,不可能對捕捉的語音信息進行細分,只能采用定速率跟蹤識別,將語音信息與系統庫中的模板進行匹配判定。假如捕捉信息的速率與存儲在系統庫中的模板相關不多,則能正常工作,否則將會出現誤判。然而現實生活中,人們說話不可能總保持相同的速率,而是不斷變化的,這勢必造成了語音識別系統的誤差增多,以致降低語音識別系統的實用性。

人們在進行語音交流時,在捕捉語音信息的同時,也在獲取其他的信息以幫助理解,例如表情、神態等信息。假如得不到相關信息,人們相互之間也會産生誤解,例如當兩個人在相隔較遠距離時,由于不能清楚對方的表情、神態,經常會出現理解錯誤的情況發生。可見使用單一的信息渠道的確會增加理解難度,因此有必要考慮增加信息渠道來解決這個問題。這就是增加圖像識別功能的原因。

對于語音識別系統,假如能像人一樣判定語言對象的喜、怒、哀、樂,當然是最好的,但這勢必大大增加圖像識別的工作量,甚至超過語音識別的成本,不太合理。並且,由于技術的原因,還不能使機器有像人一樣的視覺能力,要讓機器能夠准確識別出人的各種表情還達不到,所以此種方案是不可取的。進一步分析知道,語音識別系統受語速的影響是很大的。人在正常講話時,嘴的開合狀態都是大同小異的,假如讓機器只對嘴的開合兩種情況進行判定和實時跟蹤,得出講話人的語速信息,是能夠做到的。所以僅僅需要機器識別出人說話的速度,以此來調整語音識別的匹配速度,從而適合語音韻律,自然有利于系統的語音識別能力,提高識別的准確性。通過語速對語音識別系統的幫助,將爲語音系統提供另一條實用的信息渠道。

語音識別系統中增加圖像識別技術的設計

2 實現的技術及方法

2.1 系統總體設計概述

語音系統采集說話人(語言對象)的兩路信息,一路由聲音傳感器取得,一路由攝像設備取得。攝像設備取得人的嘴型變化後,將之轉化爲語速信息送到語音識別器與采集到的語音進行匹配識別,自動調節識別速度,更好地完成語音識別工作。系統的工作流程如圖1。

2.2 輔助圖像識別設計

捕捉語言對象的說話速率是保證整個系統良好工作的要害。爲了實現此目的,使用基于機器視覺的人嘴部狀態檢測方法來設計。由于對圖像的識別精度要求不高,可以選擇灰度圖像以提高運算速度。在速度答應的情況下,彩色圖像的識別精度會更高。

2.2.1 流程分析

整個輔助圖像識別設計的目的就是通過機器視覺進行圖像采集、圖像處理,提取出說話人的語速信息供語音系統使用。

以灰度圖像爲例,其圖像處理過程如圖2。

對于彩色圖像,特征量會更多一些,也就更複雜一些,但其基本步驟都是先完成圖像數字化,再進行圖像特片提取,最後進行圖像識別和理解。

當完成圖像處理後,比較模塊將這一幀圖像與上一幀圖像的數據進行對比,判定出變化,從而統計出語速信息,最後輸出給語音識別器進行匹配工作。

語音識別系統中增加圖像識別技術的設計

(1)圖像分割

經過對人臉RGB像素的分析,發現人臉圖像中的R、G兩分量符合二維高斯分布。因此,可通過這兩個分量確定人臉的位置。在人臉定位的基礎上,根據人的嘴部處于人臉下半部分的特片,比較輕易確定出嘴部的大致位置,它爲嘴部精確定位提供了基本條件,如圖3所示。

(2)圖像特征的提取

根據系統要求,灰度圖像可以滿足需要,但由于嘴唇與皮膚的灰度差別不大,而且灰度信息更容量受到光照條件、人臉的運動和旋轉變化等影響,使人臉圖像中嘴唇區域邊緣不明顯,非凡是當嘴唇內部的陰影區域與牙齒交替出現時,嘴唇的邊緣變得更加模糊,所以利用唇色和膚色的灰度及邊緣信息分割不能達到很高的准確度。若要提高對嘴部狀況的識別准確度,可以利用彩色信息來對人嘴的外形、位置進行確定。

研究發現,嘴唇的主要顔色特征是唇色相對膚色顔色較紅,而且歸一化RGB顔色對光照、人臉運動和旋轉具有不變性。因此利用顔色信息,采用模式分類技術分割嘴唇區域,可以克服灰度圖像本身固有的缺點。由于Fisher線性分類器能夠最大限度地分開兩類,且其學習是離線處理,減少了計算量,因此可采用Fisher線性分類器進行嘴唇區域分割。

人嘴在說話與正常情況下的外形有明顯的區別。說話時嘴部張開較大,而正常情況下,嘴部基本閉合(圖4)。因此,可以利用這些特征進行嘴部狀態的檢測。研究中發現,嘴部區域的最大寬度Wmax、最大高度Hmax能夠表征嘴部的張開程度,應取爲特征值;上嘴唇與下嘴唇之間的高度Hmin在說話不說話時也有明顯不同,應取爲特征值。將以上三個特征值組成一組向量,即可描述出不同狀態下的嘴部幾何特片,如圖5所示。

將獲得的能夠描述人的嘴部區域幾何外形特征參數組成一個特征向量Zui,即可作爲下一步判別分類的輸入向量:Zui=(Wmax,Hmax,Hmin)。

在進行識別時只要確定兩個狀態“開”、“合”即可。在實際中由于發音時不同的語音會導致嘴的開合程度不一,所以對“開”(Hmin>0)的區分會很多種情況,必然會極大地增加運算存儲量。相對而言,嘴的“閉合”狀態一般只有一種模式(Hmin=0),因此可以只確定說話人嘴的“閉合”狀態,其他狀態都判爲“開”,這樣將方便處理。

(3)圖像識別理解

由于對識別精度要求不高,既可以采用傳統的統計模式識別方法,也可以采用較熱門的神經網絡識別方法;但由于系統對實時要求較高,而神經網絡識別方法運行速度成問題,因此不建議采用神經網絡識別方法。

2.3 語速信息的提取

選用合適的捕捉頻率不斷采集說話人的圖像,用當前幀的數據與上一幀數據進行比較,根據其變化的頻率就可以推算出語速信息。實際情況中,所求的語速信息不需要太精確就能夠達到一般要求。

語音識別系統中增加圖像識別技術的設計

3 應用展望

語音識別是一種賦能技術,現有的很多人機交互界面都可能通過補充語音識別功能而得到改善。語音識別技術可以把費腦、費力、費時的機器操作變成一件很輕易且有趣味性的事情,在許多“手忙”、“手不能用”、“手所不能及”、“懶得動手”的場景中,包括像駕駛室、一些危險的工業場合、家電控制等方面,高識別率的語音識別系統將會更加方便人的工作和生活。

由于知識層次和知識領域的差異,現實生活中有相當一部分人很難享受到現代化生活帶來的便利,包括信息服務和其他各類先進設備可提供的幫助。高識別率語音識別技術有助于改善這種情況,使社會各個階層更多的人享受到更多的社會信息資源和現代化服務,提高整個社會的信息化程度和現代化速度。

高識別率語音識別技術還將推出機器人智能技術的發展,由于機器人本來就要配置視覺系統,本方案很輕易實現,提高了人與機器交互的能力。另外高識別率語音識別技術在語音錄入系統、會議實時記錄及同聲翻譯、記者采訪設備等方向有著廣闊的應用前景。

語音識別系統中增加圖像識別技術的設計 來源:電子技術應用 作者:重慶大學通信工程學院 葉淩峽 摘要:采用機器視覺對語音對象進行跟蹤,利用說話人正常發音時,嘴部的開合狀況提取語速信息,實時調整語音識別的工作速度,匹配語音韻律,將有效提高語音識別准確性。討論了系統的設計原理和實現技術,著重介紹了對應輔助圖像識別的設計分析。 要害詞:語音識別 機器視覺 圖像識別 語音識別是機器自動語音識別(automatic speech recognition by machine)的簡稱。 語音識別技術關系到多學科的研究領域,不同領域中的研究成果都對語音識別的發展作出了貢獻。讓機器識別語音的困難在某種程度上就像一個外語不好的人聽外圍人講話一樣,它與說話人、說話速度、說話內容、環境條件有關。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態性、瞬時性和連續性等。 計算機語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術是基于統計模式識別的基本理論。一個完整的語音識別系統可大致分爲三部分: (1)語音特征提取:其目的是從語音波形中提取出隨時間變化的語音特征序列。 (2)聲學模型與模式匹配(識別算法):聲學模型通常將獲取的語音特征通過學習算法産生。在識別時將輸入的語音特征與聲學模型(模式)進行匹配、比較,得到最佳的識別結果。 (3)語言模型與語言處理:語言模型包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統,通常不需要語言處理部分。 [url=/bbs/detail_1785879.html][img]http://image.wangchao.net.cn/it/1323421604603.gif[/img][/url] 聲學模型是識別系統的底層模型,並且是語音識別系統中最關系的一部分。聲學模型的目的是提供一種有效的方法,計算語音的特征矢量序列和每個發音模板之間的距離。聲學模型的設計與語言發音特點密切相關。聲學模型單元大小(字發音模型、半音字模型或音素模型)對語音練習數據量大小、系統識別率以及靈活性有較大的影響。必須根據不同的語言的特點、識別系統詞彙量的大小決定識別單元的大小。 由于有了種種困難,語音識別技術通常根據使用中的限制性要求,構建成不同類型的系統,通常包括三類。其一爲限制用戶的說話方式,這又可以分爲孤立詞語音識別系統(isolate-Word speech recognition system)、連接詞語音識別系統(connected-words speech recognition system)、連續語音識別系統(continue speech recopnition system)和即興口語語音識別系統(spontaneous speech recognition system)。其二爲限制用戶的用詞範圍。第三種爲限制系統的用戶對象。 采用語速作爲系統的第二信息渠道,一旦系統跟蹤到了目標的語還,在協助語音識別的同時還能夠有效地排除與語音信息不同步的外界噪聲,因此系統能夠獲得更好的識別性能。 2.2.2 圖像處理算法設計 語言模型對中、大詞彙量的語音識別系統非凡重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判定糾正,非凡是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是采用統計語法的語言模型與基于規則語法結構命令的語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利于提高系統的識別。 語音識別過程實際上是一種熟悉過程。就像人們聽語音時,並不把語音和語言的語法結構、語義結構分開。因爲當語音發音模糊時人們可以用這些和知識來指導對語言的理解過程,但是對機器來說,識別系統也要利用這些知識,只是如何有效地描述這些語法和語義還有困難: (1)小詞彙量語音識別系統:包括幾十個詞的語音識別系統。 (2)中等詞彙量的語音識別系統:通常包括幾百個詞至上千個詞的識別系統。 (3)大詞彙量語音識別系統:通常包括幾千至幾萬個詞的語音識別系統。 這些不同的限制也確定了語音識別系統的困難度。 [url=/bbs/detail_1785879.html][img]http://image.wangchao.net.cn/it/1323421604809.gif[/img][/url] 1 增加圖像識別設計的目的 如今的語音識別技術正在逐漸成熟,許多語音識別技術都已經能夠達到很高的識別率了,不過當識別率到了一定的程度後,再提高就很困難,此時需要采用其他技術來協助語音的識別。 目前的語音識別系統由于采用單一傳感器(聲音傳感器)進行工作,在進行語音識別時,不可能對捕捉的語音信息進行細分,只能采用定速率跟蹤識別,將語音信息與系統庫中的模板進行匹配判定。假如捕捉信息的速率與存儲在系統庫中的模板相關不多,則能正常工作,否則將會出現誤判。然而現實生活中,人們說話不可能總保持相同的速率,而是不斷變化的,這勢必造成了語音識別系統的誤差增多,以致降低語音識別系統的實用性。 人們在進行語音交流時,在捕捉語音信息的同時,也在獲取其他的信息以幫助理解,例如表情、神態等信息。假如得不到相關信息,人們相互之間也會産生誤解,例如當兩個人在相隔較遠距離時,由于不能清楚對方的表情、神態,經常會出現理解錯誤的情況發生。可見使用單一的信息渠道的確會增加理解難度,因此有必要考慮增加信息渠道來解決這個問題。這就是增加圖像識別功能的原因。 對于語音識別系統,假如能像人一樣判定語言對象的喜、怒、哀、樂,當然是最好的,但這勢必大大增加圖像識別的工作量,甚至超過語音識別的成本,不太合理。並且,由于技術的原因,還不能使機器有像人一樣的視覺能力,要讓機器能夠准確識別出人的各種表情還達不到,所以此種方案是不可取的。進一步分析知道,語音識別系統受語速的影響是很大的。人在正常講話時,嘴的開合狀態都是大同小異的,假如讓機器只對嘴的開合兩種情況進行判定和實時跟蹤,得出講話人的語速信息,是能夠做到的。所以僅僅需要機器識別出人說話的速度,以此來調整語音識別的匹配速度,從而適合語音韻律,自然有利于系統的語音識別能力,提高識別的准確性。通過語速對語音識別系統的幫助,將爲語音系統提供另一條實用的信息渠道。 [url=/bbs/detail_1785879.html][img]http://image.wangchao.net.cn/it/1323421604923.gif[/img][/url] 2 實現的技術及方法 2.1 系統總體設計概述 語音系統采集說話人(語言對象)的兩路信息,一路由聲音傳感器取得,一路由攝像設備取得。攝像設備取得人的嘴型變化後,將之轉化爲語速信息送到語音識別器與采集到的語音進行匹配識別,自動調節識別速度,更好地完成語音識別工作。系統的工作流程如圖1。 2.2 輔助圖像識別設計 捕捉語言對象的說話速率是保證整個系統良好工作的要害。爲了實現此目的,使用基于機器視覺的人嘴部狀態檢測方法來設計。由于對圖像的識別精度要求不高,可以選擇灰度圖像以提高運算速度。在速度答應的情況下,彩色圖像的識別精度會更高。 2.2.1 流程分析 整個輔助圖像識別設計的目的就是通過機器視覺進行圖像采集、圖像處理,提取出說話人的語速信息供語音系統使用。 以灰度圖像爲例,其圖像處理過程如圖2。 對于彩色圖像,特征量會更多一些,也就更複雜一些,但其基本步驟都是先完成圖像數字化,再進行圖像特片提取,最後進行圖像識別和理解。 當完成圖像處理後,比較模塊將這一幀圖像與上一幀圖像的數據進行對比,判定出變化,從而統計出語速信息,最後輸出給語音識別器進行匹配工作。 [url=/bbs/detail_1785879.html][img]http://image.wangchao.net.cn/it/1323421605300.gif[/img][/url] (1)圖像分割 經過對人臉RGB像素的分析,發現人臉圖像中的R、G兩分量符合二維高斯分布。因此,可通過這兩個分量確定人臉的位置。在人臉定位的基礎上,根據人的嘴部處于人臉下半部分的特片,比較輕易確定出嘴部的大致位置,它爲嘴部精確定位提供了基本條件,如圖3所示。 (2)圖像特征的提取 根據系統要求,灰度圖像可以滿足需要,但由于嘴唇與皮膚的灰度差別不大,而且灰度信息更容量受到光照條件、人臉的運動和旋轉變化等影響,使人臉圖像中嘴唇區域邊緣不明顯,非凡是當嘴唇內部的陰影區域與牙齒交替出現時,嘴唇的邊緣變得更加模糊,所以利用唇色和膚色的灰度及邊緣信息分割不能達到很高的准確度。若要提高對嘴部狀況的識別准確度,可以利用彩色信息來對人嘴的外形、位置進行確定。 研究發現,嘴唇的主要顔色特征是唇色相對膚色顔色較紅,而且歸一化RGB顔色對光照、人臉運動和旋轉具有不變性。因此利用顔色信息,采用模式分類技術分割嘴唇區域,可以克服灰度圖像本身固有的缺點。由于Fisher線性分類器能夠最大限度地分開兩類,且其學習是離線處理,減少了計算量,因此可采用Fisher線性分類器進行嘴唇區域分割。 人嘴在說話與正常情況下的外形有明顯的區別。說話時嘴部張開較大,而正常情況下,嘴部基本閉合(圖4)。因此,可以利用這些特征進行嘴部狀態的檢測。研究中發現,嘴部區域的最大寬度Wmax、最大高度Hmax能夠表征嘴部的張開程度,應取爲特征值;上嘴唇與下嘴唇之間的高度Hmin在說話不說話時也有明顯不同,應取爲特征值。將以上三個特征值組成一組向量,即可描述出不同狀態下的嘴部幾何特片,如圖5所示。 將獲得的能夠描述人的嘴部區域幾何外形特征參數組成一個特征向量Zui,即可作爲下一步判別分類的輸入向量:Zui=(Wmax,Hmax,Hmin)。 在進行識別時只要確定兩個狀態“開”、“合”即可。在實際中由于發音時不同的語音會導致嘴的開合程度不一,所以對“開”(Hmin>0)的區分會很多種情況,必然會極大地增加運算存儲量。相對而言,嘴的“閉合”狀態一般只有一種模式(Hmin=0),因此可以只確定說話人嘴的“閉合”狀態,其他狀態都判爲“開”,這樣將方便處理。 (3)圖像識別理解 由于對識別精度要求不高,既可以采用傳統的統計模式識別方法,也可以采用較熱門的神經網絡識別方法;但由于系統對實時要求較高,而神經網絡識別方法運行速度成問題,因此不建議采用神經網絡識別方法。 2.3 語速信息的提取 選用合適的捕捉頻率不斷采集說話人的圖像,用當前幀的數據與上一幀數據進行比較,根據其變化的頻率就可以推算出語速信息。實際情況中,所求的語速信息不需要太精確就能夠達到一般要求。 [url=/bbs/detail_1785879.html][img]http://image.wangchao.net.cn/it/1323421605491.gif[/img][/url] 3 應用展望 語音識別是一種賦能技術,現有的很多人機交互界面都可能通過補充語音識別功能而得到改善。語音識別技術可以把費腦、費力、費時的機器操作變成一件很輕易且有趣味性的事情,在許多“手忙”、“手不能用”、“手所不能及”、“懶得動手”的場景中,包括像駕駛室、一些危險的工業場合、家電控制等方面,高識別率的語音識別系統將會更加方便人的工作和生活。 由于知識層次和知識領域的差異,現實生活中有相當一部分人很難享受到現代化生活帶來的便利,包括信息服務和其他各類先進設備可提供的幫助。高識別率語音識別技術有助于改善這種情況,使社會各個階層更多的人享受到更多的社會信息資源和現代化服務,提高整個社會的信息化程度和現代化速度。 高識別率語音識別技術還將推出機器人智能技術的發展,由于機器人本來就要配置視覺系統,本方案很輕易實現,提高了人與機器交互的能力。另外高識別率語音識別技術在語音錄入系統、會議實時記錄及同聲翻譯、記者采訪設備等方向有著廣闊的應用前景。
󰈣󰈤
王朝萬家燈火計劃
期待原創作者加盟
 
 
 
>>返回首頁<<
 
 
 
 
 熱帖排行
 
 
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有