基于DSP的高速實時語音識別系統(tǒng)的設計

——

作者：李邵梅陳鴻昶等時間：2007-10-31 來源：現(xiàn)代電子技術

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

實時語音識別系統(tǒng)中，由于語音的數(shù)據(jù)量大，運算復雜，對處理器性能提出了很高的要求，適于采用高速DSP實現(xiàn)。雖然DSP提供了高速和靈活的硬件設計，但是在實時處理系統(tǒng)中，還需結合DSP器件的結構及工作方式，針對語音處理的特點，對軟件進行反復優(yōu)化，以縮短識別時間，滿足實時的需求。因此如何對DSP進行優(yōu)化編程，解決算法的復雜性和硬件存儲容量及速度之間的矛盾，成為實現(xiàn)系統(tǒng)性能的關鍵。本文基于TMS320C6713設計并實現(xiàn)了高速實時語音識別系統(tǒng)，在固定文本的說話人辨識的應用中效果顯著。
　　1 語音識別的原理

　　語音識別的基本原理框圖如圖1所示。語音信號中含有豐富的信息，從中提取對語音識別有用的信息的過程，就是特征提取，特征提取方法是整個語音識別系統(tǒng)的基礎。語音識別的過程可以被看作足模式匹配的過程，模式匹配是指根據(jù)一定的準則，使未知模式與模型庫中的某一模型獲得最佳匹配。

　　1.1 MFCC

　　語音識別中對特征參數(shù)的要求是：

　　(1) 能夠有效地代表語音特征；

　　(2) 各階參數(shù)之間有良好的獨立性；

　　(3) 特征參數(shù)要計算方便，保證識別的實時實現(xiàn)。

　　系統(tǒng)使用目前最為常用的MFCC(Mel FrequencyCepstral Coefficient，美爾頻率倒譜系數(shù))參數(shù)。

　　求取MFCC的主要步驟是：

　　(1) 給每一幀語音加窗做FFT，取出幅度；

　　(2) 將幅度和濾波器組中每一個三角濾波器進行Binning運算；

　　(3) 求log，換算成對數(shù)率；

　　(4) 從對數(shù)率的濾波器組幅度，使用DCT變換求出MFCC系數(shù)。

　　本文中采用12階的MFCC，同時加過零率和delta能量共14維的語音參數(shù)。

　　1.2 DTW

　　語音識別中的模式匹配和模型訓練技術主要有DTW(Dynamic Time Warping，動態(tài)時間彎折)、HMM(HideMarkov
Model，隱馬爾科夫模型)和ANN(Artificial Neu-ral Network，人工神經(jīng)元網(wǎng)絡)。

　　DTW是一種簡單有效的方法。該算法基于動態(tài)規(guī)劃的思想，解決了發(fā)音長短不一的模板匹配問題，是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。DTW算法的原理是計算兩個長度不同的語音之間的相似程度，即失真距離。

　　設測試語音和參考語音用T和R表示，他們分別含有N幀和M幀的語音參數(shù)。本文中每幀語音的特征參數(shù)為14維，因此T，R分別為N linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

基于DSP的高速實時語音識別系統(tǒng)的設計

評論

相關推薦

技術專區(qū)