• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 汽車電子 > 設計應用 > 基于DSP的高速實時語音識別系統的設計與實現

    基于DSP的高速實時語音識別系統的設計與實現

    ——
    作者: 時間:2007-10-26 來源: 收藏

      實時系統中,由于語音的數據量大,運算復雜,對處理器性能提出了很高的要求,適于采用高速實現。雖然提供了高速和靈活的硬件設計,但是在實時處理系統中,還需結合器件的結構及工作方式,針對語音處理的特點,對軟件進行反復優化,以縮短識別時間,滿足實時的需求。因此如何對DSP進行優化編程,解決算法的復雜性和硬件存儲容量及速度之間的矛盾,成為實現系統性能的關鍵。本文基于設計并實現了高速實時系統,在固定文本的說話人辨識的應用中效果顯著。

      1 的原理

      語音識別的基本原理框圖如圖1所示。語音信號中含有豐富的信息,從中提取對語音識別有用的信息的過程,就是特征提取,特征提取方法是整個語音識別系統的基礎。語音識別的過程可以被看作足模式匹配的過程,模式匹配是指根據一定的準則,使未知模式與模型庫中的某一模型獲得最佳匹配。

      

      1.1 MFCC

      語音識別中對特征參數的要求是:

      (1) 能夠有效地代表語音特征;

      (2) 各階參數之間有良好的獨立性;

      (3) 特征參數要計算方便,保證識別的實時實現。

      系統使用目前最為常用的MFCC(Mel FrequencyCepstral Coefficient,美爾頻率倒譜系數)參數。

      求取MFCC的主要步驟是:

      (1) 給每一幀語音加窗做FFT,取出幅度;

      (2) 將幅度和濾波器組中每一個三角濾波器進行Binning運算;

      (3) 求log,換算成對數率;

      (4) 從對數率的濾波器組幅度,使用DCT變換求出MFCC系數。

      

      本文中采用12階的MFCC,同時加過零率和delta能量共14維的語音參數。

      1.2 DTW

      語音識別中的模式匹配和模型訓練技術主要有DTW(Dynamic Time Warping,動態時間彎折)、HMM(HideMarkov Model,隱馬爾科夫模型)和ANN(Artificial Neu-ral Network,人工神經元網絡)。

      DTW是一種簡單有效的方法。該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別中出現較早、較為經典的一種算法。DTW算法的原理是計算兩個長度不同的語音之間的相似程度,即失真距離。

      設測試語音和參考語音用T和R表示,他們分別含有N幀和M幀的語音參數。本文中每幀語音的特征參數為14維,因此T,R分別為N



    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 新干县| 沙坪坝区| 缙云县| 固原市| 禄劝| 泰兴市| 元朗区| 绥德县| 二连浩特市| 容城县| 乌海市| 枝江市| 阳城县| 临汾市| 青州市| 江华| 乌什县| 鄄城县| 台安县| 五峰| 沙田区| 齐河县| 尼勒克县| 保靖县| 达州市| 胶南市| 莲花县| 邻水| 来凤县| 桓台县| 五莲县| 登封市| 闽侯县| 化州市| 密山市| 泰兴市| 顺平县| 上杭县| 东乡| 梅河口市| 朝阳区|