語音識別是模式識別的一個分支,又從屬于信號處理科學領(lǐng)域,同時與語音學、語言學、數(shù)理統(tǒng)計及神經(jīng)生物學等學科有非常密切的關(guān)系。語音識別的目的就是讓機器“聽懂”人類口述的語言,包括了兩方面的含義:其一是逐字逐句聽懂非轉(zhuǎn)化成書面語言文字;其二是對口述語言中所包含的要求或詢問加以理解,做出正確響應,而不拘泥于所有詞的正確轉(zhuǎn)換。
自動語音識別技術(shù)有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的,即它的聲學信號可以在不考慮說話人試圖傳達的信息內(nèi)容的情況下用數(shù)十個具有區(qū)別性的、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法、語義和語用結(jié)構(gòu)割裂開來。
預處理,包括語音信號采樣、反混疊帶通濾波、去除個體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語音識別基元的選取和端點檢測問題。特征提取,用于提取語音中反映本質(zhì)特征的聲學參數(shù),如平均能量、平均跨零率、共振峰等。訓練,是在識別之前通過讓講話者多次重復語音,從原始語音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對數(shù)據(jù)加以聚類,形成模式庫。最后模式匹配,是整個語音識別系統(tǒng)的核心,它是根據(jù)一定規(guī)則(如某種距離測度)以及專家知識(如構(gòu)詞規(guī)則、語法規(guī)則、語義規(guī)則等),計算輸入特征與庫存模式之間的相似度(如匹配距離、似然概率),判斷出輸入語音的語意信息。 |