在meeting 中常聽到:
- 你有什麼comment?
- 這是個good point!
- 在這個Algorithm中,我們會先…
雖然既有的單語辨識系統已經漸趨成熟,但在實務上,雙語辨識系統的確有其需要。要建構中英雙語辨識系統,必須要考慮兩種語言的特性,並加以整合。此外,實務應用上的「自發性語音(spontaneous speech)」常伴有許多的停頓、重複、無意義的語助詞或不完整的段落。而且演說者常會把英文說得有點想像中文,例如facebook會說成「非死不可」之類的,也會增加辨識的難度(中:英 = 9:1 左右)。
中英連續語音辨識技術
英文是多音節的拼音語言,一個word可以由一到多個音節所組成,因此音節(或稱音素phoneme)是英文的最小單位。而音素根據發音方式可以分為子因與母音,因此英文辨識以因素為基礎,將音素串辨識為字串。
中文以單音節為基礎,一個字一個音節,往下細分可分成聲母(Initial)、韻母(Final)與聲調(Tone),其中聲調的部分在辨識時不一定需要,而聲母、韻母就像英文基本單位的子音語母音。中文連續辨識系統都是以辨識次音節(聲母、韻母)為基礎。要辨識出完整的中文字串,就是在連續語音中辨識出「聲 韻 聲 韻 聲 韻」的序列,再根據「聲+韻」不同的組合辨識出不同的單字,進而辨識出完整的字串。由於中文有上萬字,但不計聲調的「聲+韻」組合只有約450個,因此儘管能正確辨識出音節,卻不一定能選出正確相對應的字,也因此必須仰賴辭典及語言模型以得到最可能的字串。就像注音輸入法錯字的問題,基本上注音輸入法能辨識出正確的音節(包含聲母、韻母與聲調),有1345種可能的變化,但中文也僅10000常用字,卻有可能發生「韓劇跟西洋句一樣差勁,我都不喜歡」辨識成「含巨根吸陽具一樣插進,我都不喜歡」的笑話@@
因此中英混和辨識必須:
- 找出最好的雙語聲學模型:必須解決目前中英兩種單語系聲學基本單位不同的問題,中文基本單位是聲母韻母、英文則是音素
- 建立雙語文字語發音相對應辭典:只要定義出聲學基本單位即可解決這個問題
- 採用最適合的語言模型:過去單語言模型不敷使用,但訓練雙語言模型之語料不易取得
中文與英文在書寫系統上最大的不同,是中文文句沒有明顯的分隔,分隔方法也會影響句子的意義,例如「沒雞、鴨也好」或「沒雞,鴨也好」就是兩種不同的意思。在研究中通常使用辭典斷詞法,斷詞結果完全取決於辭典內的詞。若領域有限,不需要很大的辭典,辭典過大反而會引起混淆,因此如何建立或選擇辭典也是一大考量因素。另一個需要考慮的是語言模型,由於雙語語料為兩種語言混合使用的結果,因此較無規律的語法,須採用「統計式(Statistics-Based)」,由訓練語料根據統計特性得到語言模型。
《以課程錄音為基礎的中英雙語語音辨識之初步研究》的重要方法與成果如下:
- 定義有限領域的中英雙語辭典:使用背景辭典將語料斷詞後,找出出現頻率一次以上的多字詞3940個,語背景辭典常見單字5901個,透過抽詞程式抽取合理的多字詞數個,合成12322個專業領域用詞(中文10767個、英文1555個)
- 聲學模型:定義四套不同音素集
- 語言模型:雙語模型、三連語言模型、以詞群為基礎的語言模型;以兩份不同背景語料建立調適語言模型
- 重要結果:雙語平均單詞正確率51.97%;中文最佳值66.11%;英文最佳值66.77%
雙語語音辨識的基本架構
要讓電腦「聽懂」使用者的話,必須經過一連串的處理程序,如下圖所示:
連續語音辨識不是直接對取樣後的數位訊號加以辨識,因為人類發音器官的限制,聲音訊號是連續且緩慢的,所以必須取一小段時間內相近而穩定的語音訊號,將之視為音框(Frame),存一個因框中抽取出一組對辨識有用的特徵參數,建立特徵向量,再針對一系列代表實際語言的特徵向量進行辨識。為了避免突兀的訊號變化,通常因框間會彼此重疊,以保證所抽取特徵向量的代表性。辨識結果取決於:
- 聲學模型:由語音資料所建立,中文裡最小單位是聲母跟韻母,英文中是音素。
- 辭典:將發音與詞對照,選擇不同大小、領域、語言的辭典,也會對辨識結果造成影響
- 語言模型:透過足夠的文字資料,經由辭典做適當的斷詞,計算出前後詞之間的相互關係,以其辨識系統能根據語言模型辨識出最合理的文句。因此訓練語言模型的文字語料必須跟目標便是語料相匹配,此外必須能涵蓋辨識的範疇。
聲學模型
要發展多國語言辨識,必須先用「聲學模型」進行判斷,以下介紹一些現有的研究:
- 國語+台語:前專使用國台語混和聲學模型,在辭典中定義國台語的發音,統一以中文輸出(如果先端先辨識是國語還是台語,會造成辨識力低落)
- 廣東話+英語:外語母語化問題相當明顯,故以廣東話為母語的英語語料進行訓練,使用詞性將外語部分分為多個詞群。
- 法語+英語:定義單純法文、英法共用、單純英文三種音素集,從法語母語選出英法共用、單純英文適當的訓練資料,建立統合的聲學模型
- 日文:將外語資料是為辭典外字彙(OOV),可以先得到主要語言中的資訊
《以課程錄音為基礎的中英雙語語音辨識之初步研究》的作者將實驗語料分成兩部分,文字語料作為語言模型的訓練;語音語料作為聲學模型的訓練及辨識用。
辭典製作與工具
下圖為製作辨識專用辭典的方式。作者將文件經過辭典斷詞後,取出出現一次以上的多字詞,並使用抽辭程式抽出老師上課的文字語料中少數具有詞的特性的多字詞,並將曾出現過的迎文辭會抽出,合併後與單字組成較小的辭典。
研究顯示斷詞與抽取出詞的好壞不會直接影響辨識率,例如複合詞「數位語音處理」與「數位」、「語音」、「處理」,辨識效果後者反而較佳。但若使用過大且內容廣泛的辭典,辨識率會遠低於定義後較小的辭典,辭典大小才是影響辨識率的關鍵。
下表呈現該實驗使用的語音辨識軟體相關工具:
工具 | 開發單位 | 用途 |
HTK Toolkit v3.3/3.4 | Cambridge | 特徵抽取、聲學模型訓練、辨識搜尋解碼 |
SRILM | SRI STAR Lab | 語言模型訓練 |
PatTree抽詞程式 | 琳山大大lab | 自目標語料抽出新詞 |
CKIP | 中研院 | 斷詞 |
國語音素集使用郵鄭秋豫定義的SAMPA-T標音方式(SAMPA-T包含國、閩南、客語)與梁柏宇的NTU-98;英文採用美國腔的CMU音素集。
語言模型
中文存在相當多的同音字,在一千三百多個合法音節中,對應的合法字元卻超過一萬四千個。透過聲學模型可以輔助系統「猜測」較為合理的詞(具有獨立語意,且扮演特定語法功能的字串)串。N連馬可夫鏈語言模型(N-gram Markov Chain Language Model)是統計式語言模型,估算由詞串所組成字串的出現機率,是目前世上最普遍且效能最好的語言模型。但已三連模型為例,若句子中包含一個未見的三連字串,則無論其餘字串機率為何,計算結果必為0。因此若語言模型的訓練語料不足,造成估測的失準,必須使用平滑法建立更好的語言模型。
SRILM提供的N連語言模型訓練程式使用退化平滑(backoff smoothing)法,透過建立門檻,當三連詞串在訓練語料中出現次數過多時,直接使用該三連字串在訓練語料中出現的機率;出現過少時則使用古德-圖靈函數(Good-Turing Function)調整字串機率;若未出現於訓練語料中,則根據正規化條件,由高斯模型的機率到低階模型的機率(按:這段是啥阿…我好像沒有一句看懂Orz)
實驗結果
- 更改音素集可以得到明顯的進步,特別在中文正確率上。
- 英文單詞進步率之提升,仰賴語言模型的調整。因為語言模型裡中英文比為87:13,而音素集裡中英文模型比為63:39,因此調整語言模型可以提高英文辨識。
- 不符合目標語料的背景語料完全無法為辨識系統帶來任何進步。
- 以詞群為基礎的語言模型幾乎完全無法發揮作用,可能是因為目標語料口語化、沒有明顯語法結構所造成。所以若要使用詞群概念,可能要考慮階層性的詞群。
參考資料:以課程錄音為基礎的中英雙語語音辨識之初步研究
注:本文是我從以上論文所摘錄的重點筆記,圖片均來自該論文中,若有冒犯煩請告知,放在Blog除了作為研究筆記,也希望能促進學術研究與交流風氣,在此深表對研究者的感謝!