About Me

我的相片
台北市, Taiwan
我是方選,
方白科技(finebind tech.)共同創辦人,
臺大資管所畢,
希望能幫助更多的人!

FB: http://fb.com/function1122
LINE: http://bit.ly/1foeZft (手機開啟點擊網址自動加入)

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

建立中文廣播新聞摘要之研究

FUNction 於 2010年6月15日 中午12:23 發表

中文語音辨識
語音文件無法被概括性的瀏覽,只能循序瀏覽到最後才能了解整篇文件要表達的含意。相同內容,由不同的人說出來的語音文件,除了聲調、音量外,口音也會使每篇語音文件顯得不同。即使是相同的人,也會因為環境、身體狀況而改變語音文件的品質。

「索引特徵」是資訊檢索、分類系統表示文件或使用者問句的基礎。在中文裡,特徵分為詞(word-level)、字(Character-level)以及音節(syllable-level)三個層次。結構上中文具有以下特質:

  • 中文一個字就是一個音節
  • 單字通常是詞素(morpheme),詞素是帶有語意的最小單位
  • 詞的界限不明顯
  • 有許多的同音字

新詞容易被創造、理解是另一大特色,例如「高鐵」。這些詞通常不存在於檢索分類的辭典,但是他們與文件的核心概念通常密切相關。由此可知,中文的構詞相當具有彈性,要統計中文的詞數其實相當困難。但是中文所有可能的音節只有1345個(不計音調只有450個),且常用字大概只有7000到10000左右。根據琳山大大實驗室的研究,雖然中文可能的詞總數相當大,但是都是由一到數個字串接而成,而且音節數大於等於3時,唯一性相當高,因此音節段(Syllable Segment)層次的資訊在中文資訊檢索與分類中扮演非常重要的角色。此外中文新詞出現太快,加上詞的界限不明顯,使斷詞工作存在歧異性。但若以音節層次作為索引特徵,對於辭典外詞彙(Out of Vocabulary, OOV)將會有很大的改善。

使用不同特徵詞進行事件偵測
分別使用雙音節(double syllables)、單詞(single word)與雙字(double character)作為索引特徵,在專有名詞與關鍵詞部分,經過語音辨識後用派樹抽詞法(pat-tree)和文字在機率式潛藏語意模型上的主題亂度所擷取出來。研究發現使用不同索引特徵各有其優缺點,使用詞的辨識錯誤率較高,但提供的資訊量較豐富;使用字辨識錯誤率較低,但提供的資訊較含糊;一般而言,使用雙音節結果較好。將方法結合,發現單字結合雙音節,並使用機率式潛藏語意分析或機率模型效果最好。

按:其實我仍然對「單音節」與「單字」的差別不了解,但從研究結果而言,單字的辨識效果較好,所以我的猜測是單字是語音辨識後經過詞庫的比對而產生出來確切的字,例如將「ㄏㄠˇ」(單音節)辨識成「好」(單字),因為同樣是「ㄏㄠˇ」這個因,仍然有好、郝、恏三個字,所以單字比單音節更為明確。

事件總數之選定
讓電腦決定要分成幾類非常困難,因為就連人類專家也會因為背景知識不同,分類的結果也不盡相同。在新聞的研究中,新聞事件的產生時間受到許多額外因素的影響,所以每則記事沒辦法構成如下的次數-時間分布圖

DSC01563 
圖中是五個事件被很多不同記事報導的時間頻率圖,從圖可知,若用電腦判斷還可能分不出那些頂峰屬於哪個事件,而錯估了事件的數量

根據研究,使用階層式聚合分群法搭配時間衰退函數,可以產生最準確的結果。演算法概念是先用階層式聚合分群演算法對記事文件分群,直到記事文件的相關度小於某一門檻值即停止分群動作。接下來再根據分群後的群聚數目預測事件總數。

建立事件摘要的方法
目前建立摘要的方法簡單說就是從描述事件的所有句子(Sentence)中計算每句的重要性,擁有最高重要性的句子就成為這個事件的摘要,句子數量是依照使用者喜好調整的。常使用的方法是詞頻反文句頻(TF-ISF)與機率潛藏與一模型的主題亂度,根據使用者測試,詞頻反文句頻的結果較好,如下表所示:

新聞 人工撰寫 TF-ISF 文字-主題亂度
台北市長選戰 台北市長選戰由馬英九和李應元對決,陳水扁總統為李應元站台,發表台灣腳和香港腳談話批評馬英九,而馬英九也反擊回去
  1. 年底台北市長選舉
  2. 民進黨台北市長候選人李應元再度出招
  • 全國人民自有公道
  • 年底台北市長選舉
辛樂克颱風 中度颱風辛樂克侵台
  • 中度颱風辛樂克來勢洶洶
  • 中度颱風勒克直撲台灣而來
  1. 繼續向西前進
  2. 檢視了電線桿還有線路
台灣第十度參與聯合國失敗 台灣第十度參與聯合國失敗
  1. 台灣參與聯合國第十度叩關失敗
  2. 聯合國總務委員會沒有通過中華民國台灣的入會申請案
  • 提案又被封殺
  • 已經表達對我方善意
國內登革熱疫情上升 國內登革熱疫情持續上升,病例數直逼兩千
  • 登革熱疫情持續發燒
  • 動手清除孳生源
  1. 動手清除孳生源
  2. 要把蚊子趕盡殺絕
第四屆漫畫博覽會 第四屆漫畫博覽會開幕
  1. 漫畫博覽會今天開幕
  2. 第四屆漫畫博覽會開幕現場三百多個攤位
  1. 漫畫博覽會今天開幕
  2. 他甚至開玩笑的說

詞頻反文句頻(Term Frequency multiplied by Inverse Sentence Frequency, TF-ISF)與傳統的TF-IDF類似,但將文件單位縮小成句子,公式如下:

TFISFi,j = (1 + ln cnti,j)*ln(Ms/Mfi)

是索引特徵fiy在文具sj中出現次數,Ms是該事件所有的句子總數,Mfi是有出現fi的句子數(文句頻, Sentence Frequency)。有了TF-ISF我們便能計算每一個句子的重要性分數。

事件呈現方法
Robert B. Allen提出了編年式方法呈現事件(按:類似Plurk),簡而言之,在時間軸上安置多個事件,每個事件可以點開看到多筆記事的標題,點選標題則可聽到語音檔案。

在語音檢索系統中,使用者可以藉由語音輸入查詢相關文件,一般而言被區分為多個模組,如下圖所示:

DSC01564

內容:

  • 語音文件收集、模型訓練、轉寫、特徵抽取:是建置系統的前置作業,必須先收集好需要的文件,成為一個文件資料庫,收集好之後便將此文件資料庫當作模型的訓練語料,如前端語音辨識需要的聲學模型、語言模型,文件檢索核心需要機率式潛藏語意模型,事件分析與擷取需要機率模型、把文件加以轉寫、擷取重要資訊(例如TF-IDF、類專有名詞、其他關鍵詞等)。由於模型訓練需要大量時間,所以必須在離現時完成,供其他元件使用。
  • 前端語音辨識:使用者執行語音查詢時的互動單元,與文件收集與模型訓練不同之處在於前端語音辨識需要即時(Real Time)完成,故並非所有便是引擎能勝任。
  • 文件檢索核心:牽涉兩個重要議題,一是索引技術,如何表示文件與使用者問句;二是如何衡量文件相關程度。
  • 結果之視覺化呈現:檢索結果通常包含多筆資料,必須有組織呈現才能減少使用者的檢索成本。在這篇paper中,以樹狀結構將「類專有名詞」作為類別的節點,進行階層式的表達。另一種方式是如前所述,用時間軸前後順率供使用者瀏覽,理論上兩種方法相輔相成。

展望
語音辨識經常使用隱藏式馬可夫模型(Hidden Marko Model),可以將記事文件的時間當作是所觀察到的現象,如果利用此模型將事件分析與擷取所要進行的工作,或許是不錯的選擇。

參考資料語音文件之事件偵測與時間分析─以廣播新聞為例 (其實跟上一篇一樣XD)
注:這兩篇是我看以上論文時所摘錄的重點,圖片均來自該論文中,若有冒犯煩請告知,撰寫的目的是作為我研究的筆記,也希望能促進學術研究與交流風氣,故在Blog上發表,在此深表對研究者的感謝!

Tags: , ,

讀者回應 ( 3 意見 )

Thiѕ text iѕ pгiceless. When can I find out morе?



my webpage - keep reading

ӏ don't even know how I ended up here, but I thought this post was good. I don't knoω whо you are but definitеly you're going to a famous blogger if you are not already ;) Cheers!

Look at my homepage: avoid cellulite pregnancy ()

Εхсеllеnt sitе. A lot of
helpful infο here. I аm sеnԁing it to sеvеral pals ans alsо shaгing in delicious.

And certaіnly, thanκѕ for yοuг swеat!


Αlso visit my ωеbpage :: preventing premature ejaculation

張貼留言

如果沒有帳戶,建議使用「名稱/網址」留言喔^^