About Me

我的相片
台北市, Taiwan
我是方選,
方白科技(finebind tech.)共同創辦人,
臺大資管所畢,
希望能幫助更多的人!

FB: http://fb.com/function1122
LINE: http://bit.ly/1foeZft (手機開啟點擊網址自動加入)

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

新聞事件偵測與時間分析之研究

FUNction 於 2010年6月14日 下午1:37 發表

主題事件的分類(TDT, Topic Detection and Tracking),五大追蹤方向

  1. 文件切割(Story Segmentation):將依則包含許多新聞的文件切割成許多單獨新聞的文章
  2. 主題追蹤(Topic Tracking):找出新進文件是否與之前主題相關
  3. 主題偵測(Topic Detection):將探討鄉圖主題的文件分類
  4. 第一則新聞偵測(First Story Detection):判斷新進文件是否屬於新的主題或是尚未討論過的主題
  5. 連結偵測(Link Detection):隨意取出兩則文件,判斷此兩則文件是否屬於同一主題

大型語料的主題分析最受矚目的是「自組性語意對應圖(Self-Organizing Semantic Map)」,許多研究使用此方法;另外「機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)」所發展的語意對應圖(Probmap)屬於強大且較新的研究。

文件分類大概有三種主要的方法

  1. 階層式聚合分類演算法(Hierarcy Agglomerative Clustering Algorithm):最基本
  2. K-means
  3. 變色龍演算法(Chameleon Algorithms):較新穎

主題(Topic)、事件(Event)與記事(Story)

  • 記事代表一段可以提供使用者某種資訊的文字,例如一則新聞
  • 事件是某件特定的事,有特定的發生時間與地點,由一個或多個描述相通事情的記事所組成
  • 主題是由相關的事件合併而成

除了TF-DIF之外,還有海寧格距離(Hellinger Distance)也可以衡量文件的相關程度。事件偵測有兩個特徵,專有名詞與時間資訊,專有名詞通常分為:人名、地名與組織名,通常專有名詞在文件中比一般詞重要,因此在TF-IDF中,通常會將專有名詞作加權總合。所以會將人名、地名與組織名分開計算,再依照權重與一般詞的關聯加總,產生總體的關聯度。最簡單的方法是若兩篇文獻都有相同的專有名詞,相關程度為1,反之為0。

機率式潛藏語意分析(Probability Latent Semantic Analysis)
自傳統潛藏式語意分析理論而來。傳統潛藏式語意分析使用Singular Value Decomposition的方式,對document-word matrix進行簡化。機率式潛藏語意分析以隨機狀態起始,並以最大期望值來做區域最佳化。因此每次不同隨機狀態起始的結果不同,故可結合多個潛藏語意分析模型做出不同變化的語意分析。

在語料庫訓練下,可以估計主題z產生文件d的機率:P(d|z),結合各個不同主題上的機率後,便可以得到文件d在所有主題上的機率分布。透過貝氏定理可以計算出給定文件d產生主題z的機率。

P(z|d) = (P(d|z)*P(z))/P(d)~P(d|z)*P(z)

利用機率模型進行事件偵測與時間分析
一個記事(Story)可以用四種資訊表達:When、Who(人與組織名)、Where與What(其他關鍵詞),但是事件(Event)包含兩個時間資訊(記事開始與記事結束)。其他關鍵詞是用機率式潛藏語意模型的主題亂度(Term Entropy)所找到除了類專有名詞外的關鍵詞。假設這四種資訊相互獨立:

P(story) = P(persons)P(location)P(keywords)P(time)

DSC01561 
記事的生成模型由四個模型所混合─三類名詞單元與時間戳記,上圖中E代表事件、D代表記事,P、L、K分別表示人、地、其他關鍵字,N是名詞;T是時間。所以每篇記事都有四個向量,一份文件的同個向量可以成為一個list(例如人名表)。接著可以藉由計算每個list在事件中發生的機率,取得記事在事件中發生的機率。

重要事件的過濾
判定新聞室否重要需要許多新聞相關的背景知識,例如顯著性(Prominence)、奇異性(Conflict)與鄰境性(Proximity)等。顯著性代表新聞內容的影響力,探討新聞內容影響哪些層面;奇異性代表這則新聞是否報導若干特意少見的事情;鄰境性代表這則新聞所發生的所在地與接收者是否在地理上相近。這些知識大都以人類知識為基礎,加上主觀的判斷而成,故以統計分析難度較高。

因此使用四個過濾器進行事件重要性過濾:

過濾器 內容 效率
類專有名詞與關鍵詞法 若一事件不包含類專有名詞(人名、地名與組織名)與其他關鍵詞,此事件可能不是描述重要記事的文件,可以刪掉一小部分。 只刪掉6篇,錯誤率0
TF-IDF 若TF-IDF低於某門檻值,此事件可能不是描述重要記事的文件。 錯誤率約1/3
文件在機率式潛藏語意模型之主題亂度法 假設只有兩篇記事文件(記事1與記事2)、三個主題(主題A、主題B與主題C)。記事1在三個主題的涵蓋度都很平均;記事2在主題B的機率很高,另外兩個主題很低,代表記事2與主題B明顯相關。因為記事1分布平均,可推測記事1不是描述重要事件的文件。
亂度越低,代表機率分布越不平均。所以可以設定一個門檻,若主題亂度高過這個門檻,則必須將記事刪除。
錯誤率約2/9
文件相關度法 通常重要事件會有許多記事文件報導,通常使用cosin來測量事件的相關度,相關度越高代表越重要。 錯誤率約1/8

所以其實篩選器誤刪正確文章的機率都蠻高的,不可能疊在一起使用。找出正確事件應該有兩種作法:

  1. 先用較好的篩選器篩選(留下有意義的事件記事),再使用階層式+時間將記事分群找出事件
  2. 直接使用機率式模型(PROB)對所有的記事進行分群

新聞實驗的語料庫
基本資料(人工專家產生):

來源 大陸中央社廣播新聞
範圍 2002/7/1~2002/10/1(CBN2002) 共982篇,平均140.2字
類專有名詞 人名517、地名437、組織名695 (派樹抽詞法)
其他關鍵詞 2000個 (機率式潛藏語意模型主題亂度)
事件數 共59個事件(Event),286個記事(Story)

藉由專家對語料庫的事件辨別,評比分群與過濾的方法,結果發現階層式聚合分群演算法在文件雜訊較多時,效果並不理想;但使用機率式潛藏語意分析或機率模型,對雜訊的抗拒力較高。當文件數量較少、資訊較明確,階層式聚合分群法的結果將會顯著提升,而機率式潛藏語意分析會因為訓練資料較少,進步幅度受到限制,但機率模型的結果仍然不差。

機率式潛藏語意分析家上時間資訊打亂了詞與文件的關係,所以效果比純粹機率式潛藏語意模型還差;事件偵測結果的好壞與係數初始值設定息息相關,利用機率模型系數的初始職可以得到較佳的結果。

參考資料語音文件之事件偵測與時間分析─以廣播新聞為例

Tags: ,

讀者回應 ( 1 意見 )

想做這個主題偵測,但不知從何開始?可否指點一二。

張貼留言

如果沒有帳戶,建議使用「名稱/網址」留言喔^^