FUNcLogs: 新聞事件偵測與時間分析之研究

主題事件的分類(TDT, Topic Detection and Tracking)，五大追蹤方向

文件切割(Story Segmentation)：將依則包含許多新聞的文件切割成許多單獨新聞的文章
主題追蹤(Topic Tracking)：找出新進文件是否與之前主題相關
主題偵測(Topic Detection)：將探討鄉圖主題的文件分類
第一則新聞偵測(First Story Detection)：判斷新進文件是否屬於新的主題或是尚未討論過的主題
連結偵測(Link Detection)：隨意取出兩則文件，判斷此兩則文件是否屬於同一主題

大型語料的主題分析最受矚目的是「自組性語意對應圖(Self-Organizing Semantic Map)」，許多研究使用此方法；另外「機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)」所發展的語意對應圖(Probmap)屬於強大且較新的研究。

文件分類大概有三種主要的方法

階層式聚合分類演算法(Hierarcy Agglomerative Clustering Algorithm)：最基本
K-means
變色龍演算法(Chameleon Algorithms)：較新穎

主題(Topic)、事件(Event)與記事(Story)

記事代表一段可以提供使用者某種資訊的文字，例如一則新聞
事件是某件特定的事，有特定的發生時間與地點，由一個或多個描述相通事情的記事所組成
主題是由相關的事件合併而成

除了TF-DIF之外，還有海寧格距離(Hellinger Distance)也可以衡量文件的相關程度。事件偵測有兩個特徵，專有名詞與時間資訊，專有名詞通常分為：人名、地名與組織名，通常專有名詞在文件中比一般詞重要，因此在TF-IDF中，通常會將專有名詞作加權總合。所以會將人名、地名與組織名分開計算，再依照權重與一般詞的關聯加總，產生總體的關聯度。最簡單的方法是若兩篇文獻都有相同的專有名詞，相關程度為1，反之為0。

機率式潛藏語意分析(Probability Latent Semantic Analysis)
自傳統潛藏式語意分析理論而來。傳統潛藏式語意分析使用Singular Value Decomposition的方式，對document-word matrix進行簡化。機率式潛藏語意分析以隨機狀態起始，並以最大期望值來做區域最佳化。因此每次不同隨機狀態起始的結果不同，故可結合多個潛藏語意分析模型做出不同變化的語意分析。

在語料庫訓練下，可以估計主題z產生文件d的機率：P(d|z)，結合各個不同主題上的機率後，便可以得到文件d在所有主題上的機率分布。透過貝氏定理可以計算出給定文件d產生主題z的機率。

P(z|d) = (P(d|z)*P(z))/P(d)~P(d|z)*P(z)

利用機率模型進行事件偵測與時間分析
一個記事(Story)可以用四種資訊表達：When、Who(人與組織名)、Where與What(其他關鍵詞)，但是事件(Event)包含兩個時間資訊(記事開始與記事結束)。其他關鍵詞是用機率式潛藏語意模型的主題亂度(Term Entropy)所找到除了類專有名詞外的關鍵詞。假設這四種資訊相互獨立：

P(story) = P(persons)P(location)P(keywords)P(time)

記事的生成模型由四個模型所混合─三類名詞單元與時間戳記，上圖中E代表事件、D代表記事，P、L、K分別表示人、地、其他關鍵字，N是名詞；T是時間。所以每篇記事都有四個向量，一份文件的同個向量可以成為一個list(例如人名表)。接著可以藉由計算每個list在事件中發生的機率，取得記事在事件中發生的機率。

重要事件的過濾
判定新聞室否重要需要許多新聞相關的背景知識，例如顯著性(Prominence)、奇異性(Conflict)與鄰境性(Proximity)等。顯著性代表新聞內容的影響力，探討新聞內容影響哪些層面；奇異性代表這則新聞是否報導若干特意少見的事情；鄰境性代表這則新聞所發生的所在地與接收者是否在地理上相近。這些知識大都以人類知識為基礎，加上主觀的判斷而成，故以統計分析難度較高。

因此使用四個過濾器進行事件重要性過濾：

過濾器	內容	效率
類專有名詞與關鍵詞法	若一事件不包含類專有名詞(人名、地名與組織名)與其他關鍵詞，此事件可能不是描述重要記事的文件，可以刪掉一小部分。	只刪掉6篇，錯誤率0
TF-IDF	若TF-IDF低於某門檻值，此事件可能不是描述重要記事的文件。	錯誤率約1/3
文件在機率式潛藏語意模型之主題亂度法	假設只有兩篇記事文件(記事1與記事2)、三個主題(主題A、主題B與主題C)。記事1在三個主題的涵蓋度都很平均；記事2在主題B的機率很高，另外兩個主題很低，代表記事2與主題B明顯相關。因為記事1分布平均，可推測記事1不是描述重要事件的文件。亂度越低，代表機率分布越不平均。所以可以設定一個門檻，若主題亂度高過這個門檻，則必須將記事刪除。	錯誤率約2/9
文件相關度法	通常重要事件會有許多記事文件報導，通常使用cosin來測量事件的相關度，相關度越高代表越重要。	錯誤率約1/8

所以其實篩選器誤刪正確文章的機率都蠻高的，不可能疊在一起使用。找出正確事件應該有兩種作法：

先用較好的篩選器篩選(留下有意義的事件記事)，再使用階層式+時間將記事分群找出事件
直接使用機率式模型(PROB)對所有的記事進行分群

新聞實驗的語料庫
基本資料(人工專家產生)：

來源	大陸中央社廣播新聞
範圍	2002/7/1~2002/10/1(CBN2002) 共982篇，平均140.2字
類專有名詞	人名517、地名437、組織名695 (派樹抽詞法)
其他關鍵詞	2000個 (機率式潛藏語意模型主題亂度)
事件數	共59個事件(Event)，286個記事(Story)

藉由專家對語料庫的事件辨別，評比分群與過濾的方法，結果發現階層式聚合分群演算法在文件雜訊較多時，效果並不理想；但使用機率式潛藏語意分析或機率模型，對雜訊的抗拒力較高。當文件數量較少、資訊較明確，階層式聚合分群法的結果將會顯著提升，而機率式潛藏語意分析會因為訓練資料較少，進步幅度受到限制，但機率模型的結果仍然不差。

機率式潛藏語意分析家上時間資訊打亂了詞與文件的關係，所以效果比純粹機率式潛藏語意模型還差；事件偵測結果的好壞與係數初始值設定息息相關，利用機率模型系數的初始職可以得到較佳的結果。

參考資料：語音文件之事件偵測與時間分析─以廣播新聞為例

Tags: 邊學邊寫, Text Mining

FUNcLogs

About Me

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

新聞事件偵測與時間分析之研究

讀者回應 ( 1 意見 )
訂閱張貼留言 (Atom)

張貼留言