主題事件的分類(TDT, Topic Detection and Tracking),五大追蹤方向
- 文件切割(Story Segmentation):將依則包含許多新聞的文件切割成許多單獨新聞的文章
- 主題追蹤(Topic Tracking):找出新進文件是否與之前主題相關
- 主題偵測(Topic Detection):將探討鄉圖主題的文件分類
- 第一則新聞偵測(First Story Detection):判斷新進文件是否屬於新的主題或是尚未討論過的主題
- 連結偵測(Link Detection):隨意取出兩則文件,判斷此兩則文件是否屬於同一主題
大型語料的主題分析最受矚目的是「自組性語意對應圖(Self-Organizing Semantic Map)」,許多研究使用此方法;另外「機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)」所發展的語意對應圖(Probmap)屬於強大且較新的研究。
文件分類大概有三種主要的方法
- 階層式聚合分類演算法(Hierarcy Agglomerative Clustering Algorithm):最基本
- K-means
- 變色龍演算法(Chameleon Algorithms):較新穎
主題(Topic)、事件(Event)與記事(Story)
- 記事代表一段可以提供使用者某種資訊的文字,例如一則新聞
- 事件是某件特定的事,有特定的發生時間與地點,由一個或多個描述相通事情的記事所組成
- 主題是由相關的事件合併而成
除了TF-DIF之外,還有海寧格距離(Hellinger Distance)也可以衡量文件的相關程度。事件偵測有兩個特徵,專有名詞與時間資訊,專有名詞通常分為:人名、地名與組織名,通常專有名詞在文件中比一般詞重要,因此在TF-IDF中,通常會將專有名詞作加權總合。所以會將人名、地名與組織名分開計算,再依照權重與一般詞的關聯加總,產生總體的關聯度。最簡單的方法是若兩篇文獻都有相同的專有名詞,相關程度為1,反之為0。
機率式潛藏語意分析(Probability Latent Semantic Analysis)
自傳統潛藏式語意分析理論而來。傳統潛藏式語意分析使用Singular Value Decomposition的方式,對document-word matrix進行簡化。機率式潛藏語意分析以隨機狀態起始,並以最大期望值來做區域最佳化。因此每次不同隨機狀態起始的結果不同,故可結合多個潛藏語意分析模型做出不同變化的語意分析。
在語料庫訓練下,可以估計主題z產生文件d的機率:P(d|z),結合各個不同主題上的機率後,便可以得到文件d在所有主題上的機率分布。透過貝氏定理可以計算出給定文件d產生主題z的機率。
P(z|d) = (P(d|z)*P(z))/P(d)~P(d|z)*P(z)
利用機率模型進行事件偵測與時間分析
一個記事(Story)可以用四種資訊表達:When、Who(人與組織名)、Where與What(其他關鍵詞),但是事件(Event)包含兩個時間資訊(記事開始與記事結束)。其他關鍵詞是用機率式潛藏語意模型的主題亂度(Term Entropy)所找到除了類專有名詞外的關鍵詞。假設這四種資訊相互獨立:
P(story) = P(persons)P(location)P(keywords)P(time)
記事的生成模型由四個模型所混合─三類名詞單元與時間戳記,上圖中E代表事件、D代表記事,P、L、K分別表示人、地、其他關鍵字,N是名詞;T是時間。所以每篇記事都有四個向量,一份文件的同個向量可以成為一個list(例如人名表)。接著可以藉由計算每個list在事件中發生的機率,取得記事在事件中發生的機率。
重要事件的過濾
判定新聞室否重要需要許多新聞相關的背景知識,例如顯著性(Prominence)、奇異性(Conflict)與鄰境性(Proximity)等。顯著性代表新聞內容的影響力,探討新聞內容影響哪些層面;奇異性代表這則新聞是否報導若干特意少見的事情;鄰境性代表這則新聞所發生的所在地與接收者是否在地理上相近。這些知識大都以人類知識為基礎,加上主觀的判斷而成,故以統計分析難度較高。
因此使用四個過濾器進行事件重要性過濾:
過濾器 | 內容 | 效率 |
類專有名詞與關鍵詞法 | 若一事件不包含類專有名詞(人名、地名與組織名)與其他關鍵詞,此事件可能不是描述重要記事的文件,可以刪掉一小部分。 | 只刪掉6篇,錯誤率0 |
TF-IDF | 若TF-IDF低於某門檻值,此事件可能不是描述重要記事的文件。 | 錯誤率約1/3 |
文件在機率式潛藏語意模型之主題亂度法 | 假設只有兩篇記事文件(記事1與記事2)、三個主題(主題A、主題B與主題C)。記事1在三個主題的涵蓋度都很平均;記事2在主題B的機率很高,另外兩個主題很低,代表記事2與主題B明顯相關。因為記事1分布平均,可推測記事1不是描述重要事件的文件。 亂度越低,代表機率分布越不平均。所以可以設定一個門檻,若主題亂度高過這個門檻,則必須將記事刪除。 | 錯誤率約2/9 |
文件相關度法 | 通常重要事件會有許多記事文件報導,通常使用cosin來測量事件的相關度,相關度越高代表越重要。 | 錯誤率約1/8 |
所以其實篩選器誤刪正確文章的機率都蠻高的,不可能疊在一起使用。找出正確事件應該有兩種作法:
- 先用較好的篩選器篩選(留下有意義的事件記事),再使用階層式+時間將記事分群找出事件
- 直接使用機率式模型(PROB)對所有的記事進行分群
新聞實驗的語料庫
基本資料(人工專家產生):
來源 | 大陸中央社廣播新聞 |
範圍 | 2002/7/1~2002/10/1(CBN2002) 共982篇,平均140.2字 |
類專有名詞 | 人名517、地名437、組織名695 (派樹抽詞法) |
其他關鍵詞 | 2000個 (機率式潛藏語意模型主題亂度) |
事件數 | 共59個事件(Event),286個記事(Story) |
藉由專家對語料庫的事件辨別,評比分群與過濾的方法,結果發現階層式聚合分群演算法在文件雜訊較多時,效果並不理想;但使用機率式潛藏語意分析或機率模型,對雜訊的抗拒力較高。當文件數量較少、資訊較明確,階層式聚合分群法的結果將會顯著提升,而機率式潛藏語意分析會因為訓練資料較少,進步幅度受到限制,但機率模型的結果仍然不差。
機率式潛藏語意分析家上時間資訊打亂了詞與文件的關係,所以效果比純粹機率式潛藏語意模型還差;事件偵測結果的好壞與係數初始值設定息息相關,利用機率模型系數的初始職可以得到較佳的結果。
讀者回應 ( 1 意見 )
訂閱張貼留言 (Atom)
想做這個主題偵測,但不知從何開始?可否指點一二。
張貼留言
如果沒有帳戶,建議使用「名稱/網址」留言喔^^