FUNcLogs: 文件自動分段之研究 (含心得)

如果在龐大的語料庫中搜尋「資訊系統」，我們希望得到的是「包含了相互關聯的一組蒐集、處理、儲存以及散佈資訊之單元，以支援組織內的決策與控制」的答案，而不希望出來的是Laudon的MIS一整本書的內容。前述的資訊檢索技術只能提供使用者需要資訊的所在文件，但更進一步我們需要得到的是在文件中哪一個段落，甚至把使用者想要的文句摘錄出來，因此便需要文件自動分段的技術。

▲Laudon的(周宣光譯)《管理資訊系統─管理數位化公司》一書中對於資訊系統的定義

另一個必須分段的原因在如果一大篇文章講述許多主題，在詞頻統計中的權重就會因為主題分散而被降低，使得排名落後；分段後主題應更為凝聚，比較能與查詢條件匹配，提高了recall與precision。以下介紹常見的自動分段方法：

依文件架構分段(Discourse Passages)
依照文章原有的段、節分割成不同部分。好處是有效率，因為作者已經利用段落切割想表達的概念。缺點是實際上這樣的段落未必正確，因為段落間的概念連貫與文體十分相關。例如將某個概念貫串全文，或是在最後一段總結前面所提到的三個概念，都會影響結果的精確性。因此此法在文件具有高度結構性時表現較好，如百科全書的資訊檢索中。以維基百科為例，在第一段中一定是該名詞的定義，因此在Google搜尋「資訊系統的定義」可以得到網路上資訊系統的定義的明確文字敘述。

依文章語意分段(Semantics Passages)
老實說了解這個方法這是我專程來圖書館的重要原因之一，我們一起看下去：「依照文章的語意或主題，加以分析之後，將文章分為概念不同的段落。如[6]中的TextTiling。在原文作者的論文中稱為motivated Segmentation，意思是這種分段方式是有依據可循的。」它的原理是從文件中用詞的相關(lexical connectivity)性判斷，將文件分為不同部分，每個部份內的相關性都很高。

TextTailing 將文件每3-5句組成一個區塊(block)，鄰近區塊間比較其相似性。求出區塊間的相似性後，可以依照文章流向和相似性大小畫圖，圖形高峰代表相似性的高峰，而兩個谷底視為段落分割的點。依文章語意分段最大挑戰在調整區塊的大小，區塊大小不同結果大相逕庭。區塊太大會造成夾雜許多概念在文件中的問題，而區塊過小會使區塊相互比較時相似性失去意義(因為可能完全沒有重複的內容，相似度都很低)。

以固定字數分段(Window Passages)
顧名思義，如產生一個長度為200字的文字框，將第1-200個字為第一區塊，201-400為第二個區塊…這樣有個明顯的缺點，相同概念被切成不同段落的機率更高。但是我們必須考慮，在不同的查詢條件下，所需的分段方式可能不同，因此《Passage-Level Evidence in Document Retrival》的作者James P. Callan 在1992年提出了一個方法，從搜尋到的第一個符合查詢條件的字開始，設視窗大小為n，每n/2個字分出一個長度為n的段落。

例如第一個符合查詢條件的字位於第108個字處，而視窗大小是200，則文件會被分為第108~308字、208(108+200/2)~408個字，區塊透過互相重疊降低文字被分至不同段落的機會。經過實驗，在不同種類的文件下，最好的查詢結果視窗大小是不一樣的，因此對一般文件很難找到最佳的區塊大小；在英文裡，區塊通常介於200-400字。

心得
利用隱藏語意索引進行文件分段檢索之硏究的作者研究結果以「依文件架構分段」所產生的分段效果最為滿意，但我個人認為，依文義分段應該是因為詞頻統計的限制，造成效果無發發揮。我們知道，一般詞頻統計採用TF-IDF，但TF-IDF僅針對詞彙出現次數與分布進行關鍵詞的計算，而忽略了重要的文法結構，例如「回指」。「回指」是指語言中提到某事物之後，要再論及該事物時，使用上文參照來表達該事物。例如：「Berry 對 Ray 好，卻不要求他回報。」

其中「卻不要求他回報」就是使用回指的句型，還原後應為「Berry 卻不要求 Ray 回報」。其中使用了兩個回指，一個指向 Berry，一個指向Ray。指向 Berry 的回指因為在文句中完全省略了，所以稱為零形回指(zero anaphora)；指向 Ray 的回指使用代詞「他」替代，屬於代詞回指(pronominal anaphora)。在中文中除了上述兩種回指，尚有名詞回指(nominal anaphora)(陳平，1987)。

使用TF-IDF處理的詞彙進行相似度計算時，會因為重要概念的「回指」造成計算的障礙。因為描述相同概念的文句，很可能只有在第一個逗號前講到關鍵概念，而後補充說明的幾句都使用回指簡化句型的重複，基本上我認為一個良好的寫作者會盡量避免文句的相似。因此TF-IDF可能是計算文件中關鍵字的好方法，但應該在小範圍的相似度顯得力不從心。

為了避免這樣的情形，達到文件正確分段，可以考慮從兩方面思考：使用「向心理論」進行回指解析(Anaphora Resolution)，將回指替換成真正的名詞後再重新進行文件相似度計算；第二個方法也是依據向心理論而來，透過向心理論找出文句中的主詞，當主詞改變時進行段。方法一顯而易見的只要透過回指替換的預處理就可以繼續使用TF-IDF進行相似度計算，而方法二仍然值得探討。考慮以下文句：

(ㄅ)螃蟹A有四對步足B，(ㄆ)B俗稱「腿兒」，(ㄇ)由於每條腿兒的關節C只能向下彎曲，(ㄈ)C不能向後彎曲，(ㄉ)A爬行時，(ㄊ)A必須先用一邊步足的指尖抓地，(ㄋ)A再由另一邊的步足直身起來，(ㄌ)A把身體推過去。

上述文句中用注音符號表示每一句，底線後加英文字母為出現下指中心(forward-looking center)的地方，而文句中的其他英文字母則為零形回指的上指中心(backward-looking center)，指向前面出現過的下指中心。這例子中可以發現文義連貫的句子中主詞會不斷的改變，如上例中的「螃蟹」、「步足」與「關節」，所以主詞改變不一定代表文義的切割，但也許可以建構「共同出現的鍊子」，找出意義的疆界。所謂共同出現的鍊子，在上例中就是：{螃蟹→步足→腿兒→關節}，只要在同一句中出現的中心就加入這條集合的鍊子，也就是如果接下來句子的中心出現在集合中，就可以把文句邊界擴大，一直擴大到超出集合為止。

最後一個可以採取的策略是結合「依文章語意分段」與「固定字數分段」。我的想法是如果文件中有句號，就依照句號切割，接下來使用類似n-gram的方法，將每兩到三個句子結合成區塊，最後再進行相似度的計算，藉由句子的重疊，找出相似度的高峰，也是一個可能改善文件分段的方法之一。

以上，顯現我知識不足的粗淺想法，希望能拋磚引玉，共同塑造人類美好生活。

主要參考資料：利用隱藏語意索引進行文件分段檢索之硏究黃卓倫撰

Tags: 向心理論, 邊學邊寫, Text Mining

FUNcLogs

About Me

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

文件自動分段之研究 (含心得)

讀者回應 ( 7 意見 )
訂閱張貼留言 (Atom)

張貼留言