FUNcLogs: 中譯：使用語彙鏈建立文件摘要(Text Summarzation Using Lexical Chains)

找到這篇是因為看了一篇寫得非常非常好的國內論文《混合式自動文件摘要方法》(這真的寫得非常好，學習Text Mining 非常推薦以之為基礎)，想要多了解文法剖析法(Linguistic Approach)，因為文中指出Brunn所作的《Text Summarization Using Lexical Chains》提出的系統架構與我的想法相近。但後來發現命題相近的《Using lexical chains for text summarization》可能才是所謂的key paper(引用598次)，不過都翻譯了，就丟上來啦。我依照原文的章節形式分段，並用標楷體標註非作者提及的內容，文末心得處亦為我讀後的見解，為了避免讀者混淆，特別在此註明。

原文：M. Brunn, Y. Chali and C. J. Pinchak, “Text Summarization Using Lexical Chains”, Proceedings of the Document Understanding Conference, pp.135-140, 2001

摘要
文件摘要(Text summarization)解決兩個問題：選擇文件中最重要的部份以及產生清楚易懂的摘要。在本文中我們呈現2001年萊斯布里奇大學(University of Lethbridge)文件理解研討會(DUC)的一個能高效率使用詞彙鏈的摘要器(summarizer)。

一、介紹
文件摘要器選擇文件中最重要的部分與產生易懂的摘要，在本文中我們描述2001年於萊斯布里奇大學的文件理解研討會發表，基於辨認局部文件重點中最重要部分方法的摘要器。在選擇文件部分時，這個辨認也會顧及連結(connectiveness)的程度，以降低摘要中包含連結不足的句子(poorly linked sentences)。這個目標可以藉由有效的使用詞彙鏈達成。

完整的系統架構可以參考(圖1)，它包含幾個模組所組織而成的管線(pipeline)。本文的組織如下：下一段專注於介紹每個系統模組。最後我們以快速地在DUC評估分析系統的效能、概略的描述未來展望做結。

▲圖一：系統概觀

二、預處理(Preprocessing)
(一) 文件切割(Segmentation)
為了進行摘要處理，必須將原始的文件送往文件切割器(Text Segmenter)。文件切割器的角色是分割輸入的文件，使每個分割有相同的主題(Topic)。為了完成文件切割的需求，我們選擇2000年Choi 所提出的文件切割器。這個文件切割器在一個文件中產生多個區段，某些區段在內容上比其他的區段緊密。在本系統中文件切割可以獲得多重的子來源(sub-source)文件，每個文件包含討論相同主題的句子。文件切割允許接下來的模組產生更好的分析與摘要。

(二) 貼標籤(Tagging)
在分析器(Parser)中，標籤是不可或缺的，因為它包含了根據區段中語句(part of speech)所代表的意義而產生的文字分類(Classifying Words)。這個過程中文字(words)被單獨考慮，沒有考慮或指派任何標籤給語意結構(semantic structure)。在本系統中使用的標籤是1996年Ratnaparkhi 所提出的，我們選擇的原因是這個方法能夠相當精確地指派標籤。標籤器(Tagger)經由Penn TreebankWall Street Journal 語料庫的0到18段(sections) 進行預先的訓練(pre-trained)，沒有證據指出標籤器需要用明顯不同的語料庫重新訓練。

本系統也包含Ratnaparkhi’s MXPOST 標籤器套件中的工具，用以偵測句子的界線。它發表在Reynar 與 Ratnaparkhi 於1997年的文章中，是一個切斷文件使得每個句子成為獨立的一行的工具。標籤器也仰賴在Penn Treebank 大會中被標記化句子，透過由賓州大學(University of Pennsylvania)開發的sed script 工具可以轉換純文字文件成為適當標記化的版本，使文章片段成為標籤器可以接受的格式。

(三) 剖析(Parsing)
剖析是本系統最重要且耗時的模組，剖析模組集合與組織標籤後的文字，建立句法結構(syntactic structure)。我們在本系統中使用Collins 於1997年提出的剖析器(parser)。一個剖析後的文件可以在句子中依照句法的部分(syntactic position)選擇不同的元件(components)或詞組(phrases) 。舉個例子，我們可以在給定的文件中選擇所有的名詞片語(noun phrases)。尋找名詞片語對剖析過的文件可能是個瑣碎的工作，但事實上，本系統的下個階段仰賴在句子中選擇部分句法的能力。

有必要在這裡標明本文的剖析器與標籤器在輸入/輸出上並非完全的相容。剖析器接收的標籤文句必須要在開頭記錄標籤的數量，例如這句有三個標籤，就必須要在句首寫"3"，因此必須另外撰寫一個小工具計算每行中的標籤數量作為剖析器的輸入。此外，剖析器也需要接收以"word TAG"格式的文字標籤，故須將標籤器輸出中的底線(underscore)移除。

三、名詞過濾(Noun Filtering)
名詞過濾元件是一個優化器，不是文件摘要系統中必要的元件。名詞過濾從剖析過的文件中選擇性的移除名詞，提升文件摘要的精確度。以下章節描述的詞彙鏈結器(lexical chainer)輸入的是一組名詞；名詞是由標籤器從原始文件中識別產生的，但是這些名詞可能同時增強且減弱文件的主題。

比如模擬資料的傳輸包含訊號(signal)與雜訊(noise)，在訊號強且雜訊低的時候傳輸狀況是理想的；但當訊號被雜訊壓過時，傳輸變得難以辨認。與文件中的名詞一樣，形成主題的名詞像訊號，而其他就像雜訊。名詞過濾器的工作是減少「雜訊」，並盡可能地保留「訊號」。

有很多不同過濾「雜訊」名詞的探索方法，我們的概念是主要子句中名詞對主題的偵測比從屬子句中的名詞更有效。但主要子句與從屬子句的探索實為不易，所以在我們系統中，採用的是相對簡單的探索法。由於剖析器建立句子的句法結構，我們可以從原始文件中選擇不同型態的片語。我們辨識第一個名詞片語(noun phrase)以及每句中第一個次句(sub-sentence)，即主要子句、從屬子句中的其他片語裡，與第一個動詞片語有關名詞片語。使用探測產生的摘要可以在DUC評量章節中找到。此外，可以開發更複雜的的探測法以尋找辨識一句中主要子句或從屬子句的其他片語，並有其確定實驗成效的必要。

四、詞彙鏈(Lexical Chainer)
銜接(cohesion)的觀念在1976年被Halliday 與Hason 提出，是一個將不同文件部分「黏在一起(sticking together)」使文件完整的方法。一般透過文法性銜接(grammatical cohesion)如參照(reference)、代換(substitution)、省略(ellipsis)、連接詞(conjunction)；與詞彙性銜接(lexical cohesion)如語義相關詞(semantically related words)來達成。詞彙性銜接在兩個詞間與一系列相關的字之間都存在，稱之為詞彙鏈(Morris and Hirst, 1991)。詞彙鏈的演算法步驟介紹如下：

選擇一組候選字(candidate words)。候選字是從名詞過濾器而來(參見第三節)，具有名詞片語或符合規則的名字功能的無限語類(open class)的字。無限語類指的是文法書中列舉不完的語類，舉例來說，代名詞、語尾助詞可以在文法書中用表格輕易的完全呈現，但是名詞、動詞卻不行，只有辭典才能囊括語言中所有的名詞、動詞，所以名詞、動詞屬於無法列完的無限語類。
一組候選字可以透過分類辭典展開成相關字(senses)。本實驗中，我們使用WordNet 分類辭典(Miller et al., 1990)。本階段需要考慮所有的相關字，每個字的相關字由區別的集合表示，並建構其階層。第一層的集合是同義字(synonyms)與反義字(antonyms)，第二層是上位詞(hypernyms)與下位詞(hyponyms)與他們的變化型，如meronyms與holonyms…等等。「大冠鳩」的上位詞是「鳥」；「植物」的下位詞有「薰衣草」、「榕樹」…等。
我們找到根據相關詞集合產生的語意關聯(semantic relatedness)。語意關聯存在兩個相關詞之間，當比較兩個區別字的相關詞時，會發現存在匹配(matching)的現象，兩組字中有交點存在。每個語義關係決定在匹配的路徑長度，該長度與兩個比較集合的階層有關。這句意思應該是語意關係決定在兩個文字概念的距離，距離可以透過將文字概念展開而成的相關字sense之間的距離得出。因為sense是有層次的，所以如果A延伸出來的第2層sense與B延伸出來的第3層sense交疊，則A與B兩個概念的距離就是5，應該啦。
我們建立詞彙鏈如下：

當_i≠_j時，word_i-sense_ix與word_j-sense_jy有語義相關
我們透過以下的偏好準則(preference criterion)，保有最長的詞彙鏈：

在我們的實作中，偏好藉由對詞彙鏈中對每個成對的語義關聯指派分數來處理，然後進行分數的加總。因此語彙鏈的分數是基於語彙鏈的長度與成員間關係的型態。成員間關係的型態應該指的是同義詞、反義詞、變化型…等。

在語彙鏈方法中，兩個字在語彙鏈中的關係是兩兩相互的，即是每個相關字(word-sense)都必須其他每個語彙鏈中相關字有語義上的關係。在文件中無限語類字的順序與建立語彙鏈無關。但儘管如此，無限語類的字產生極大量的語彙鏈，因此產生文件更大區段的問題。面對此問題，當遇到長文件的切割時，我們只保留相關字的描述中的同義字；這樣的刪減還能使得效果比基於ISA-2/INCLUDE-2 來的好。此外，也可以從太多單獨區段的狀態下窄化詞彙鏈集的詞幹(stemming)。至於什麼是"ISA-2/INCLUDE-2"我也不知道…如果讀者知道的話請告訴我吧:)

語彙鏈法藉由一組呈現消歧義(disambiguation)相關字的候選集合，整合相關字消歧義的過程。消歧義指的是消除由於不同一詞多義所引起的混淆，例如「大學」既是教育機構又是一本古書，故必須要進行消歧義了。在演算法步驟5的偏好準則中，只保留成員是相關詞的語彙鏈，這些相關詞成為銜接文件的指標。

語彙鏈計算了每個文件區段，作為下一階段的文句萃取器的輸入。

五、文句萃取器(Sentence Extractor)
文句萃取器模組有兩個步驟：區段選擇與文句萃取。

(一)區段選擇(Segment election)
本階段的目標是從文件中選擇與主題相關的文章區段。文章區段選擇的演算法基於區段的評分，如下所示：

score(chainMember_i, seg_j)是chainMember_i在seg_j出現的數量，m是他們的數字，s_i是chainMember_i中區段的數量。

系統選出分數前n高的區段進行文句的萃取。

(二)文句萃取(Sentence extraction)
每句被以詞彙性銜接的總分排名，排名程序的目標是評定每個分數的重要性、為每句結合所有分數成為排名。為了達成這樣的作業，我們根據Hoey 在1991年的實作，為詞彙性銜接定義句子必要連結的最小的數字作為門檻。我們加總超過門檻的句子之詞彙性銜接分數作為句子的排名。根據我們的實證調查，在我們實驗中門檻值為2最為恰當。

每句以與其他句子共享語彙鏈的數量總和為排名。更精確地說，sentence_i的分數是決定在sentence_i與區段選擇階段時sentence_i所包含的語彙鏈的字的數量。

這樣的摘要包含句子的排名清單，因此可以依照需求的壓縮比例調整原始文章的呈現。

六、DUC評量
我們參與單篇文件的DUC評量，評量的工作包含從給定的文件中建立一個近100字長度的摘要。系統輸入30組，每組約10份的文件。根據我們的分析，結果前景看似光明。在語法性的部分，我們產生的摘要獲得3.73分(滿分4分)；同樣的，銜接(cohesion)與組織(organization)分別得到2.55、2.66分(滿分4 分)。我們摘要器評量的重要資訊彙整如下(表1)：

▲表一：評量結果

我們找到排名高分的句子幾乎每次都是都是最重要的。此外，由於句子的萃取包含參考措辭(referring expressions)，對我們的系統來說仍是個問題。

七、結論與未來展望
在本文中，我們實作一個高效率詞彙性銜接法的摘要引擎系統。排名的程序使用文件「相關(aboutness)」的方法，在符合使用者需求的摘要比率的文章中選擇最重要、最佳連結的句子。未來，我們計畫進行以下問題的研究：

我們的方法將完整的句子視為單元萃取，使用壓縮技巧(compression techniques)可以提高摘要的縮減並增加品質(Barzilay, McKweon, and Elhadad, 1999; Mani, Gates, and Bloedorn, 1999; Jing and McKeown, 2000; Knight and Marcu, 2000)。
我們摘要的方法只使用語彙鏈代表原始文件，在產生摘要時也可以考慮採用其他聚合(gathered)文字的方法。
在名詞過濾的程序中，我們的假說是去除從屬子句的名詞。我們也許可以進一步證明，根據子句出現處的種類計算權重值的有效性。

心得
我想讀到這你也累了，所以應該沒什麼腦力再看我的心得吧，然後說真的我也累了…我一直覺得這篇只是把很多方法兜起來，看不到真正想看的東西…例如語彙鏈的內容，不過本文提出了很好的模組架構。因為是兜起來的，內容有點過於精簡，也不適合入門讀者，而我最關心的主題切割也沒有加以說明，只指出了一篇論文標題，所以整體而言是失望的。

理性面而言，作者使用名詞過濾將他認為重要句子中的名詞片語挑出，建立語彙鏈，再透過語彙鏈定義分數，萃取出分數大於門檻的句子，所以我認為語彙鏈在本研究充其量只是一個「計算分數的方法」，但卻使用了大量的文法剖析、拆解句子、抽取名詞、語彙關聯…我不知道是否有其必要。此外，我認為語彙鏈的分隔度不會太大，且語彙鏈的設計與結果好壞息息相關，語彙鏈不只複雜，而且資訊含量驚人，設計成本相當可觀。至於為什麼說分隔度不會太大，是因為我想語彙鏈(Lexical Chain)其實就是本體論(Ontology)吧！由於有大量的連結，也是一種網路的構造，故可以套用六度分隔理論，在六度分隔理論的假設下，根據我先前做的實驗(關鍵字六度分隔)，最長的連結也頂多需要走九步，但這九步可能需要尋覽完所有的詞彙。

閱讀本文的時候，我參考了《中國話的文法》與《上位詞語下位詞的篇章功能》，這兩篇都不是以電腦科學的角度出發，純粹探討語言學的，我覺得他們都寫得很好，也在其中獲得了許多重要的知識。我想中文摘要就詞性而言，比英文難上許多，在《利用向量支撐機辨識中文基底名詞組的初步研究》(這篇論文的"卡司"非常強大，作者來自台大資工/外文與政大資科)提到，中文的動詞可以修飾名詞，會造成複合名詞的誤判，例如「建設公司」與「流浪教師」等。所以是否有更直覺抓重點的方法，就像人不需要知道名詞動詞，只需要靠一種fu，一看就知道哪句是重點，抓起螢光筆馬上作個記號這麼容易呢？

Tags: 邊學邊寫, Text Mining

FUNcLogs

About Me

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

中譯：使用語彙鏈建立文件摘要(Text Summarzation Using Lexical Chains)

讀者回應 ( 6 意見 )
訂閱張貼留言 (Atom)

張貼留言