FUNcLogs: 10月 2010

好，我承認標題下得有點好笑，而且也很意外寫這種實作的文章(我早就往理論派轉型了)。總之照著這篇文章的步驟，你可以使用java 將一串正體(繁體)中文的字串依照詞彙切開，以方便進行中文文字探勘(Text Mining)等計算詞頻的工作。

▲mmseg4j中文斷詞結果，可以看到它把「處理」、「文章」等詞分割出來

首先呢，為了簡化開發，程式都在Eclipse 上開發，以下用簡單兩句話說明Eclipse 如何安裝：

到Java網站，下載並安裝JRE (請選擇合適的作業系統)
到Eclipse官網，下載Eclipse Classic 版本，將之解壓縮之後，執行資料夾中的Eclipse.exe ，就可以用它來寫Java 程式了

簡單介紹MMSeg 與mmseg4j
mmseg4j 是採用蔡志浩先生在2000 年發表的一個中文分詞演算法 ─ MMSeg，它使用兩套演算法與四個模糊解析規則，據稱能達到98.41% 中文斷詞準確率(理論請參考MMSeg官網)。這樣的準確率已經近似於大陸中科院的ICTCLAS，973計畫專家組評測第一名的98.5%，此外mmseg4j在斷詞速度表現良好，高達1900kb/s(Simple版本)，根據5樓網友實測表示比庖丁(Paoding)還快。

此外可喜可賀的是，mmseg4j詞庫採用utf-8編碼(不像ICTCLAS使用GB)而且可以自訂，因此只要替換詞庫就可以用來將優美的正體中文進行斷詞，以下來稍微介紹一下詞庫。mmseg4j 預設使用sogou 詞庫(去除無意義詞)，並合併rmmseg (Ruby中文斷詞套件)的詞庫，共14多萬詞。詞庫放在jar裡面，若使用WinRAR等軟體，將下載解開的mmseg4j裡面的mmseg4j-all-X.X.X-with-dic.jar 再解開，裡面的data 資料夾就是詞庫檔預設的位置。

chars.dic：單一字和對應的頻率，提供complex模式使用。
units.dic：單位詞，如：分、秒、年。主要是在數位後面的單位資訊切分好，不與words.dic中的詞有混淆。
words.dic：核心的詞庫檔，一行一詞，不需要其它任何資料，採utf-8編碼。

若要自訂辭典，檔案名必需是 “words” 為首碼和“.dic”為副檔名，例如wordsXXX.dic。然後我們可以把這個些自訂的詞庫集中在某個資料夾，並在程式中設定讀取這些詞庫檔(稍後會示範)，也可以把這樣的純文字文件用WinRAR壓縮回mmseg4j-all-X.X.X-with-dic.jar 的data 資料夾中。

官網(簡體)下載mmseg4j：mmseg4j (請選擇最新的zip檔案，名稱會如「mmseg4j-1.8.3.zip」)

下載mmseg4j 正體(繁體)中文詞庫
以下詞庫是筆者透過程式工具將原本的詞庫轉為正體字，以方便台港使用者研究學習，歡迎下載分享，但請註明來源:)

units.dic、words.dic 正體版
mmseg4j-all-1.8.2-with-dic.jar 正體版，我把辭典包在這裡面，所以不介意也可以直接用這個jar(之後我demo的程式也是使用這個jar)

來吧！我們來斷詞
當然不免俗的啟動Eclipse之後，我們必須先建立一個專案。檔案 > 新增 > Java專案

▲名稱取作SegChinese

▲下一步到Java 設定的地方，選擇新增外部JAR，然後瀏覽到剛剛下載來的mmseg4j-all-X.X.X-with-dic.jar，新增後按下完成。接著展開左邊專案目錄，在src上按右鍵，選擇新增類別，取個類別名稱，在這裡我還是取為「SegChinese」。

55行java 程式「碼上會」
我們要import這些東西，如下：

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;

import com.chenlb.mmseg4j.ComplexSeg;
import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MMSeg;
import com.chenlb.mmseg4j.Seg;
import com.chenlb.mmseg4j.Word;

值得注意的是import com.chenlb.mmseg4j.ComplexSeg代表使用Complex 版本的斷詞(包含四個模糊規則)；若要使用簡單版本，請換成import com.chenlb.mmseg4j.SimpleSeg;。

接下來，我們在class裡面宣告一個字典型態的變數dic(儲存詞庫)，並建立建構子與設定一些程式資訊，如下：

protected Dictionary dic;
	
public SegChinese() {
	System.setProperty("mmseg.dic.path", "./src/SegChinese/data");	//這裡可以指定自訂詞庫
	dic = Dictionary.getInstance();
}

protected Seg getSeg() {
	return new ComplexSeg(dic);
}

Seg方法可以指定要使用的分詞器，在這邊使用Complex(複雜版的)，並將字典及放入分詞器中。這裡一定要提一下，自訂的字典可以藉由 System.setProperty("mmseg.dic.path", "路徑"); 來指定，其中路徑若是相對路徑的話，是相對於專案資料夾的目錄，在上面的例子中，我故意將字典資料夾放在專案資料夾中的src/SegChinese裡的data資料夾中，我們可以在data資料夾中放入多個字典檔，就可以使用多個字典。

再來我們要建構程式的斷詞核心部分，如下：

public String segWords(String txt, String wordSpilt) throws IOException {
	Reader input = new StringReader(txt);
	StringBuilder sb = new StringBuilder();
	Seg seg = getSeg();
	MMSeg mmSeg = new MMSeg(input, seg);
	Word word = null;
	boolean first = true;
	while((word=mmSeg.next())!=null) {
		if(!first) {
			sb.append(wordSpilt);
		}
		String w = word.getString();
		sb.append(w);
		first = false;		
	}
	return sb.toString();
}

這裡我們傳入一個字串與一個希望用來作為分隔的符號，接著使用MMSeg進行分詞，每個詞可以用.next()取得，最後把它變為字串回傳。

最後我們建立一個run 方法，用來傳入測試段詞的文字。以及main 方法以測試程式執行，如下：

protected void run(String[] args) throws IOException {
	String txt = "這行文字是要被中文斷詞處理的文章，可以從執行結果看斷詞是否成功 莊圓大師";
	
	if(args.length > 0) {
		txt = args[0];
	}
	
	System.out.println(segWords(txt, " | "));
}

public static void main(String[] args) throws IOException {		
	new SegChinese().run(args);
}

在run中我傳入直線(|)作為分隔符號，以上短短55行就完成了中文斷詞，輸出結果頁首所示。我把這份java 檔附在文末，也歡迎下載測試。

附件下載：SegChinese.java

結語

在這裡我要感謝前輩Deduce的提點，讓我能花相對少的摸索找到這套工具。當然這只是一篇讓讀者很快了解如何使用mmseg4j的小品文，所以只精簡的介紹了最基本以及常用的功能。我在java/text mining上的確是晚輩，所以若有撰寫不當也請各界多多包含與指教。

繼續閱讀全文　碼上會！ mmseg4j 中文斷詞java 實作 (55行)

看完這篇文章，你會對機器學習最入門的概念─「感知學習演算法」有基本的認知。因為筆者數學並不好，為了寫這篇，我花了大約30小時，看了10多個版本的教學(n次)，在成大數學的高手歐民同學的指導下，站在好懂的角度撰寫，希望不會令你感到失望 :)

感知器是幹麻用的？
用來產生判斷結果！會經由多個輸入的數據，透過運算產生一個非黑即白的結果，用途相當廣泛。例如透過收入、負債的數據，協助銀行判斷顧客是否可以核辦信用卡(可發/不可發)、或是可以找出潛在消費者(潛在/非潛在)、判斷股票未來的走勢(漲/跌)等等。

感知器的靈感是來自生物的神經元(下圖)，神經元從樹狀突接收不同來源的訊號，其中有些來源的刺激具正向效果、有些來源則是抑制效果，經過加總計算後，如果結果達到該神經的門檻值，則會將訊號從軸索末端傳出；或沒達到門檻，則不傳出訊號(在此為了講解方便，將訊號簡化為有與無，實際上神經元有很多種，也有些會依照加總輸出不同強度的訊號，但不在今日討論範圍內)。

▲神經元(Neurons)，主要構造有樹狀突(Dendrites)、細胞體(Cell Body)與軸索(Axon)，圖片來自UCODE資優密碼

如何透過輸入進行分類？
在我們了解感知器的基本功能後，現在要進一步探討，輸入的數據與分類結果的關係。假設我們腦中有一顆功能是判斷一個男人可不可以嫁的神經元，它只有兩根樹狀突，一根偵測這男人專情程度、另一根偵測他的上進心。接著你得到了50個老婆覺得婚姻幸不幸福的資料，其中紅色的老婆覺得婚姻幸福美滿，藍色的則是有家庭問題或離婚的，如下所示：

▲描述這些女人他們老公的資訊，專情程度用「心上人數」來代表，心上人越多則越不專情；上進心用「上進時數」表示，時數越高越上進

從圖片中直觀的可以發現，心上人數越少且上進時數越多的老公，越能帶給家庭幸福(不過如果沒有這個統計結果，我們很難證明有這樣的關係存在)。接下來也就是感知器最神奇的地方，今天的重點。感知器從心上人數、上進時數等資訊，經過一些變數的調整(調整影響力的強弱)，產生可不可以嫁的答案。這些答案是透過資料訓練出來的，所以沒有經過資料訓練的感知器不會有分類功能，在這裡必須給他先讀過這份「老婆幸福報告書」，才能從結果中歸納出衡量的準則(「心上人數」要少且「上進時數」高才是可以嫁的男人)。

因此我們的目標是，透過這些這份報告書的訓練的資料，建立一個公式，讓未來只要知道某男人的「心上人數」與「上進時數」等資訊，就能馬上判斷這男人可不可以嫁：

(心上人數 * w1) + (上進時數 * w2) = 一個數字
若這數字大於某個值，就表示可以嫁

如何找到這個公式？
接下來問題會變得有點數學，因為我們必須使用數學的方式找到合適的影響力(w1與w2)，使公式產生合理的結果。我們再看看手邊有什麼資訊：

50個男配偶的心上人數、上進時數資料(整堆用x表示)。x裡面包含了x1~x50等50筆配偶資料，且每筆配偶資料又包含「心上人數」、「上進時數」兩個數值，因此可以把x1~x50都當作50個不同的向量→(心上人數, 上進時數)
我們還必須假設一組數據，代表心上人數、上進時數分別的影響力，這個影響力會與每個男配偶資料相乘(作向量內積)，幫男配偶打一個分數。在這裡我們用w代表這組數據，其中包含w1的心上人數與w2的上進時數。例如w = (-16, 12)，則第20號男人x20有1.2個心上人與7小時的上進，經過相乘後分數為64.8 = 1.2 * (–16)+ 7 * 12，這樣的乘法就是所謂的向量內積。
男配偶的老婆幸福與否(只有幸福/不幸福兩種選項)，這個函數我們取名為sign()。輸入的的是某個男人的分數(例如64.8)，輸出的是-1(代表不幸福)或+1(代表幸福)。

好，大概就這樣，不過一開始，我們不會知道w這組影響力的值，必須要透過既有的幸福/不幸福資料，去調整w的內容，所以接下來進入到最核心的部分。起初，我們將w的值設定為(1,1)，並假設sign()分數大於60則為「可以嫁」，如此開始檢查這樣的w是否可以把第一個男人正確歸類。我們將w與x1作向量內積並帶入sign()中，假設得到+1(可以嫁)，我們再將這樣的結果與統計結果對應，看看一號男人是否真的可以嫁；假設結果也是可以的，於是我們用這組影響力去檢查2號男人。

如果發現2號男人sign()的答案是可以嫁，但實際上(統計中)二號男人不可以嫁，我們就要進行修正(讓2號男變得不可以嫁)。修正的方法如下：

新的w = 舊的w + 2號男人實際上可不可以嫁 * 2號男人的向量

其中，

2號男人實際上可不可以嫁：統計的結果，可嫁為+1，不能嫁為-1，2號男人在這裡的值為-1
2號男人的向量：(2號男人的心上人數, 2號男人的上進時數)

如此因為新的w加上得負的2號男人向量，可以使2號男人的分數變低，接著就這樣依序檢查3~50號男人。如果存在一條可以分隔可嫁/不可嫁男人的線，Novikoff(1962)證明用這樣的演算法可以在有限次數的反覆計算後得到答案。

結語
感知器其實是類神經網路的基礎，透過感知器可以使電腦在已知的資料中找到規則，並套用到未知的相關資料，以達到預測的效果。雖然在這裡只介紹結果非黑即白的基本感知器模型，不過它已經可以用來解決許多大型的應用問題。但值得注意的是，不是所有的問題都適合用機器學習來解決，例如許多已知可以套用公式的科學領域。

▲歐民大大畫了一大堆圖讓我了解sign()與實際結果的關係，以及分界線到底長什麼樣子

老實說這篇文章真的要感謝歐民大大的相助，因為光憑我一個人的能力我想我很難了解這些資料的內容。當然如果有不正確之處也歡迎各界指教，我寫的目的是在弄懂之後能幫助其他像我曾經一樣的人，不是要造成他們的誤解。

繼續閱讀全文　感知學習演算法(Perceptron Learning Algorithm)白話說明

FUNcLogs

About Me

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

碼上會！ mmseg4j 中文斷詞java 實作 (55行)

感知學習演算法(Perceptron Learning Algorithm)白話說明