About Me

我的相片
台北市, Taiwan
我是方選,
方白科技(finebind tech.)共同創辦人,
臺大資管所畢,
希望能幫助更多的人!

FB: http://fb.com/function1122
LINE: http://bit.ly/1foeZft (手機開啟點擊網址自動加入)

最新15則讀者回應

最新文章

FUNction's 上課筆記

Label Cloud

Blog Archive

FeedBurner

追蹤者

感知學習演算法(Perceptron Learning Algorithm)白話說明

FUNction 於 2010年10月16日 下午6:44 發表

看完這篇文章,你會對機器學習最入門的概念─「感知學習演算法」有基本的認知。因為筆者數學並不好,為了寫這篇,我花了大約30小時,看了10多個版本的教學(n次),在成大數學的高手歐民同學的指導下,站在好懂的角度撰寫,希望不會令你感到失望 :)

感知器是幹麻用的?
用來產生判斷結果!會經由多個輸入的數據,透過運算產生一個非黑即白的結果,用途相當廣泛。例如透過收入、負債的數據,協助銀行判斷顧客是否可以核辦信用卡(可發/不可發)、或是可以找出潛在消費者(潛在/非潛在)、判斷股票未來的走勢(漲/跌)等等。

感知器的靈感是來自生物的神經元(下圖),神經元從樹狀突接收不同來源的訊號,其中有些來源的刺激具正向效果、有些來源則是抑制效果,經過加總計算後,如果結果達到該神經的門檻值,則會將訊號從軸索末端傳出;或沒達到門檻,則不傳出訊號(在此為了講解方便,將訊號簡化為有與無,實際上神經元有很多種,也有些會依照加總輸出不同強度的訊號,但不在今日討論範圍內)。


▲神經元(Neurons),主要構造有樹狀突(Dendrites)、細胞體(Cell Body)與軸索(Axon),圖片來自UCODE資優密碼

如何透過輸入進行分類?
在我們了解感知器的基本功能後,現在要進一步探討,輸入的數據與分類結果的關係。假設我們腦中有一顆功能是判斷一個男人可不可以嫁的神經元,它只有兩根樹狀突,一根偵測這男人專情程度、另一根偵測他的上進心。接著你得到了50個老婆覺得婚姻幸不幸福的資料,其中紅色的老婆覺得婚姻幸福美滿,藍色的則是有家庭問題或離婚的,如下所示:

 image
▲描述這些女人他們老公的資訊,專情程度用「心上人數」來代表,心上人越多則越不專情;上進心用「上進時數」表示,時數越高越上進

從圖片中直觀的可以發現,心上人數越少且上進時數越多的老公,越能帶給家庭幸福(不過如果沒有這個統計結果,我們很難證明有這樣的關係存在)。接下來也就是感知器最神奇的地方,今天的重點。感知器從心上人數、上進時數等資訊,經過一些變數的調整(調整影響力的強弱),產生可不可以嫁的答案。這些答案是透過資料訓練出來的,所以沒有經過資料訓練的感知器不會有分類功能,在這裡必須給他先讀過這份「老婆幸福報告書」,才能從結果中歸納出衡量的準則(「心上人數」要少且「上進時數」高才是可以嫁的男人)。

因此我們的目標是,透過這些這份報告書的訓練的資料,建立一個公式,讓未來只要知道某男人的「心上人數」與「上進時數」等資訊,就能馬上判斷這男人可不可以嫁:

(心上人數 * w1) + (上進時數 * w2) = 一個數字
若這數字大於某個值,就表示可以嫁

如何找到這個公式?
接下來問題會變得有點數學,因為我們必須使用數學的方式找到合適的影響力(w1與w2),使公式產生合理的結果。我們再看看手邊有什麼資訊:

  • 50個男配偶的心上人數、上進時數資料(整堆用x表示)。x裡面包含了x1~x50等50筆配偶資料,且每筆配偶資料又包含「心上人數」、「上進時數」兩個數值,因此可以把x1~x50都當作50個不同的向量→(心上人數, 上進時數)
  • 我們還必須假設一組數據,代表心上人數、上進時數分別的影響力,這個影響力會與每個男配偶資料相乘(作向量內積),幫男配偶打一個分數。在這裡我們用w代表這組數據,其中包含w1的心上人數與w2的上進時數。例如w = (-16, 12),則第20號男人x20有1.2個心上人與7小時的上進,經過相乘後分數為64.8 = 1.2 * (–16)+ 7 * 12,這樣的乘法就是所謂的向量內積。
  • 男配偶的老婆幸福與否(只有幸福/不幸福兩種選項),這個函數我們取名為sign()。輸入的的是某個男人的分數(例如64.8),輸出的是-1(代表不幸福)或+1(代表幸福)。

好,大概就這樣,不過一開始,我們不會知道w這組影響力的值,必須要透過既有的幸福/不幸福資料,去調整w的內容,所以接下來進入到最核心的部分。起初,我們將w的值設定為(1,1),並假設sign()分數大於60則為「可以嫁」,如此開始檢查這樣的w是否可以把第一個男人正確歸類。我們將w與x1作向量內積並帶入sign()中,假設得到+1(可以嫁),我們再將這樣的結果與統計結果對應,看看一號男人是否真的可以嫁;假設結果也是可以的,於是我們用這組影響力去檢查2號男人。

如果發現2號男人sign()的答案是可以嫁,但實際上(統計中)二號男人不可以嫁,我們就要進行修正(讓2號男變得不可以嫁)。修正的方法如下:

新的w = 舊的w + 2號男人實際上可不可以嫁 * 2號男人的向量

其中,

  • 2號男人實際上可不可以嫁:統計的結果,可嫁為+1,不能嫁為-1,2號男人在這裡的值為-1
  • 2號男人的向量:(2號男人的心上人數, 2號男人的上進時數)

如此因為新的w加上得負的2號男人向量,可以使2號男人的分數變低,接著就這樣依序檢查3~50號男人。如果存在一條可以分隔可嫁/不可嫁男人的線,Novikoff(1962)證明用這樣的演算法可以在有限次數的反覆計算後得到答案。

結語
感知器其實是類神經網路的基礎,透過感知器可以使電腦在已知的資料中找到規則,並套用到未知的相關資料,以達到預測的效果。雖然在這裡只介紹結果非黑即白的基本感知器模型,不過它已經可以用來解決許多大型的應用問題。但值得注意的是,不是所有的問題都適合用機器學習來解決,例如許多已知可以套用公式的科學領域。

DSC01755
▲歐民大大畫了一大堆圖讓我了解sign()與實際結果的關係,以及分界線到底長什麼樣子

老實說這篇文章真的要感謝歐民大大的相助,因為光憑我一個人的能力我想我很難了解這些資料的內容。當然如果有不正確之處也歡迎各界指教,我寫的目的是在弄懂之後能幫助其他像我曾經一樣的人,不是要造成他們的誤解。

Tags: ,

讀者回應 ( 11 意見 )

謝謝,寫得很清楚易懂喔^^

水喔!
猛男!

終於找到一篇人類可以看懂的教學了,非常感謝你!

真的是太棒了~~

真的是人看的~太感動了!

写的很棒哦,简洁易懂,赞~

真的很厲害!

感謝寫成白話文,找了很多網路上的教學都是文言文

w = (-16, 12),男人x1有1.2個心上人與7小時的上進,經過相乘後分數為64.8 = 1.2 * (–16)+ 7 * 12,而且這個男人實際可嫁。
第二號男人(2,8)不可嫁, 2* -16 + 8 *12 = -32 + 96 = 64, 那麼
新的w = 舊的w + 2號男人實際上可不可以嫁 * 2號男人的向量
W1 = -16 -2 = -18
w2 = 12 -8 = 4
把新的W 套回第1個男人, 1.2 * -18 + 7*4 = -21.6 + 28 = 6.4 < 60 , 這樣不對呀, 男1號套上新的W的結果應該不變才對.
這裡也沒提到這60要怎麼處理

是不是我哪裡理解錯了, 請賜教

謝謝!!!!終於搞懂了好感動QQ

張貼留言

如果沒有帳戶,建議使用「名稱/網址」留言喔^^