Jason 在之前寫過的一篇:【人工智慧】入門介紹-什麼是人工智慧 What's AI ? 一文中,已經簡單介紹過人工智慧(Artificial Intelligence, AI)、機器學習(Machine Learning, ML)、深度學習(Deep Learning, DL)彼此之間的愛恨情仇,以及整個人工智慧發展的簡史,這邊就不再贅述了!如果還沒看過的話,建議先看過那篇再來讀這篇,而今天這篇則會著重介紹,到底什麼是機器學習以及機器到底該如何學習。 所以,到底什麼是機器學習?
首先,我們回顧一下之前在【人工智慧】入門介紹-什麼是人工智慧 What's AI? 一文中所提到的:
人工智慧是我們始終不變的大方向,而機器學習只不過是眾多可以用來實現人工智慧的方法之一。
在文中也有舉一個簡單的例子,稍微展示了傳統 Hard Coding 與基於學習方法之間的差異。
不過也可能因為 Jason 舉的那個例子太過於簡單,反而導出另一個小小讓人困惑的點,那就是... 我用一般程式設計的方法不就能解決問題了,那為什麼還需要機器學習?
的確在前文中,Jason 所舉的那個以年紀判斷一個人是不是老人的 case 中,我們是可以很明確的定義出一個門檻值(threshold) 來做判斷沒錯,或者是一個在二維空間的分類問題,我們人也可以很迅速的找出那一個決策函數 decision function ( 或者維度再高一點,我們會稱作決策邊界 decision boundary ) 用來分類。
BUT!奈何人生就是有這個BUT
如果今天資料的維度再高一點(超過三維),那麼人們就已經很難去想像資料分佈到底長成什麼樣子,更別說想靠人的 "直覺" 來找出 decision boundary,而如今我們靠機器學習在處理資料的維度,基本上沒個幾十也有個幾百,甚至成千上萬!或者說,在一個新興領域我們根本還沒有一些過往的 "經驗" 可以用來判斷、預估說接下來事情會怎麼發生。在當你沒有辦法給工程師們一個 "規則" 讓他寫到程式裡面,但是手頭上卻有相關大量資料、紀錄的時候,工程師們只好自己想辦法從這堆資料裡面找出那個規則。 可能像是早期 email 剛問世的時候,的確在工作上帶來許多便利性,但是卻也衍伸出以前從沒有過的一個問題:垃圾郵件 ( SPAM )。垃圾郵件不僅會造成使用者的困擾,更有可能會造成資安上的漏洞,使得裝置中病毒、蠕蟲或者木馬,讓駭客有機可趁進而盜取寶貴的個資或者公司的商業機密。於是我們就希望能夠建構一套系統將垃圾郵件擋在門外,但要建構這樣一套系統我們就會需要給系統一個 "規則" 讓其可以判斷什麼是垃圾郵件,此時我們就可以利用手邊那些大量的 email 資料加上機器學習方法來找出那個 " 規則 "。 所以可以發現 " 在一堆資料裡面找規則 " 其實是一件蠻有趣、挺實用、也很熱門的事,於是在統計、數學、資工等相關科系就有一堆大神們投入相關的研究,而他們也研究出很多不同的方法來達成這件事,像是基於統計的數學方法或者資工人在講的知識挖掘(Knowledge Discover in Database, KDD)、圖形識別(Pattern Recognition, PR)、資料挖掘(Data Mining, DM),以及今天要介紹的機器學習。 聽起來還是有點玄乎,所以機器是如何學習的?
就像前一段所提及的,已經有許多不同領域的大神投入相關的研究幾十年了,所以也開發出許許多多不同的機器學習演算法,不過基於它們不同的理論基礎我們可以將其分成四個大類:
圖左就是監督式學習用的訓練資料,除了資料本身 ( .png 圖檔 ) 之外還包含了一個 Ground Truth 的標籤,在訓練模型的過程中就可以透過這個標籤不斷的來修正模型的學習結果,概念就有點像學生時代在考完試後會發正確解答下來讓你改考卷,然後你就可以從錯誤中學習,下次同一題就比較不會考錯了。
而圖右的資料集中只有包含身高、體重等特徵資料,並沒有包含性別我們想預測 "性別" 這一項的標籤,於是我們只好使用一些非監督式學習的聚類方法 ( e.g. K-means、DBSCAN ) ,讓每筆資料可以自己物以類聚的聚出一群。 想了解更多的話,可以參考 Jason 之前寫過的這兩篇: 除了監督式學習與非監督式學習,另外還有一個介於有跟沒有之間的:
最後,有別於上述的三種學習方式,還有一種方法稱作:
Ok,那寫到這邊已經把什麼是機器學習以及機器該如何學習都簡單介紹過一遍了! 如果在看完本篇之後,對於「人工智慧」、「機器學習」、「深度學習」的東西感興趣,並想自己動手寫些程式來玩玩的話,可以再繼續閱讀 Jason 寫的這兩篇: 感謝收看,如果你碰巧也是一名 Liker 的話,歡迎幫我拍手,鼓勵我持續寫作 :")
0 評論
發表回覆。 |
Jason Chen人不光是生來就擁有一切,而是靠他從學習中得到的一切來造就自己。- 歌德 文章分類
全部
封存檔
九月 2023
|