機器學習是什麼、有何應用?和深度學習、強化學習的差異


機器學習 Machine Learning

機器學習 Machine Learning (簡稱ML)是AI人工智慧的一門科學,主要研究電腦如何透過運用大量數據資料或過往的經驗,以演算法訓練、學習、改進以達到最佳化的效能,做出更好的分類、判斷和分析。

隨著硬體計算能力越來越強,數據搜集越來越多,機器學習持續技術的進步以及在商業上的廣泛應用,我們的生活會持續被運用數據學習的電腦給深刻影響著。


機器學習會運用不同類型的學習方式,根據資料的性質和希望獲得的結果,主要分為四類方法:監督式學習、非監督式學習、強化學習和半監督式學習。

監督式學習 Supervised learning:

透過標籤定義訓練的data作為範例,提供給電腦有關類別的參數和答案,讓機器能夠找出最佳解,例如喂給機器大量貓的特徵標籤照片,讓電腦更懂得如何判斷一個照片中是不是貓。

非監督式學習 Unsupervised learning

非監督式學習則是訓練的資料是沒有定義標籤的,機器用集群(Clustering)分析自動在數據中找相似特徵的資料,將這些資料中最相近的歸類分群。例如金融業用來偵測類似的詐欺帳戶異常活動。

強化學習 Reinforcement learning

強化學習則是指機器基於未知環境採取某種行為來獲取最大的預期利益,強化學習同樣不需要標籤資料,也不用對非最優解精確糾正,未知環境的探索會根據我們的定義給予機器獎勵或懲罰的刺激,逐步讓機器形成預期,進而產生能獲取最大利益的行為。

例如被使用在自動駕駛訓練汽車從感測器收到的資料做相應行動,讓他知道什麼環境下做什麼能最快安全達到目的地。

除了監督式學習、非監督式學習外,還要混合兩種的方式叫做「半監督式學習」(Semi-supervised learning),將少部分標籤的訓練數據與大量未標籤的數據結合來進行識別,可以提高準確度。

Source: Starship Knowledge

 


深度學習 Deep Learning

深度學習 Deep Learning 是機器學習的分支,大多數的深度學習模型是基於多層神經網絡 Neural Network 模擬人腦的工作方式,演算法在數據中自行在每層挑選哪些特定的特徵是相關再進行分析,隨著數據量越大,深度學習能夠每次對其結果進行改進。

在從事機器學習時,一開始會從收集數據並清理整合的準備開始,接著將數據轉換成可以餵給模型的格式,並萃取出有意義的特徵,接著選擇適合你預期目標的模型後開始訓練。並用一些指標來評估模型並作參數的調整,接著Input更多的數據來測試模型,然後作出Output預測。

深度學習是機器學習的子集,機器學習是透過工程師在訓練數據的input與output給予一定程度的指導,讓機器從累積的訓練數據中學習後得出最佳解。深度學習則是以人腦的神經網絡思考為藍本,需要相對較少的持續人工干預幫助引導的狀況下,就能自行作出最優化的決策。

你的 Machine Learning Model 品質高嗎?ML機器學習建模 3 個常見錯誤

這種學習方式的命名來源是由於其使用了大量的「層」來組成神經網路,這些層稱為「深度」。每一層都能學習並提取不同的特徵,當層數越多時,模型就能學習到越複雜的模式,從而在眾多的領域,如語音識別、影像識別等,達到非常出色的效果。

神經網路(Neural Networks)的概念基於我們對人類大腦的理解。每個神經網路都由許多的神經元(Neurons)組成,每個神經元會接收一個輸入,進行一些計算,然後產生一個輸出。這些神經元被分為多個層級來組成神經網路,最基本的結構包含了輸入層、隱藏層和輸出層。其中,輸入層接收原始數據,輸出層產生最終的結果,而位於中間的隱藏層則負責進行大部分的計算。

當我們提到深度神經網路(Deep Neural Networks)時,指的是這種神經網路具有許多(通常超過2層)隱藏層的情況。這種結構允許模型學習並表示更複雜的模式和結構。這種深度結構的優點是能夠讓模型自我學習和理解數據的複雜特徵,而不需要我們事先定義或提取這些特徵,這就是深度學習在許多領域中取得優異成效的關鍵。


[optin-monster-inline slug=”nlwltgi3dphgrg101jjg”]


機器學習的應用

  1. 圖像識別:Image Recongnition是最常見的 ML 應用,你在Facebook、Google上的照片能透過算法自動識別你的好友作為標記。或是用在醫療上判斷病人X光片是否有病變跡象。
  2. 語音識別:Voice Recongnition可以識別語音將其轉換成文字,像是 Google Home、Siri這種語音助理服務,就是最常見的案例。
  3. 預測分析:透過機器學習能將獲取到的數據分類,例如預測借款者的違約風險,判斷有哪些特質的人會是高風險者,有越多數據就能越準確。
  4. 推薦系統:或是從收集到的數據判斷這名電商App的用戶現在想要買什麼東西,可以接受的價格是多少,推薦給這個客戶更符合他需求的產品。或是社群軟體更了解你的喜好與行為模式,推送給妳相關的廣告。或是交友軟體配對時,推給更適合你的菜。
  5. 機器翻譯 – 深度學習模型分析大量翻譯資料集,並學習翻譯不同語言。然後這些模型可以將新輸入句子翻譯成目標語言。

    深度學習在大量資料上非常擅長學習複雜的模式。這使它非常適合影像和語音處理等有大量訓練資料可用的任務。這些模型訓練的資料越多和越好,它們在任務上的表現也會越好。


機器學習熱門工具

  • PyTorch:PyTorch 是一個基於 Torch 的 Python 機器學習庫。是一個開源機器學習框架,有助於深度學習和 ML 模型開發。
  • TensorFlow:TensorFlow 提供了一個有助於機器學習的JavaScript 庫。API 將幫助您構建和訓練模型。
  • Microsoft Azure Machine Learning :是一個包含低代碼和無代碼選項的工具,供用戶開發、部署和管理其機器學習模型。
  • Amazon SageMaker : 這是一個完全託管的平台,可讓開發人員和數據科學家輕鬆利用機器學習模型。
  • Keras:Keras是一個用於構建和訓練深度學習模型的開源框架,它可以讓您將人工智能技術應用於應用程序中。Keras使您能夠輕鬆地構建和訓練深度學習模型,並與Python和其他開源框架集成。Keras提供了一種可以輕鬆構建、訓練和評估深度學習模型的API。Keras可以與TensorFlow、Microsoft Cognitive Toolkit和Theano等框架一起使用,以提供更廣泛的支持。
  • scikit-learn: scikit-learn是一個基於Python的開源機器學習庫,可以幫助您處理數據和構建模型。scikit-learn提供了一些有用的工具,包括資料分割、特徵選擇、模型評估和超參數調整,可以讓您輕鬆構建和訓練機器學習模型。scikit-learn支持多種機器學習算法,包括支持向量機、決策樹、K近鄰法和隨機森林等。‍

隨著人工智慧的領域持續在進化,也會有越來越複雜的AI應用背後使用著機器學習和深度學習來優化各個行業的方方面面,在未來不會有哪個行業是AI行業,而是每個行業都很可能會使用到機器學習和深度學習的技術。

從資料分析入門課開始建立數據思維,4 週養成數據洞察力與實戰問題解決力