該選擇什麼資料來訓練機器學習系統?- Machine Learning 教學系列 (二)

..

該怎麼選擇資料,來訓練機器學習系統?

上一篇帶您了解人工智能、機器學習、深度學習的差異後,這篇將進一步介紹該如何選擇正確且合適的資料來訓練機器學習系統。

特徵 / 屬性 (Features/Attributes)

我們透過特徵(又稱屬性) 來訓練機器學習系統。以水果為例,我們可以將水果的特徵分成重量和顏色,兩個特徵就意味著有兩個維度。如果我們用數字的方式來呈現,則可已被繪製在 2D 的象限上。

以下圖這個情況來說,ML 系統可以學會利用一條線將蘋果與橘子的資料分開。當我們輸入新的資料時,就可以運用它來做分類。(ex.) 在線上方的是橘子,下方的是蘋果。

選擇不同的特徵來訓練將對 ML 系統產生很大的影響,因為有些特徵並不足以用來劃分資料。沿用橘子跟蘋果的舉例,如果我們選擇」熟成時間」和」種子數量」作為特徵,結果將呈現為下圖,這無法讓 ML 系統分辨任何的水果。這需要透過大量的練習和思考才能選擇出最適合的特徵,因為 ML 系統要學習的事情並不像分辨橘子蘋果這樣單純。

更複雜的資料與系統

以水果的例子來說,我們僅使用了 2 個維度,如果您需要用 3 個維度將資料區分成 3D 圖表,則如下圖所示,會需要用一個平面分開兩組數據。其實大多數的 ML 問題所需的維數更高,甚至到 20D 都非常常見,像是在辨別圖像時,每個像素是一個特徵,這樣的情況下甚至可以到達數百萬個維度。雖然我們可能很難想像大於 3D 的畫面,但這對電腦和 ML 系統而言並非難事。


image from Vision Dummy (https://goo.gl/u8w2Zi)

Data Hunting

一旦確定使用的特徵之後,最大的挑戰就是必須找到足夠的無偏差的訓練資料,ML 系統會根據這些特徵進行學習 (這取決於使用什麼類型的 ML 演算法(algorithm))。假如要正確的辨識出一隻貓,您可能需要提供 ML 系統 10,000 張貓的照片。提供給系統的訓練資料可以很多元並不侷限於照片,也可以是具備多種特徵的數據表格、文字、感測器的讀數、聲音等等。

ML 系統無法辨別它不知道的東西

假設你讓 ML 系統進行下列動物特徵的學習:

腿數 顏色 體重 動物
4 黑色 10KG
2 橘色 5KG

如果您現在用牛的特徵來偵測,系統只知道狗和雞,它將認為這是一隻」狗」,因為這是最接近的比對結果。

腿數 顏色 體重
4 黑色 200KG

延伸閱讀:

The 7 Steps of Machine Learning


iKala - GCP 專門家

GCP 專門家,Google Cloud 官方認證的首席合作夥伴。自家影音產品架構在 GCP 上,使用經驗超過 3 年,具備從 IDC 搬遷至 AWS 最後落腳於 GCP 的經驗,是最能協助您避掉所有技術地雷的 GCP 夥伴,更擁有業界最多支援 Google Cloud 的技術人員。

我們提供了多項的 GCP 加值服務:

了解更多: https://gcp.expert/
加入我們: https://goo.gl/rg9D3Q
Facebook Fan Page: https://www.facebook.com/gcp.expert/
聯絡我們:+886 2 87681110 或請來信 gcp@ikala.tv


想在手機閱讀更多教學錦囊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems