翻譯 | 廖穎 龍珂宇 Noddleslee J叔 整理 | 凡江
機器學習: 引言
聽過人們談論過機器學習,但對它的概念卻是一知半解?
想要從零開始機器學習,卻被網絡上的海量資源沖昏頭腦?
不用擔心,我們給你們提供了機器學習從0到1系列,這個系列可以讓你從入門到精通。
現在就開始學習吧!
· · ·
這份指南是為了那些對機器學習感興趣,但不知如何開始的朋友們準備的。我想大多厭倦在網上搜索大量資料的人都會有挫敗感,也放棄了有人能指引他們如何入門的希望。
這個系列的目標,就是教會你們從初學者的角度,正確學習機器學習。
· · ·
為什麼說數學是必須的?
機器學習建立在一些數學的基礎課程上的,比如微積分,線性代數,概率論,統計學和最優化。這篇文章旨在幫助你們學習一些基本概念,並提供一個可在 Jupiter Notebook 上使用 python 程序設計語言的可操作方法。
第1步 : 線性代數
線性代數是在計算機里設計優化算法的一種方式 ——可以解決線性系統約束問題。
線性代數中你需要了解的概念:
#1 矩陣的秩;
#2 矩陣向量積;
#3 矩陣的列空間和零空間;
#4 特徵值和特徵向量;
#5 矩陣的奇異值分解;
這是一個了解線性代數概念的速查表:
來源:https://minireference.com/static/tutorials/linear_algebra_in_4_pages.pdf
第2步 :概率論和數理統計
這一數學分支是用來解決隨機分佈量問題的。
概率論與數理統計中你需要了解的概念:
概率論:
#1 計數方法和組合方法;
#2 貝葉斯理論;
#3 隨機變量;
#4 期望;
#5 方差;
#6 條件分佈和聯合分佈;
#7 矩量母函數;
#8 指數型分佈族;
數理統計:
#1 最大似然估計;
#2 最大后驗概率;
#3 先驗概率和后驗概率;
#4 抽查法;
#5 吉布斯現象;
#6 平均數,眾數,中位數,方差;
這是一個了解概率論和數理統計概念的速查表 :
來源: http://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf
第3步 :多元微積分
經典微積分研究變量和變化率之間的關係。但在機器學習中,我們主要使用微分運算來求解函數的極值,使用積分運算來求解概率模型。
多元微積分中你需要掌握的概念
#1 向量值函數
#2 偏導函數
#3 梯度
#4 方向梯度
#5 黑塞算子
#6 雅各比算子
#7 拉普拉斯算子(低量算子)
#8 拉格朗日乘子
來源: http://tutorial.math.lamar.edu/getfile.aspx?file=B,41,N
第4步:信息論入門
信息論是應用數學的一個分支,它關注如何「度量「信息。
信息論中你需要掌握的概念:
#1 熵
#2 互信息
#3 信息增益
#4 KL散度(相對熵)
來源:http://tuvalu.santafe.edu/~simon/cheat_sheet_info.pdf
第5步:NLP(自然語言處理)
自然語言出來指的是利用軟件自動地處理注入講話和文本的技術。
做為對文本數據感興趣的機器學習實踐者,我們關心自然語言領域的工具和方法。
廣義上,利用計算機處理的任何自然語言,均視為自然語言處理,或縮寫為NLP。一個極端的理解比如說,可以簡單地通過統計詞頻來比較不同作者的寫作風格。另一個極端理解是,NLP應該包括理解完整的人類話語,至少某種程度給予有意義的回應。
— 第9頁,利用python進行自然語言處理,2009。
自然語言處理(NLP)指人類語言的一系列自動處理過程的集合名詞。它既包含處理人類輸出的文本,也包含輸出人類可以看的文本。
— 第18頁,利用神經網絡進行自然語言處理, 2017。
語言學的目標是可以將我們周圍所能大量觀察到的對話、文章文本和其他媒介特徵化並對其進行解釋。這裡既包括研究人類認知,產生和理解語言的能力,也包含理解語言表達方式和客觀世界的關係,還包含理解不同語言的語言結構。
— 第3頁,統計自然語言處理,1999。
這些是必備的數學、統計自然語言處理知識。我的建議是如果你想深入探索機器學習,你至少需要掌握提到的一些概念。
· · ·
你過去可能想知道機器學習到底用到了哪些數學知識,這篇文章算是給你介紹了機器學習(AI)的起步階段所需的一些數學概念。下章我會討論如何把數學概念落實到用Python編程中去,為此,也會對Python這門編程語言及其生態系統作介紹,敬請期待吧!
· · ·
更多文章,關注雷鋒網 雷鋒網雷鋒網
添加雷鋒字幕組微信號(leiphonefansub)為好友
備註「我要加入」,To be an AI Volunteer !