想了解人工智能?看這一篇就夠了

.. 編者按:人工智能現在火得不行。但是對一般人來說,大家也就是看看熱鬧而已。什麼是人工智能?人工智能是怎麼發展的?又有哪些類型?其機制是怎樣的?為什麼到現在才取得突破?這些東西恐怕是不少人不知道的。所幸英國的VC David Kelnar寫了一篇通俗易懂的AI介紹性文章,把過去60年人工智能所取得的進展給解釋清楚了,值得一看。

過去10年我們一直在做一件事,那就是打造移動優先的世界。而在接下來的10年時間裡,我們將轉到一個AI優先的世界。——Google CEO Sundar Pichai,2016年10月

從Amazon和Facebook,到Google和微軟,全球大部分最有影響力的技術公司都在表現出自己對人工智能(AI)的狂熱。但什麼是人工智能?為什麼人工智能重要?為什麼是現在?儘管對AI的興趣與日俱增,但目前能理解該領域的主要還只是專業人士而已。這篇初級讀物的目標是讓更廣大的受眾能夠理解這一重要領域。

我們會先從解釋「AI」的含義以及包括「機器學習」在內的關鍵術語開始。我們將舉例說明AI最有生產力的領域之一,所謂的「深度學習」是如何工作的。我們還會探討AI解決的問題,以及為什麼這些問題的解決那麼重要。然後我們還將弄清楚一個問題:為什麼早在1950年代就已經誕生的AI,直到今天才崛起。

作為VC,我們要尋找能為消費者和公司創造價值的新興趨勢。我們相信,AI是計算的一次演進,其重要性不亞於甚至甚於向移動和雲計算的轉移。Amazon CEO 貝索斯說:「AI在未來20年對社會產生的影響之大怎麼評估都不為過。」我們希望這一指南可以穿越炒作,解釋清楚為什麼這一新興趨勢對我們所有人——無論你是消費者還是高管或者創業者、投資者都很重要。

什麼是AI?

1、人工智能:智能程序的科學

「人工智能(AI)」這個詞是達特茅斯大學助理教授John McCarthy在1956年發明的一個詞,這個一般性術語是指展現出看似具有智能的行為的硬件或者軟件。用McCarthy教授的話來說,它是「製造智能機器、尤其是智能計算機程序的科學和工程。」

基礎「AI」出現已經有幾十年的時間了,一開始為基於規則的程序,可在特定上下文環境下提供初步的 「智能」顯示。但是所取得的進展較為有限——因為處理許多現實世界問題的算法對於靠人工編程來處理來說太過複雜。

複雜的活動包括做出醫療診斷、預測機器什麼時候失效,或者評估特定資產的市值等,這些都牽涉到成千上萬的數據集,以及變量之間非線性的關係。在這些情況下,是很難利用我們手頭的數據來取得最好效果的——也就是「優化」我們的預測。在其他一些情況下,包括識別圖像中的對象以及翻譯語言等,我們甚至都無法制定規則來描述我們要尋找的特徵。我們如何能編寫出一套規則,在所有情況下都能描述一條狗的樣子呢?

如果我們能夠把做出複雜預測——也就是數據優化特徵描述的難題從程序員轉移給程序會怎樣呢?這個就是現代人工智能帶來的希望。

2、機器學習:卸下優化的負擔

圖1:人工智能的演進

機器學習(ML)是AI的子集。所有的機器學習都是AI,但並非所有的AI都是機器學習(見上圖)。今天對「AI」的興趣反映的是對機器學習的狂熱,因為這方面取得的進展較為迅速和重大。

機器學習讓我們可以處理對於人來說太過複雜的問題,其手段是把其中一些負擔交給了算法。正如AI先驅Arthur Samuel在1959年所述,機器學習是「讓計算機有能力在不需要明確編程的情況下自己學習的研究領域。」

大多數機器學習的目標都是針對特定用例開發一個預測引擎。一個算法會接收有關某個領域的信息(比如某人過去看過的電影),然後給出輸入的權重來做出有用的預測(此人將來喜歡另一部不同電影的可能性)。所謂的賦予「計算機學習的能力」,意思是指把優化(對現有數據的變量賦予權重以做出對未來的精確預測)的任務交給了算法。有時候我們還可以更進一步,把指定首先要考慮的特徵這項任務也交給程序。

機器學習算法是通過訓練來學習的。算法一開始會接收輸出已知的例子,然後留意其預測與正確輸出之間的不同,再對輸入的權重進行調整,從而改進預測的精確度,直到完成優化。這樣一來,機器學習算法的定義性特徵就是通過經驗來改善預測的質量。我們提供的數據越多(往往要到達一定的點),我們能創建的預測引擎就越好(下面的圖2、3。注意所需的數據集規模是高度上下文相關的——以下的例子無法一般化)。

圖2

圖3

機器學習有超過15種方案,每一種都採用不同的算法結構來優化基於所接收數據的預測。其中一種方法叫做「深度學習」,這種方法在新領域取得了突破性的結果,我們會在下面進一步探討。但是除此以外還有很多種方法,儘管這些方案受到的關注略低,但仍然很有價值,因為它們適用於很廣範圍的使用案例。除了深度徐誒以外,其他一些最有效的機器學習算法包括:

  • 隨機森林」,可創建眾多決策樹來優化預測;

  • 貝葉斯網絡」,可利用概率法來分析變量和變量之間的關係;

  • 支持向量機」,提供分類的實例給它,它就能創建模型,然後分配新的輸入給其中一個類別。

每一種方法都有各自的優勢和劣勢,而且結合使用也是可以的(「集成」法)。選定用於解決特定問題的算法要取決於包括現有數據集性質在內的因素。實際上,開發者往往會進行試驗來看看哪種有效。

機器學習的用例視我們的需求和想象不同而不同。有了合適的數據,我們就能針對無數目的開發算法,這包括:根據某人此前購買歷史推薦其可能喜歡的產品;預測某機械人或者汽車裝配線什麼時候會失效;預測電子郵件是否寄錯;估計信用卡交易屬於欺詐的可能性,等等。

3、深度學習:卸載特徵定義的麻煩

即便有了一般機器學習——比如隨機森林、貝葉斯網絡、支持向量機等,編寫能很好地執行特定任務,比如語音識別號圖像識別等的程序仍然很困難。為什麼?因為我們不能用實用、可靠的方式來指定需優化的特徵。比方說,如果我們想寫一個程序來識別汽車圖片,我們不能為算法處理指定汽車的特徵,能讓它在任何情況下都能正確識別。汽車的形狀、大小、顏色都各不一樣。位置、方位和造型也各異。還有背景、光線等大量的其他因素影響着該對象的樣子。寫一套規則涉及到的變化太多了(多到幾乎無法窮舉)。而且即便我們能寫出這樣的規則,那也不會是可擴充的解決方案。因為我們得為每一種我們希望識別的對象都編寫一套程序。

於是就引出了深度學習(DL),這個東西徹底改變了人工智能世界。深度學習是機器學習的子集——是後者超過15種方法的一種。所有的深度學習都是機器學習,但並非所有的機器學習都是深度學習(見下圖4)。

圖4

深度學習是有用的,因為它避免了程序員必須承擔特徵定義(定義特徵來對數據進行分析)或者優化(如何賦予數據權重以提供精確預測)的任務——這兩件事情都由算法包辦了。

這是如何實現的呢?深度學習的突破是對大腦而不是世界建模。我們的大腦學習做複雜的事情——包括理解原因和識別對象等,靠的不只是處理詳盡的規則,還包括練習和反饋。小時候我們體驗這個世界(比方說我們看汽車的圖片),做出預測(「汽車!」)然後收到反饋(「是的!」)。在沒有掌握詳盡規則集的情況下,我們通過訓練來學習。

深度學習採用相同的辦法。把近似於大腦神經元功能的,人工的、基於軟件的計算器連接到一起。它們組成了一個「神經網絡」,這個網絡接收輸入(比如前面我們提到的汽車照片);分析它;對它做出判斷然後再接收自己判斷是否正確的信息。如果輸出錯誤,算法就會對神經元之間的連接進行調整,而這將改變未來的預測。一開始神經網絡會發生很多的錯誤。但隨着我們提供了上百萬的例子,神經元之間的連接就會不斷得到調整,最終使得這個網絡幾乎在所有情況下都能得出正確決定。熟能生巧(幾乎)。

通過之一過程,隨着效率不斷增加,我們現在可以:

  • 識別圖片的元素;

  • 實時進行語言翻譯;

  • 用語音來控制設備(蘋果的Siri、Google Now、Amazon Alexa以及Microsoft Cortana);

  • 預測遺傳變異如何影響DNA轉錄;

  • 分析客戶評論的情緒;

  • 檢測醫療影像中的腫瘤等。

當然,深度學習並不是適合於每一個問題。它通常需要用龐大數據集來進行訓練。訓練和運行神經網絡還還需要龐大的計算能力。它還有一個「可解釋性」的問題——究竟神經網絡是如何形成預測是很難知道的。但通過解放程序員讓後者不需要進行複雜的特徵定義,深度學習為一系列重要問題提供了一個成功的預測引擎。因此,它成為了AI開發者工具包當中的一項強大的工具。

深度學習是如何工作的?

鑒於深度學習的重要性,了解一些深度學習的基本原理是很有價值的。深度學習牽涉到對人工的「神經網絡」——一組相互連接的「神經元(基於軟件的計算器)」的利用。

一個人工神經元有一到多個輸入。它會根據這些輸入執行數學運算然後產生輸出。輸出要取決於每一項輸入的「權重」,以及神經元中的「輸入—輸出函數」的配置(見下圖5)。輸入—輸出函數會各有不同。神經元可以是:

  • 線性單元(輸出與輸入總權重成正比關係);

  • 閾值單元(輸出設定為兩級中的一級,具體取決於總輸入是否超過特定值);

  • Sigmoid單元(輸出不斷變化,但不是隨輸入變化而線性改變)

當神經元相互連接到一起時,神經網絡就被創建出來了,而一個神經元的輸出就會變成另一個神經元的輸入(見下圖6)。

圖5、6

神經網絡被組織為若干層神經元(「深度」學習就是這麼出來的)。「輸入層」接收網絡要處理的信息——比方說,一組圖片。「輸出層」則提供結果。在輸入和輸出層之間的是「隱藏層」,大部分活動都在這裡發生。一般而言,神經網絡每一級的每一個神經元的輸出都會充當下一層每一個神經元的輸入(見下圖7)。

圖7

我們可以看看下面這個圖像識別算法的例子——假設我們要識別圖片中的人臉。當數據被提供給神經網絡時,第一層仙湖識別局部反差模式——也即是像輪廓這樣的「底層」特徵。隨着圖像橫穿網絡,「更高層」特徵逐步被解析出來——從輪廓到鼻子,然後從鼻子到臉部(見下圖8)。

圖8

在它的輸出層,根據訓練神經網絡會給出該圖片屬於特定類型的概率(人臉:97%;氣球2%;葉子1%)

通常,神經網絡的訓練是通過給它提供大量打上標籤的例子來進行的。錯誤可以被檢測到,而算法會調整神經元之間連接的權重來改善結果。在部署好系統並對未打標籤的圖像進行評估后,優化的過程還會重複進行很多次。

上面是一個簡單的神經網絡例子,但是它們的結構可以是各不相同的,而且大部分都會更加複雜。變化可以是同一層神經元之間的連接;每層神經元數量的不一樣;以及返回給上一級網絡的神經元輸出數(「遞歸」神經網絡)。

設計和改進神經網絡需要可觀的技能。步驟包括對針對特定應用的網絡架構設計,提供合適的數據訓練集,根據進展情況調整網絡結構,以及多種方法的結合等。

AI為什麼重要?

AI之所以重要是因為他解決了極其複雜的問題,而這些問題的解決方案可以應用到對人類福祉重要的領域——從健康、教育,到商業、交通,乃至於公用事業和娛樂等等。自1950年代以來,AI的研究主要集中在以下5個領域:

  • 推理:通過邏輯推理解決問題的能力

  • 知識:展示有關世界知識的能力(理解這個世界有特定的實體、事件以及情況;知道那些元素有屬性;並且那些元素可以分類)

  • 規劃:設置和實現目標的能力(這個世界有一個特定的未來狀態,這個狀態是令人滿意的,可以採取一系列動作來影響朝着這個狀態發展。)

  • 溝通:理解書面和口頭語言的能力。

  • 感知:通過可視化圖像、聲音等感覺輸入推斷事物的能力。

AI是有價值的,因為在許多上下文環境下,這些能力的進步是革命性而不是漸進性的能力。以下是AI的一些應用例子,但遠不止這些。

  • 推理:法律評估;金融資產管理;金融應用處理;遊戲;無人武器系統。

  • 知識:醫療診斷;藥物創新;媒體推薦;購買預測;金融市場交易;防欺詐。

  • 規劃:物流;調度;導航;物理和數字網絡優化;預測性維護;需求預測;存貨管理。

  • 溝通:語音控制;智能代理;虛擬助手和客戶支持;書寫與口頭語言的實時翻譯;實時抄寫。

  • 感知:無人車;醫療診斷;監控。

在不久的將來,機器學習能力將會被應用到幾乎所有的板塊各種各種的過程上面。可以考慮一個企業智能——比方說,公司內的人力資源活動可以舉例說明機器學習可應用於哪些過程:

  • 通過增強定向的、智能的工作匹配以及部分自動化評估來改善招聘效果;

  • 通過對人員要求以及短缺可能性的預測性規劃可以增強勞動力管理;

  • 隨着推薦給員工的內容越來越合適,勞動力學習可以變得更加高效;

  • 通過預測有價值員工有離職的風險,可降低員工流失率。

隨着時間的轉移,我們預期機器學習的採用會變得常態化。機器學習將成為開發者標準工具包的一部分,這一開始可改進現有流程,然後還會再造這些流程。

機器學習的二階效應還會超過其直接影響。比方說,深度學習已經改善了計算機視覺,以至於無人車(汽車和卡車)都已經變得可行。但它們的影響又是什麼呢?今天,英國90%的人和80%的貨物都是通過道路運輸的。光是無人車就會影響到:

  • 安全(90%的事故都是由於司機不注意導致)

  • 就業(服務英國運輸和物流業的就有220萬人,年工資估計達570億美元)

  • 保險(Autonomous Research預計英國汽車保費將降價63%)

  • 板塊經濟(消費者可能會用按需交通服務來替代汽車所有權)

  • 車輛吞吐量;城市規劃;監管等。

為什麼AI會在現在成熟?

AI研究始於1950年代,在經歷過幾次AI寒冬之後,為什麼會在現在出現拐點呢?最近幾年AI的效率出現轉變是因為有了新的算法、可用的數據量變得更大、用來訓練它們的硬件變得更好,以及催化開發者採用它們的雲計算服務。

1、算法改進

儘管深度學習不是新東西——第一個有效的多層神經網絡規範早在1965年就已經發佈——但過去10年深度學習算法的演進卻改變了結果。

我們識別圖像內對象的能力被卷積神經網絡(CNN)的發展改變了(見下圖9)。其設計受到了動物視皮質的啟發,神經網絡的每一層都充當了特定模式過濾器的角色。2015年,微軟基於CNN的計算機視覺系統識別圖像的有效性(95.1%)已經超過了人類(94.9%)。他們是這麼寫的:「據我們所知,我們的結果首次超過了人類的表現。」CNN更廣泛的應用包括視頻和語音識別。

與此同時,由於遞歸神經網絡(RNN)的創建,語音和手寫文字識別也得到了迅速發展(如下圖10)。RNN有反饋連接,使得數據可以循環流動而不是像卷積神經網絡那樣只「向前提供」。RNN有一種新型的網絡非常強大,它的名字叫做長短期記憶(LSTM)模型。有了額外連接以及記憶細胞之後,RNN可以 「記住」自己在數千個步驟前看過的數據,然後利用這個來提供對後面的解釋——這對於語音識別來說很有價值,因為對後面單詞的解釋需要以之前過的詞為依據。從2012年開始,Google就開始使用LSTM為Android的語音識別系統提供支持。剛剛在6周之前,微軟的工程師報告說他們系統的詞錯誤率已經低到5.9%——這是AI有史以來首次跟人類能力相當。

圖9

圖10

2、專門硬件

圖形處理器(GPU)是專門的電子電路,可以大幅減少訓練用於深度學習的神經網絡所需的時間。

現代GPU原來是在1990年代末研發出來的,其目的是加速3D遊戲和3D開發應用。3D環境的鏡頭擺動和縮放要重複利用一個叫做矩陣計算的數學過程。而包括當今計算機所用的CPU在內的串行結構微處理器,卻很不擅長做這個。GPU則採用了大規模的并行架構(Nvidia M40有3072核),可有效執行矩陣運算。

訓練神經網絡大規模利用了矩陣計算。對3D遊戲有用的GPU因此就很適合於加速深度學習。其效果相當可觀,一個簡單的GPU可提供神經網絡訓練時間5倍的改善,而對更大的問題取得10倍或更多的改善也是有可能的。再結合上針對廣泛使用的深度學習框架調優的軟件開發包時,訓練速度的改進甚至還要更大(下圖11)。

圖11

3、大規模數據

用於深度學習的神經網絡一般都需要大型數據集來進行訓練——這個規模可以從幾千個樣例到好幾百萬。幸運的是,數據的創建和可用性已呈指數增長之勢。今天,隨着我們進入「第三波」數據浪潮,人類每天可產生的2.2艾位元組(2300百萬GB)的數據;而全球90%的數據都是在過去24個月內產生的。

而「第一波」的數據製造潮始於1980年代,這牽涉到了文檔的創建以及交易性數據,這一波是由於連接互聯網的桌面PC催生的。隨後,無所不在、永不斷線的智能手機又製造出了「第二波」數據浪潮,導致了非結構化數據(電子郵件、照片、音樂和視頻)、web數據以及元數據的爆發。今天,我們正在進入數據的「第三紀」,工業和家庭部署的機器傳感器又創造了新的監控數據、分析數據以及元數據。

考慮到今天創建的大部分數據都是通過互聯網傳輸來使用的,日益膨脹的互聯網流量充當了海量增長的人類數據製造的代理作用。1992年,我們每天傳輸的數據量為100GB,但到2020年,我們每秒鐘傳輸的數據量就將達到61000GB(見下圖12,注意看縱坐標的刻度尺)。

圖12

除了日益增長的一般數據以外,專業數據資源也催化機器學習的進展。比方說,免費開放的人工標記圖像數據庫ImageNet的規模已經超過了1000萬張。它的出現為對象分類深度學習算法的快速發展提供了支持。

4、雲服務

開發者利用機器學習也受到了業界領先的雲提供商基於雲的機器學習基礎設施和服務的催化。

Google、Amazon、微軟和IBM都提供了基於雲的基礎設施(建模、迭代、可伸縮的「GPU即服務」及相關管理服務的環境),科研降低開發機器學習能力的成本和難度。

此外,他們還提供範圍不斷擴大的基於雲的機器學習服務(圖像識別、語言翻譯等),開發者可以直接在自己的應用中使用這些服務。Google Machine Learning提供的方便使用的服務包括:視覺(對象識別、顯式內容檢測、臉部識別和圖像情緒分析);語音(語音識別和語音轉文本);文本分析(實體識別、情緒分析、語言檢測和翻譯);員工求職搜索(機會顯現、基於資歷的匹配)。微軟的Cognitive Services包括了超過21種服務,涉及視覺、語音、語言、知識和搜索等領域。

5、興趣與創業

過去5年,公眾對AI的興趣增長了6倍(見下圖13),而VC機構對AI公司的投資數增長甚至還要大(見下圖14)。我們已經進入到了一個良性循環裡面,一方面機器學習的進展在吸引着投資,創業和意識。而後者反過來又會催化更進一步取得進展。

圖13

圖14

接下來會發生什麼?

機器學習的好處將是巨大和深遠的。從無人車到人機交互的新方式,許多的好處我們可以看得見。還有很多則沒那麼明顯,但卻會促進更多的更高效更有力的日常商業流程和消費者服務。

就像任何範式轉移一樣,有時候膨脹的期望(Gartner技術炒作曲線)會超過其短期的潛能。我們預計AI 會在未來經歷一段幻滅期,接下來,隨着機器學習被用於改進然後重塑現有系統,AI將迎來更長更持久的一段價值認識期。

在歷史上,產業革命通過動力和傳送的新來源變革了生產和溝通。1780年代的第一次工業革命用蒸汽動力實現了製造的機械化。1870年代的第二次工業革命則是用電力推動了大規模生產。1970年代的第三次工業革命利用電子和軟件實現了生產和通信的自動化。今天,隨着軟件蠶食世界,我們的主要價值創造來源是信息的處理。通過促進我們實現那麼多事情的智能化,機器學習所帶來的好處既看似微不足道又具有歷史意義。



想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems