
在關於 ChatGPT 的討論中,「數據飛輪」 被視為是經 ChatGPT 所驗證的變革引擎,是大模型智能飛躍中的關鍵一環:向用戶開放模型,建立用戶真實數據反饋與模型迭代間的飛輪,用戶反饋數據越多,模型的迭代速度也越快。
但很少有人知道,這一路線早在七年前,何曉冬與他當時所在的微軟雷德蒙德研究院深度學習技術中心的團隊同事就已經走過。
那是在 2016 年 3 月,納德拉(微軟CEO)帶着一個名為 CaptionBot 的 AI 應用產品亮相微軟 Build 大會,CaptionBot 跟全球用戶見面僅一星期,用戶量就突破百萬。
同樣是先有一篇論文,在技術上取得突破,再推出一個產品讓用戶參與使用,但過去的 CaptionBot 最終沒能成為今天的 ChatGPT。在接受 AI 科技評論的採訪時,何曉冬表達了自己的遺憾。
新機遇在七年後的大模型時代再次到來。
在過去五年的 CVPR 發表論文排序中,排名前二十的論文里,與多模態研究相關的工作僅一篇。這個工作由何曉冬帶領團隊完成,論文所提出的「Bottom-up and top-down attention」注意力機制,用於跨模態的語言和圖像信息在語義層次的對齊研究,單篇引用量已超過 4000 次。
Sam Altman 在談及 AGI 的前景中,提出了必須要共同進化,才能達到通用智能,實現通用智能的要素之一,正是語言大模型令人們為之着迷的「湧現」時刻。多模態的「湧現」暫未出現,何曉冬認為,在多模態大模型的技術探索路線中必須回答三個問題,首先就是決定在哪個層次做多模態信息的融合。
何曉冬給出的答案是,在語義層次的對齊、融合。
而在技術之外,ChatGPT 為人稱道的「極致工程化」,將產品在變革中所扮演的角色推向了一個新的高度。
正如七年前 CaptionBot 第一次邁進的「河」、以及 ChatGPT 第二次踏進「同一條河」,何曉冬相信多模態大模型也會按照同樣的方式,先取得突破性的技術革命、發佈一個粗糙但可用的產品、真正走入用戶。「產品和技術研究、技術創新不分家,不管多粗糙、首先第一步是先用起來。」
大模型會帶來AI技術的普惠,而不是加劇技術鴻溝。當大模型具備了信息壓縮、知識網絡構建、邏輯判斷與推理等良好能力之後,下一個台階的踏步高度就會降低。此時,產業受益之處就體現出來了,產業利潤低洼地的企業,以及供應鏈上地位低的中小企業都有機會用上「大模型」。如此一來,不僅不會加大數字和技術鴻溝,還會產生普惠價值。
何曉冬在西雅圖華盛頓湖
做多模態大模型要回答的三個問題
AI 科技評論:2020 年的 GAIR 大會上,您就談到多模態大模型的願景。今年 3 月 GPT-4 發佈,果然是多模態大模型。您能率先預見多模態的趨勢,是否有過往研究經歷的背書?
何曉冬:我是 2014 年最早開始做多模態 AI 的那批人之一。
多模態有它的歷史。在深度學習之前,多模態有過一些工作,但整體都比較粗糙。語言和視覺信號的處理方式不同,以前「生搬硬湊」放在一塊做出來的效果並不好,例如一個簡單「看圖說話」的應用,把一張視覺圖片用語言描述出來,深度學習前採用的方法是,先做一些物體識別,得到相應的關鍵詞,再把詞拼成一個句子。在這個過程中,由於這些圖像是以一個像素、語言以一個詞的形式存在,難以將語言和圖像對應起來。
真正開始突破是在 2014 年,微軟發佈了一個名為 MS COCO 的數據集。跟 ImageNet 不一樣,ImageNet 用作識別,圖片主要以單個物體的形式存在,例如一個茶壺、一隻小貓,內容太複雜容易出現歧義,增加識別難度。而 MS COCO 則相反,一開始就是瞄準了視覺信號在語義層次的描述,因此數據集中的物體更豐富,同時也會在標註時讓人用一句話來描述內容。
於是在 2014 年的時候,我開始想如何把語義實現跨模態理解。舉個例子,當我們看到一個茶壺、以及「茶壺」這個詞時,在我們的腦海中反映的是同一個意思,以概念的形式存在,因此我們認為,或許可以語義層次嘗試和完成多模態智能的統一。
巧合的是,2013 年,我們曾發表過一篇深度結構化語義模型DSSM(Deep Structured Semantic Models)的工作。當初這個工作發佈時只針對單一模態、即語言,跨模態的想法出現后,這項工作也從 2014 年開始、被我們用在做語言加視覺的語義對齊建模,提出了語言-視覺深度多模態語義模型(DMSM)。
這項工作發表在 CVPR 2015,同時我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰賽,比賽時給出一張圖片,由 AI 模型去生成對應的語義描述(圖生文),最後讓人當裁判來判斷描述是否準確,就像做圖靈測試一樣。最後我們的模型得到那場比賽的第一名,與谷歌並列第一,這也是真正意義上第一次把多模態這件事比較成功地做起來了。
因此,多模態智能可以追溯到 2014 年,我的研究方向也在這個過程中向多模態轉移,從原本只做 NLP 、又往視覺的方向進一步擴展。
期間我們數次想將其做成一個產品,到 2016 年年初這個想法得以實現,我們推出了一個名為 CaptionBot 的 AI 產品。
何曉冬團隊在給納德拉等展示 CaptionBot
像今天的 ChatGPT 一樣,CaptionBot 也是一個使用很簡單的產品,通過下載 APP,使用手機拍照后,CaptionBot 可以精準對照片內容進行文字描述。納德拉在微軟 Build 大會上發佈后,僅一星期用戶量就突破百萬。
CaptionBot 應用相關報道
在 Build 大會上發佈后,我去硅谷參加英偉達的 GTC 大會時,老黃(黃仁勛)也對 CaptionBot 很感興趣,還當場測試了一張。
「Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture」— By CaptionBot
2017 年初,在 CaptionBot 發佈了一年之後,基於期間用戶使用的交互反饋,我們進一步提升了它的技術水平,並把這個產品集成進了Office 產品家族當中去。Office 是微軟公司最重要的產品線之一,這也意味着這個 AI 應用的效果達到了一個新的水準。
而技術研究還在進步,在多模態大模型研究中,一個重要的基石就在於如何讓語言和視覺信號進行融合和對齊。在 2018 年,受人類的視覺注意力機制啟發,我們進一步提出了一個新的多模態注意力機制「Bottom-up and top-down attention」,為語言和圖像信息在語義層次的對齊提出了一個基本框架,某種意義上也奠定了跨模態信息處理的基礎。(截至發稿前,該論文的引用次數已超過4128次。)
AI 科技評論:是什麼令您在當時就感知到,多模態會是一個好的方向?
何曉冬:這個原因很樸素。以前我們經常說想做 AGI(通用人工智能),而 AGI 的一個模板就是人本身。
人的智能行為是多模態的,比如說我們面對面聊天時、不會是閉着眼睛聊,視覺和語言是對應的。因此,真正的通用人工智能一定是多模態的。只是以前局限於技術能力不足,單模態都處理不好,多模態就不處理了。
AI 科技評論:相比語言大模型(單一模態),多模態大模型的研究難度是否會更高?
何曉冬:會比較難做。在每一個層次,多模態都會比單模態更挑戰,進入大模型時代,多模態大模型肯定會比單模態大模型更挑戰。
當初我們雖然做多模態模型,但相對來說模型規模偏小,沒有做到現在的單模態大語言模型那麼大的規模。那時候有個一億參數就覺得好像不錯了,到現在都是百億、千億的參數。但我們也看到,今天做大模型相比當年做大模型,更挑戰的同時,合作也更加容易、視野更加開闊了。
AI 科技評論:從技術角度來看,主要難在什麼地方?
何曉冬:多模態做大模型的話,有幾個技術難點跟大家探討。
第一個問題是,在哪個層次上、做多模態大模型的目的是什麼?
這個目的並非是令語言模型可以具備多模態功能,如果僅出於這一目的,我們可以通過簡單調用另一個模型實現。例如跟一個語言模型說幫我畫畫,那麼它可以調 Midjourney 把圖像畫出來,這種屬於比較淺層的多模態。從任務層次上看,好像可以完成很多任務,但在模型層次上,二者是分開、割裂的模型,也無法看到多模態級別的智能湧現。
大模型之所以火,不是因為它大,而是因為看到了它的湧現。此前的機器學習算法,往往是模型規模變大后、邊際效果提升越來越小,但現在人們發現,模型大小過千億后,它的邊際效益是遞增的,突然間效果就上去了,這被稱為智能的「湧現」,因此,湧現是大模型最令人着迷的地方。
當我們希望看到多模態層次的湧現時,意味着我們需要將模型在底層去進行語言和視覺的結合,只有在最底層的結合才能出現湧現。也就是說,只有這個模型是稠密的模型,才會出現湧現的情況。
所以第一個問題就是,大模型做多模態,如果目標是湧現,那必須要做稠密的多模態大模型。
第二個問題是,當模型變聰明時,是在哪一個層次開始變得聰明?
我們常說一圖勝千言,所以相對於「圖生文」,「文生圖」是一個更挑戰性的多模態任務。給機器一兩句話的描述,令其將圖形生成,需要機器發揮極大的想象空間。
例如用「文生圖」模型畫一隻鳥,面對粗略的描述,AI 可以進行自動細節補充,並且不僅是全局對得上,局部也要對得上。難點在於,原始視覺信號只是像素點,而語言信號最原始就是一個單詞、一個字符,二者難以對齊,層次也不一樣,所以要找到一個合適的層次,把多模態信息得以對齊。現在看起來,如果多模態模型要變得聰明,將會出現在語義層次。這個文字驅動視覺內容生成的工作我們在 2017 年底微軟的「顛覆性技術展望」(Disruptive Technology Review)會上也給納德拉及管理層做了專題報告。
2017 年何曉冬及同事用「文生圖」 AttnGAN 生成的小鳥
AI 科技評論:語言模型堆參數的殺傷力是智能湧現,那麼,在多模態大模型中,堆參數的意義是什麼?在多模態里,大模型比小模型強在哪?
何曉冬:參數也很關鍵,我覺得很可能需要多種規模參數的模型。
當我們回答「做什麼模型」的第一個問題后,如果你希望做個能湧現的模型,那麼就必須是一個稠密的大模型。
第二個問題是在哪個層次的多模態融合?視覺和語言二者層次不一樣,所以要找到一個合適的層次,把多模態信息得以對齊,再期望它能夠湧現。現在看起來可能會出現在語義層次,但具體怎麼樣,還需要探索。
到第三個問題,就是模型結構和模型大小。
大模型的定義還是很虛的。比如什麼叫「大」?千億大了,那百億算不算大,如果是在三年前,一個十億參數的模型也能叫「大」。
由於視覺信號也是複雜的,因此我認為多模態的模型大小還需要進一步增加。
這幾個問題有些是正在做的,有些可能還在探索。
GPT-4 的創新是對話,還不在多模態
AI 科技評論:從 GPT-3 到 GPT-4,GPT-4 比 GPT-3 強在哪裡?其多模態的技術底層有哪些創新?
何曉冬:我認為 GPT-4 相比 GPT-3 ,最大的創新其實在於對話,還沒有在多模態層次。
GPT-4 在語言模型上、在知識上做得更深了。有人對比過,例如面對同樣的問題,GPT-4 的正確率比 GPT-3.5 要好很多,GPT-3 的效果則差得更遠,因為 GPT-3 並不具備對話能力,只有生成,對問題各方面的感知、意圖理解等做得並不好。現在 GPT-4 已經可以直接詢問多個問題,且通過多輪對話、它得以持續記住過去的歷史。
AI 科技評論:目前業內說「多模態大模型」,主要講語音、文本與圖像三種模態。但目前來說,是否主要是文本與圖像兩種模態的大模型?
何曉冬:語音也有。我們在 2020 年曾在 IEEE JSTSP 辦過一個多模態的智能專刊,除了我們自己做的一個綜述外,還請到了業界的比較資深、前沿的學者進行投稿,其中就包括了語音到圖像、語音聲調等等,因為語音不光只是文字語音,還覆蓋聲調、語氣等信息。但不可否認的是,至少在早年,多模態確實是一個不那麼熱門的話題,一方面是由於技術難度比較大,另一方面與天然的領域問題有關,更多學者還是專註在一個領域上做研究,跨領域的比較少。
專刊鏈接:https://ieeexplore.ieee.org/document/9126279
AI 科技評論:此前有研究表明,在單一英語數據集上訓練的語言模型,雖然沒有經過其他語種的訓練,但在執行其他語言(如中文、日語)的任務時性能也有提升。那麼,在多模態里,一種模態的性能飛躍,是否會對其他模態的智能水平也有所提升?例如,語言模態的進步,對語音、圖像的智能有影響嗎?
何曉冬:這是有可能的。現在只是語言模態的飛躍實現了,視覺還沒有完全起來,因此,一個模態帶動各種模態湧現,這也是大家在探索的方向。
舉個例子,現在大家拿「視覺+語言」來做,一方面是因為這部分數據比較多,另一方面則是因為視覺和語言最重要。因此,如果這個方向的探索能夠成功,最終不僅是視覺和語言,更是能提供很多洞察——怎樣做跨模態、多模態的湧現。比如說會不會用 Transformer 架構也是一個未知數,不一定用 Transformer,但也可能跟 Transformer 相關。只是現在還沒看到,需要等待最後出來的是什麼,但基礎性的工作已經在探索了。
AI 科技評論:在未來的多模態大模型中,是否會存在一種模態佔主宰地位、其他模態占附庸地位?如文生圖,現在是文字主導,而後生成圖像。
何曉冬:從技術角度來說,不存在說誰主導誰附庸。比如說「文生圖」和「圖生文」,我們如何判斷這當中是文字比圖像重要、還是圖像比文字重要?因為都很重要。
當然,有的人會認為,在圖像或者語音識別是感知層面的智能,「感知智能」比較基礎,因此被視為是比較低端的智能,很多動物也具備感知智能。但在語言層面,一般認為其是「認知智能」,因為文字更體現人具備的高級的智能,這也是圖靈所提出的,要通過對話、而不是識別圖片的方式,來判斷機器是否具有智能。
總體而言,或許文字可能更深奧一些,但也只能稱為從基礎智能到高層智能,並不能說哪個模態要比哪個模態更重要。
多模態的「ChatGPT 時刻」需要產品
AI 科技評論:您之前說過一點,讓我們印象特別深刻:ChatGPT 的啟示是「產品形態驅動技術研究」。那麼,目前主流的多模態應用有哪些?
何曉冬:應用比較多的是在數字人、數字員工等,數字人天然是個多模態的應用。
AI 科技評論:追逐的過程中,更多是技術上的飛躍,還是產品上的創新?
何曉冬:應用的形式一般不會讓你感覺特別稀奇,但應用的效果會讓你感覺到驚艷。
在人工智能領域,形態創新並不重要,基礎形態既定,如人機對話、文生圖、文生視頻等這些基礎形態大家很早就暢想過,問題在於效果達不到,有一天效果達到了、才是一個大的飛躍。比如在人機對話這個基礎形態上,可以做導購、推薦、營銷、客服、助理等等,這些則被稱作衍生形態。但如果基礎形態效果不到位,衍生形態更加不到位。
ChatGPT 也一樣,人機對話這件事並不新鮮,大家之所以對 ChatGPT 覺得驚艷,它的效果是有目共睹的。
同理,今天我們去考慮多模態的應用意義並不大,因為多模態大模型的湧現還未實現,當多模態可用深度理解意圖,隨時可控地對視覺、語言等各方面信息做融合,基礎形態實現了,更多衍生形態自然會出現。
AI 科技評論:前面我們談到了它(多模態大模型)在技術角度的難度,從產品方向來看,目前落地的難度在哪裡?
何曉冬:主要在多模態大模型它的可控性上,特別是對細節的理解和可控。這一塊是我認為比較重要的。
比如 Midjourney 畫圖,雖然比自己畫的要好,可能整體表現很好,但在刻畫手指等細節上還不夠好,往往需要生成很多張、從當中挑出一張,還是有這個過程。
再舉個例子,現在大家所說的 Prompt,在我看來這正是一個 bug、或者說它不足的地方,是技術還有缺陷的一個體現,就是因為模型對語言的理解還不夠好,因此才需要人去練「咒語」,隨着技術進步,練「咒語」這件事情將不存在。
AI 科技評論:現有的產品,對於多模態大模型的進步是否有 ChatGPT 「模型-用戶數據-模型迭代-用戶數據」的飛輪式迭代?
何曉冬:這個方式是對的,並且我也認為,下一個多模態大模型可能還是會按照這樣的方式。
首先,在技術上能看到一個突破性的革命,其次在產品形態上會有一個可用的產品發佈出來,真正地走入公眾, 只有走到 Public,這個數據才真正得以解放。這部分的數據並非花錢標註就可以得到,標註只是第二步的。我們所說的數據往往包括原始數據和數據標註,標註可通過找人、花錢就可以把這件事完成,真正困難的是原始數據的獲得。只有讓大家一起用、才能實現真實可靠的原始數據獲取。一個術語,就叫做數據的均衡採樣。將整個地球的所有用戶和用戶活動視為一個空間,當你希望你的模型可以服務這麼多人,那麼相對應的數據也需要對目標用戶空間比較均衡的採樣。為了做到這一點,最好辦法就是先發佈一個變革性的產品、讓全部人一起使用它。
AI 科技評論:這個範式在 2016 年您和團隊做 CaptionBot 時就已經歷過了,為什麼當時 CaptionBot 沒能成為今天的 ChatGPT ?
何曉冬:我們其實走的過程其實特別像 ChatGPT:最開始有篇論文發表在 2015 年,緊接着 2016 年初做成一個公眾可用的產品,把它發佈出來。
由於論文往往是在一個有局限的學術數據里,規模、覆蓋各方面比較局限性,通用性存在不足,如果希望它能夠走得更遠,最好的辦法就是把它做成一個新的形態、打造一個產品,對全世界通用,從學術中僅靠一些學生去收集、標註數據,轉變為全球百萬級、千萬級的用戶成為數據反饋的人。這產品可能很粗糙,正如當初我們的 CaptionBot 只是一個APP,今天的 ChatGPT 也很粗糙、只是一個對話框,但是粗糙沒關係,只要大家覺得真的有意思、有用,很快就能形成爆品。通過用戶使用的數據可以用於進一步提升算法、模型,隨之進入第三個階段、即嚴肅的產品使用階段。
這「三步走」我們在七年前已經走過,但當初走得有點慢,最終沒能夠做到一定的服務規模,是今天我感覺有點遺憾的地方。現在微軟快多了,像去年底 ChatGPT 出來,到現在才半年,GPT 已經全面進入微軟各大核心產品線。
其實這次 OpenAI 展現出來的一個新趨勢,即是產品和技術研究、技術創新是不分家的。產品的定義是,讓普通大眾可以直接使用的,首先第一步是先用起來。在這個層面上來說,AlphaGo 不是一個產品,而 ChatGPT 是。
AI 科技評論:一個不得不直視的現實是,即使在語言大模型上,中國的多個大模型產品的智能水平跟國外也仍有一定差距。國內語言大模型的研究局限性,能否給多模態大模型的研究新征程帶來啟發?
何曉冬:在跟用戶溝通交流中學習智能。這也是為什麼我們對 ChatGPT 會看得更深一點。
ChatGPT 確實很厲害,但它的厲害之處在於它的廣度上,它的深度其實並不夠。例如金融領域的一些項目,就無法直接使用 ChatGPT 來解決問題,需要與具體的金融知識等行業 Know-How 相結合,同時還要經過實戰磨練。
比如對話可以分為合作性對話和對抗性對話,其中,合作性對話指用戶願意配合完成的對話,例如客服等。而對抗性對話則包括了談判等存在一定博弈與對立的內容。而越高價值的對話,往往博弈性越強,對機器智能要求也越高,這都是在技術與實際場景結合中所得到的認知和經驗。
今天的 ChatGPT 已經不再考慮圖靈測試,它甚至會告訴你:「我是個語言模型,你有什麼要問的?」它不需要欺騙人,因為它知道即便我是一個機器、你也會跟我對話,這就是技術進步的一個重要體現,也是其開始變成生產力的一個重要體現。
多模態大模型的研究需要離落地更近,我認為,這對科學而言是一種促進、而非限制。計算機作為典型的應用科學,很多重要的課題是在應用中被反向牽引,因為大量的應用需求,從而促生更多變量和經驗體系的發展。
AI 科技評論:對比多模態研究的早期階段,現在的多模態大模型有哪些革命性的進步?
何曉冬:以數字人為例,它的突破是很大的。回到 2014 年,當時的數字人幾乎不可用,到近兩年才真正可用,當中關於數字人形象生成控制,包括形象層和語言層的對齊等方面,都離不開多模態技術的參與。
但多模態大模型的 ChatGPT 時刻還沒到來,可能還需要點時間,或者需要更多的數據、創新的算法,暫時還沒有爆發。
AI 科技評論:如果說 ChatGPT 可能已經是語言大模型的 AGI 終極形態,那麼多模態大模型的 AGI 產品形態應該是什麼樣的?您對多模態的研究設想是怎樣的?
何曉冬:回到本源,當我們說通用人工智能時,往往是以人為標杆的,我們也希望所有的產品是為人而服務的,在未來所有的 AGI 藍圖裡,人是一個核心存在。我們永遠不希望看到人被邊緣化,如果人被邊緣化,那麼這個世界對人類沒意義。
因此,多模態既是一個路徑,也是一個要求。
一個路徑是指,人被視為這個世界上最聰明的智能體,如果想打造一個像人一樣聰明的 AGI ,就需要向人學習,通過多模態方式來進行知識融合、知識獲取,這是讓機器走向 AGI 的必經之路。
另一方面,多模態可能也是個要求。未來人跟機器打交道時,必然是通過語言、視覺、語音跟機器進行溝通的,所以機器也必須能夠理解相應的信息,否則機器就無法服務人。
因此,多模態既是 AGI 的必經之路,或許也是對 AGI 的一個要求。
(雷峰網雷峰網)