NYU陳溪博士:運籌學與機器學習的融合交叉

.. 雷鋒網 AI 科技評論按:從一個旁觀者的角度看來,陳溪的履歷無疑令人艷羨:從西安交通大學少年班一路至計算機系畢業,隨後到卡耐基梅隆大學(CMU)商學院攻讀碩士學位,一年後轉到了 CMU 的機器學習系;五年博士畢業后,陳溪跟隨人工智能泰斗、UC 伯克利教授 Michael I. Jordan 進行博士后研究;在這之後,他從西海岸橫跨北美洲,於紐約大學任商學院助理教授。

機器學習專業出身的陳溪,美國研究生涯始於商學院的運籌學和統計學,在經歷六年的機器學習研究后,如今又重回商學院。運籌學與機器學習之間,能產生怎樣奇妙的化學反應?陳溪又是如何在這兩門學科中尋求交叉平衡與科研創新的?雷鋒網 AI 科技評論與陳溪博士進行了一次交流,了解了他在運籌學與機器學習之間的十年研究心得。

陳溪博士目前是紐約大學商學院助理教授,CMU 機器學習系博士,也曾跟隨 Michael I. Jordan 做了為期一年多的博士后研究。同時,陳溪博士拿過 Google Faculty Research Award,Adobe Data Science Research Award, Alibaba Innovation Award,在 2017 年還獲得了福布斯雜誌全美 30 under 30 最有影響力的青年科學家提名。陳溪博士的主要研究領域為:機器學習、高維統計和運籌學。

圖靈獎唯一華人得主姚期智院士曾如是強調學科交叉的重要性:「多學科交叉融合是信息技術發展的關鍵:當不同的學科、理論相互交叉結合,同時一種新技術達到成熟的時候,往往就會出現理論上的突破和技術上的創新。」

尤其在今天大數據的環境下,學科的交叉與融合愈發明顯。作為一位在運籌學與機器學習領域都有過長期涉獵和學習的老師,陳溪博士對於這一觀點具有極強的發言權。

陳溪的碩士第一年是在商學院度過的,現在看來,說是無心插柳也不為過。即使在進入機器學習系之後,陳溪博士仍然與運籌系的老師有着密切的合作;而在商學院任教后,他也能夠迅速地融入商學院的文化。此外,這一年的學習也給陳溪博士帶來了更多意想不到的收穫。「我在 CMU 運籌系的第一年學習了非常多優化方面的知識,而這些算法後來成為了研究機器學習中非常重要的工具,用於進一步解決機器學習的問題。」

因為具備了不同學科的豐富背景,陳溪博士可以將很多機器學習中比較前沿的技術引入到商學院中,並用機器學習、大數據等新技術解決商學院的傳統問題。

機器學習發展至今,研究者所解決或攻克的問題相對比較集中,即圍繞視覺(檢測、識別、分割)、語音(識別、合成)、自然語言處理(翻譯、文本分析)等領域展開,而且有很多國內的創業公司也在研究上述問題。

但在陳溪博士看來,一些企業級服務,甚至可以說是商學院中的一些服務,如供應鏈、動態定價與推薦,在機器學習研究者中關注得還比較少。目前整個行業還缺乏同時具備這兩個領域知識的人,即有機器學習的背景,又能了解商學院的核心問題,把機器學習的方法和技術引入商學院的傳統領域中,並解決相應問題。

斯坦福前任商學院的院長 Garth Saloner 在 2016 年曾說過,「如果你是一個斯坦福 MBA 的學生,請趕快去工程學院,儘可能地學習 AI、深度學習和自動化的知識。就是現在。」在這些學生進入公司管理層后,他們需要更多地理解大數據知識和相應算法,才能對企業決策產生正面的影響。在陳溪博士看來,五年以前,整個商學院幾乎沒有計算機科學家的存在,MBA 的學生也缺乏相關的知識與背景。但近年來,一些美國高校開始招募一些機器學習人才進入商學院,用合適的術語和技術包裝,用適於商學院學生理解的方式傳遞給他們。

在課程中,陳溪博士會融入一些機器學習的新案例,讓商學院的同學們了解更多技術層面的知識。雖然在他看來,同學們雖然對計算機知識相對陌生,也缺乏相關的訓練,但在當下背景下,意識到計算機學科重要性的學生們也擁有極強的求知慾。

在職業生涯的規劃中,陳溪博士非常感謝他在博士後期間的導師 UC 伯克利教授 Michael I. Jordan。「和 Jordan 教授做研究,能充分地感受到他真的是一位大師。」首先,Jordan 教授給予了學生極大的研究自由度。在每周的交流中,Jordan 教授極少規定學生手上要做的項目,而是通過溝通熱點及問題,啟發學生主動思考;此外,Jordan 教授對於學生的職業發展寄予高度的關注和幫助,會花大量的時間幫助每一個博士后準備自己的 job talk,並且提供了諸如團隊建設、項目基金申請等寶貴的經驗。整個團隊的氛圍也非常融洽,每個人都具有充分的合作精神。在一年多的博士后經歷中,陳溪博士不僅在眾包分配研究中取得了相關進展,也懂得了為師之道,並且身體力行地應用到自己的教學過程中。在這個過程中,陳溪博士也明確了自己未來的研究方向。

陳溪博士目前的一個研究核心是從理論和實踐兩個角度,針對基於大規模在線數據的學習與決策展開研究。

在理論層面,陳溪博士主要研究的高維數據在統計推斷與計算方面的內容,並把統計推斷和隨機優化做了有機的結合。

目前傳統統計學中的數據基本上是靜態的,而且是事先給定的,但這與實際的應用場景相去甚遠。與傳統統計學家相比不同的是,陳溪博士的研究更關心各種場景下海量高維數據的處理。「如果我們已經擁有一個用戶很多的歷史購買數據,那麼它的 profile 已經是非常高維的;此外大量的數據在實際場景下都是動態產生的。」

這一場景會面臨兩個問題。一個是,如何在這種動態大規模高維數據場景下做統計推斷;另一個是,當數據達到一定量級,在分佈式場景下,如何在機器間的交互代價(communication cost)與推斷效率中進行平衡,並考慮現實計算的各種規範(constraint)。

與機器學習科學家相比不同的是,機器學習更關心高維數據的估計和預測,而從陳溪博士的研究角度來看,他更關心的是推斷(inference),即規劃結果的「uncertainty」程度。

在實踐層面,陳溪博士更多地考慮到了動態定價、動態推薦及眾包分配方面的應用問題。「比如每個用戶發起一個檢索(search),那麼數據會上傳到服務器中,因為每天都會有無數的人在做檢索操作,那麼這便成為了一個大規模的用戶數據,如何通過這些數據更好的服務於用戶,比如進行精準的推薦。」

而杉數科技的成立,也正是機器學習與運籌學結合應用的一個產物。見證杉數科技成長的陳溪博士,從公司成立以來一直與幾位創始人保持密切聯繫,一同探討如何用機器學習服務國內更多的物流公司、電商公司。一方面,陳溪博士希望企業能將大家的知識轉化成生產力;另一方面,企業產生的數據也會促進很多新的研究問題。

從一個學者的角度出發,陳溪博士仍對學術研究抱有一顆沉靜之心。學術界有不少教授投身產業界,在更大的技術舞台上發揮才智,但整個大環境還是需要另一些老師靜下心來理解算法的本質,才能創造出更多新的有價值的模型與方法。「比如神經網絡調參,我們大家都知道,其實它需要大量的經驗,有人說它就像一門藝術,而不是一門科學。那麼如果我們能真正去理解它,可能以後我們不需要花這麼多的時間去調參,而是可以用理論指導算法的設計,甚至對一些傳統問題提出全新的想法。」相信在未來,我們能在運籌學與機器學習的交叉融合上,更多地看到全新的成果。

更多資訊敬請關注雷鋒網 AI 科技評論。


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems