揭秘量子計算機:仍存諸多瓶頸,首要工作是加速機器學習

.. 編者按:量子計算與機器學習的融合已經成為一個蓬勃發展的研究領域,它能否達到人們對其的期望呢?《量子》雜誌發表了一篇文章詳細介紹了量子計算機的發展狀況及其在機器學習中的運用。文章由36氪編譯。

上世紀90年代初,威奇托州立大學的物理學教授伊麗莎白·貝爾曼(Elizabeth Behrman)開始致力於將量子物理與人工智能(特別是當時備受爭議的神經網絡技術)結合起來的時候,大多數人都認為她是在將水和油混合在一起。「我花了好長時間才將論文發表出來,」她回憶說。「神經網絡期刊會問,『量子力學是什麼?』物理期刊會問,『神經網絡是什麼?』」

今天,兩者的結合似乎是世界上最自然的事情。神經網絡和其他機器學習系統已經成為21世紀最具顛覆性的技術。它們不僅在大多數人類都不擅長的任務中打敗我們,比如下棋和數據挖掘,而且還在我們的大腦的工作上超越了我們,例如識別人臉,翻譯語言等。這些系統因為巨大的計算能力而成為現實,因此,科技公司不可避免地會去尋找那些不僅規模更大的計算機,而且還會致力於開發出一種全新的機器。

經過幾十年的研究,量子計算機已經有了足夠的計算能力,超越了地球上所有的計算機。它們的殺手級應用通常被認為是處理大量數據,這是現代加密技術的關鍵。不過,這至少還有10年的時間。但即使是今天最基本的量子處理器,也與機器學習的需求驚人地匹配。它們在一個步驟中處理大量數據,挑選出傳統的計算機所忽略的微妙模式,而且不會因不完整或不確定的數據而宕機。「量子計算的內在統計特性和機器學習之間存在着一種自然的結合,」加州伯克利的量子計算機公司 Rigetti Computing 的物理學家約翰內斯·奧特巴赫(Johannes Otterbach )說。

如果說有什麼不同的話,那就是鐘擺已經擺到了另一個極端。谷歌、微軟、IBM和其他科技巨頭都在向量子機器學習投入大量資金,多倫多大學的創業孵化器也致力於此。「機器學習」正在成為一個時髦詞彙,」莫斯科斯科爾科沃(Skolkovo)科技研究所的量子物理學家雅各布·比昂特(Jacob Biamonte)說。「當你把它和量子結合在一起的時候,它就變成了一個超級時髦詞彙。」

然而,其中的「量子」這個詞,並不是我們所想的那樣。儘管你可能認為量子機器學習系統應該是強大的,但它卻受到某種閉鎖綜合征的影響。它在量子態上運行,而不是在人類可讀的數據上,在兩者之間的轉換中,其明顯的優勢也被抵消了。它就像iPhone X一樣,儘管它的規格令人印象深刻,如果你用的手機運營商網絡非常差的話,它會和你的舊手機一樣慢。對於一些特殊的情況,物理學家可以克服這個「輸入-輸出」的瓶頸,但是這種情況能否出現在實際的機器學習任務中仍然是未知的。「我們還沒有明確的答案,」德克薩斯大學奧斯汀分校的計算機科學家斯科特 · 阿隆森(Scott Aaronson)說,「人們常常對這些算法是否能夠提高計算速度表現得非常漫不經心。」

量子神經元

無論是傳統的神經網絡,還是量子神經網絡,其主要工作都是識別模式。受到人類大腦的啟發,神經網絡由基本的計算單元(即「神經元」)構成。每一個都可以像一個開關裝置一樣簡單。一個神經元監控其他多個神經元的輸出,就像進行投票一樣,如果有足夠多的神經元處於激活狀態,神經網絡就會啟動。通常,神經元是按層排列的。初始層接受輸入(如圖像像素),中間層創建各種輸入(表示結構,如邊和幾何形狀),最後一層生成輸出(圖像內容的高級描述)。

至關重要的是,線路不是預先固定的,而是在不斷試錯的過程中進行的。這個網絡可能會被輸入標有"小貓"或"小狗"的圖像,對於每張圖像,神經網絡會分配一個標籤,檢查它是否匹配正確,如果不正確,就調整神經元連接。起初,它的猜測是隨機的,但隨後會變得更好;在大約1萬個例子之後,它的準確性就大大提高了。一個嚴肅的神經網絡可以有十億個相互連接,所有這些都需要調整。

在傳統的計算機上,所有這些相互連接都用一個極大的數字矩陣來表示,而運行網絡則意味着要做矩陣代數。按照慣例,這些矩陣操作被外包給一個專門的芯片,比如一個GPU。但是沒有什麼比量子計算機做得更好的了。「在量子計算機上,對大矩陣和大向量的處理速度要快得多,能夠出現指數級增長,」麻省理工學院的物理學家、量子計算的先驅塞思·勞埃德(Seth Lloyd)說。

對於這項任務,量子計算機能夠利用量子系統的指數特性。量子系統的大量信息存儲容量不在於它的單個數據單位——量子位(qubit)——經典計算機bit的量子對應物——而在於這些量子位的集體特性。兩個量子位有四個關節狀態:開/開、關/關、開/關、關/開。每一個都有一定的權重,或者「幅值」,可以代表一個神經元。如果你添加第三個量子位,你可以表示八個神經元,第四個的話,神經元能有16個。機器的容量呈指數增長。實際上,神經元被塗抹在整個系統上。當你在一個四個量子位的狀態下行動時, 你一下子就處理了16個數字, 而一台傳統的計算機則必須一個接一個地檢查這些數字。

勞埃德估計,60個量子位足以編碼相當於人類一年所產生的數據量,而300個量子位可以攜帶可觀測宇宙的經典信息內容。(目前最大的量子計算機由IBM、英特爾和谷歌製造,擁有50個量子位元。)這是假設每個幅值只是一個單一的bit位。事實上,幅值是連續的(實際上是一個複數),而且,為獲得可信的試驗精度,可以儲存15 bit的信息,阿隆森說。

但是量子計算機的存儲信息的能力並不能使它運行得更快。如何才能使用這些量子位才是關鍵。2008年,麻省理工學院的物理學家阿拉姆·哈羅(Aram Harrow)和以色列巴伊蘭大學的計算機科學家阿維納坦·哈西丁(Avinatan Hassidim),展示了如何進行逆矩陣運算的關鍵代數運算。他們將其分解成一系列邏輯運算,可以在量子計算機上執行。他們的算法適用於各種機器學習技術。而且它不需要像大部分算法那樣需要大量的算法步驟。計算機可以在「噪音」出現之前完成分類任務——這是當今技術的最大限制因素——有可能使計算髮生混亂。「在擁有完全通用的容錯量子計算機之前,你可能擁有量子優勢,」IBM公司Thomas j.Watson研究中心的克里斯坦·泰姆(Kristan Temme)說。

讓機器本身來解決問題

不過,到目前為止,基於量子矩陣代數的機器學習只在只有四個量子位的機器上得到了證明。量子計算機迄今為止的大部分實驗成功都採用了不同的方法,量子系統不僅模擬了網絡,它本身就是網絡。每一個量子位代表一個神經元。儘管缺乏指數運算的能力,像這樣的設備可以利用量子物理的其他特性。

最大的這類設備,有大約2,000個量子位,是由D-Wave Systems製造的量子處理器,位於不列顛哥倫比亞省的溫哥華附近。和大多數人觀念中的計算機不同,它不是從一些輸入數據開始,執行一系列操作並顯示輸出,而是通過找到內部一致性來工作。它的每一個量子位都是一個超導電環,它充當一個微小的電磁體,向上、向下、向上或向下,這是一個疊加態。量子位通過允許它們發生磁性相互作用而「連接」在一起。

D-Wave系統的處理器被用於機器學習應用。

要運行這個系統,首先要施加一個水平磁場,這個磁場將量子位初始化為上下相等的疊加態——相當於一塊空白的狀態。有幾種方法可以輸入數據。在某些情況下,您將一層量子位固定到所需的輸入值;更常見的情況是,您將輸入合併到交互的強度中。然後讓量子位相互作用。有些量子位尋求朝着相同的方向, 有些在相反的方向, 在水平場的影響下, 它們會翻轉到它們選擇的方向。這樣做,它們可能會觸發其他量子位翻轉。最初,這種情況經常發生,因為很多都是不合理的。但隨着時間的推移,它們會穩定下來,你可以關閉水平磁場來鎖定它們。在這一點上,量子位處於上下的模式中,以確保輸出跟隨着輸入。

量子位的最終排列是什麼很不明顯,這就是問題的關鍵所在。這個系統,僅僅是通過自然地去做一些事情,就解決了普通計算機可能會遇到的問題。「我們不需要一個算法,」東京理工大學的物理學家Hidetoshi Nishimori解釋說,他發明了D-Wave機器的操作原理。「這與傳統的編程完全不同。自然解決了這個問題。」

量子位移是由量子穿隧效應驅動的,這是量子系統必須尋找最優配置的自然趨勢,而不是滿足於次優結果。你可以建立一個傳統的網絡,在類似的原理上工作,使用隨機的抖動而不是隧道來讓bit翻轉,在某些情況下,它實際上會更好。 但有趣的是, 對於機器學習中出現的各種問題, 量子網絡似乎能夠更快達到最佳狀態。

D-Wave機器也有它的批評者。它非常「嘈雜」,而且在它目前的版本中,只能執行有限的操作。然而,機器學習算法的本質是可以容忍「噪音」的。它們之所以有用,正是因為它們能讓人理解混亂的現實,在干擾性背景中從區分小貓和小狗。 "眾所周知, 神經網絡對噪音有很強的魯棒性,"貝爾曼說。

2009年,由谷歌的計算機科學家特穆特·奈文(Hartmut Neven)領導的一個團隊,共同創立了谷歌眼鏡項目, 隨後開始進行量子信息處理, 展示了早期 D-Wave 機器如何能夠完成一項令人尊敬的機器學習任務。他們把它作為一個單層的神經網絡,把圖像分成兩類:「汽車」或「非汽車」,在一個2萬個街道場景的數據庫里。這台機器只有52個可以工作的量子位,太少了, 根本無法拍攝完整的圖像。 (請記住: D-Wave 機器的類型與最先進的50量位系統在2018年上線時截然不同。)因此,奈文的團隊將這台機器與一台傳統計算機相結合,分析了這些圖像的各種統計量,並計算出這些量對汽車的存在有多敏感——通常不是很精確,但至少比拋硬幣要好。這些量的一些組合可以一起可靠地識別出一輛汽車, 但不清楚是哪一種——這是神經網絡的任務。

團隊為每個量分配了一個量子位。如果這個量固定值為1的話,那麼它標記相應的數量是有用的;0意味着不用麻煩了。量子位的磁性相互作用對問題的需求進行編碼,例如只包括最具辨識力的量,以便使最終的選擇儘可能的簡單。結果是能夠發現一輛汽車。

去年,由加州理工學院粒子物理學家瑪麗亞·斯皮羅普魯(Maria Spiropulu)和南加州大學物理學家丹尼爾·利達(Daniel Lidar)帶領的一個小組將該算法應用到一個實際的物理問題上:將質子對撞歸類為「希格斯玻色子」或「非希格斯玻色子」。他們利用基本粒子理論來預測哪些光子特性可能會泄露出希格斯粒子的短暫存在,比如超過某個閾值的動量。他們考慮了8種這樣的屬性和28種組合,總共36個候選信號,並讓位於南加州大學的晚期模型D-Wave找到了最佳選擇。它確定了16個變量是有用的,3個是絕對最好的。量子計算機需要比標準程序更少的數據來進行準確的識別。「如果訓練集很小,那麼量子方法確實比高能量物理社區使用的傳統方法提供了一個精確的優勢,」利達說。

加州理工學院的物理學家瑪麗亞·斯皮羅普魯使用量子機器學習來尋找希格斯玻色子。

去年12月,Rigetti演示了一種使用具有19個量子位的通用量子計算機自動對對象進行分組的方法。研究人員向計算機輸入了一系列城市和它們之間的距離的方法,並要求將城市分類為兩個地理區域。這個問題的困難之處在於,一座城市屬於哪個地理區域取決於系統對其他城市的分類,所以你必須同時從整個系統出發。

Rigetti團隊有效地給每個城市分配了一個量子位,指示它被分配給哪個組。通過量子位的相互作用(在Rigetti的系統中,是電子而非磁性),每一對量子位都試圖取相反的值——當它們這樣做時,它們的能量被最小化了。顯然,對於任何超過兩個量子位的系統,一些量子位必須同意被分配到同一組。附近的城市更容易接受,因為它們在同一組的能量消耗低於更遙遠的城市。

為了使系統達到最低能量,Rigetti團隊採用了類似於D-Wave程序的方法。他們將量子位初始化為所有可能的集群分配的疊加。他們允許量子位進行短暫的交互,這使他們傾向於假設相同或相反的值。然後,他們應用了一個水平磁場的模擬,允許量子位在他們傾斜的情況下翻轉,推動這個系統向它的最低能量狀態前進一點點。他們重複了這兩步過程——交互然後翻轉——直到系統最小化能量,從而將城市劃分為兩個不同的區域。

這些分類任務很有用,但很簡單。機器學習的真正前沿是在生成模型中,它不僅能識別小狗和小貓,還能產生新的原型——從未存在過的動物,但和那些動物一樣可愛。他們甚至可以自己找出「小貓」和「小狗」的類別,或者重建丟失了尾巴或爪子的圖像。「這些技術非常強大,在機器學習中非常有用,但它們非常困難。」D-Wave首席科學家穆罕默德·阿明(Mohammad Amin)說。量子輔助將是最受歡迎的。

D-Wave和其他研究團隊已經接受了這個挑戰。這種模型的訓練意味着調整量子位之間的磁性或電子相互作用,使網絡能夠再現一些樣本數據。要做到這一點,你需要將網絡與傳統計算機結合起來。網絡做了大量的工作——弄清楚一個給定的交互選擇對最終網絡配置意味着什麼——它的合作計算機使用這些信息來調整交互。在去年的一次演示中,美國宇航局量子人工智能實驗室的研究員亞歷山大·奧爾蒂斯(Alejandro Perdomo-Ortiz)和他的團隊將一個D-Wave系統運用在了手寫數字的圖像中。它發現有10個類別,將數字0與9匹配,並生成了自己的手寫數字。

量子計算機的瓶頸

好吧,好消息就是這樣。糟糕的是,如果你不能把你的數據輸入到處理器中, 那麼處理器有多棒並沒有什麼大不了的。在矩陣代數算法中,單個操作可以操作16個數字的矩陣,但是仍然需要16個操作來加載矩陣。「把傳統數據放入量子態完全被迴避了,我認為這是最重要的部分,」量子計算創業公司Xanadu的研究員瑪利亞·考爾德(Maria Schuld)說,也是首批獲得量子機器學習博士學位的人之一。以物理形式提出的機器學習系統困難在於,如何將一個問題嵌入到量子位網絡中並讓量子位進行應有的交互。

一旦你成功地輸入了你的數據,你需要將它存儲在一個量子系統可以與之交互的方式中,而不會導致正在進行的計算崩潰。勞埃德和他的同事們已經提出了一種使用光子的量子隨機存儲器,但是沒有人能像超導量子比特或被困的離子那樣有一個類似的裝置,這是在領先的量子計算機中發現的技術。「這是建造量子計算機問題之外的又一個巨大的技術問題,」阿隆森說。「我從實驗主義者那裡得到的印象是,他們害怕。他們不知道如何開始建造這樣的量子計算機。。」

最後,如何輸出數據呢?這意味着測量機器的量子狀態,不僅測量一次只返回一個數字,隨機抽取,它會使整個狀態崩潰,在你有機會取回數據之前就把其餘的數據都擦掉了。你必須一次又一次地運行這個算法來提取所有的信息。

然而,並不是沒有希望。在對於某些類型的問題,你可以利用量子干涉。也就是說,你可以編排這些操作,這樣錯誤的答案就會自動抵消,而正確的答案就會自我強化,這樣,當你去測量量子態時,它不會給你任何隨機的值,而是你想要的答案。但是只有少數算法,比如暴力搜索,可以很好地利用干擾,而且速度通常是適度的。

在某些情況下,研究人員已經找到了獲取數據的快捷方式。在2015年,勞埃德、加拿大滑鐵盧大學的Silvano Garnerone和南加州大學的Paolo Zanardi指出,對於某些統計分析,你不需要輸入或存儲整個數據集。同樣地,當幾個關鍵值足夠時,您不需要讀取所有數據。例如,科技公司利用機器學習的方法,根據消費者習慣的龐大矩陣來建議觀看或購買東西。「如果你是Netflix或亞馬遜,或者其他公司,你實際上並不需要在任何地方寫下這個矩陣,」阿隆森說。「你真正需要的只是為用戶生成推薦。」

所有這一切都引發了這樣一個問題:如果一個量子計算機只有在特殊情況下才會強大,那麼傳統的機器在這種情況下是否也會強大呢?這是該領域尚未解決的主要問題。畢竟,傳統的計算機是非常有能力的。通常的處理大數據集的方法——隨機抽樣——實際上與量子計算機非常相似,無論它內部發生什麼,最終都會返回一個隨機結果。「我做過很多算法,我覺得這太神奇了,我們有了這個加速,然後我為一個經典的計算機寫一個取樣技術,我意識到你也可以用同樣的方法進行取樣,」考爾德說。

如果你回顧一下量子機器學習到目前為止所取得的成功, 它們都是帶有星號的。 以 D-Wave 機器為例當對汽車圖像和希格斯玻色子進行分類時,它並不比傳統的機器快。「我們在本文中沒有提到的一件事是量子加速,」谷歌DeepMind的計算機科學家亞歷克斯·莫特(Alex Mott)說。他是希格斯研究小組的成員之一。矩陣代數方法,如哈羅-哈西迪-勞埃德(Harrow-Hassidim-Lloyd)算法,只有在矩陣稀疏、大部分都是零的情況下才會顯示出加速效果。「沒有人會問,在機器學習中,稀疏數據集真的很有趣嗎?」考爾德指出。

量子智能

另一方面,即使是對現有技術的偶爾改進,也會讓科技公司感到高興。「你最終看到的這些優勢,它們是適度的;它們不是指數級的,但它們是二次的,」微軟研究院的量子計算研究員內森·維伯(Nathan Wiebe)說。「如果有足夠大、足夠快的量子計算機,我們就能在機器學習領域掀起一場革命。」在使用這些系統的過程中, 計算機科學家可能會解決一個理論上的難題: 它們是否天生就更快, 又是為了什麼。

考爾德也看到了軟件方面的創新空間。機器學習不僅僅是一堆計算。這是一個複雜的問題,有其獨特的結構。「人們構建的算法會從使機器學習變得有趣和更美的東西中移除,」她說。「這就是我開始反過來思考的原因: 如果這台量子計算機已經存在ーー這些小規模的計算機ーー機器學習模型實際上能夠實現什麼? 也許這是一個尚未被發明的模型。」如果物理學家想給機器學習專家留下深刻印象,他們需要做的不僅僅是製造現有模型的量子版本。

就像許多神經科學家現在認為人類思維的結構反映了身體的要求一樣,所以, 機器學習系統也體現了這一點。圖像、語言和大多數其他的數據都來自於物理世界,反映了它們的特性。量子機器學習也同樣得到體現——但是在一個比我們更豐富的世界裡。毫無疑問,在處理已經是量子的數據時,它無疑會發光。當數據不是圖像,而是物理或化學實驗的產物時,量子機器就會發揮出其強大的能力。輸入的問題消失了,傳統的計算機將被遺忘在塵埃中。

在一個簡潔的自我參照的循環中,第一個量子機器學習系統可能會幫助設計他們的繼任者。「我們可能想要使用這些系統的一種方法是自己建造量子計算機,」維伯說。「對於一些調試任務來說,這是我們唯一的方法。」也許它們甚至可以調試我們。姑且不論人腦是量子計算機——這是一個極具爭議的問題——它有時表現得好像它是一個。人類的行為是非常情景化的,我們的偏好是由我們的選擇形成的,這是違背邏輯的。在這個過程中,我們就像量子粒子。「你問問題和排序的方式很重要,這在量子數據集里是非常典型的,」奧爾蒂斯說。因此,量子機器學習系統可能是研究人類認知偏差的一種自然方式。

神經網絡和量子處理器有一個共同之處:它們的工作原理令人驚嘆。你可以訓練一個網絡,儘管幾十年來,大多數人都懷疑這是不可能的。同樣地,量子物理學能被用於計算不可能的事情,因為量子物理的獨特效應是如此地隱藏在我們的身上。然而,這兩項工作都已經有所成效,雖然並非總是如此,但往往比我們預期的要多。考慮到這一點,量子物理學和神經網絡的結合也可能會在未來令人驚嘆不已。

原文鏈接:https://www.quantamagazine.org/job-one-for-quantum-computers-boost-artificial-intelligence-20180129/

編譯組出品。編輯:郝鵬程


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems