
生成式AI預訓練大模型的能力越來越強大,吸引了更多人探索大模型在端側的落地應用。
不過在生成式AI火爆之前,CNN已經讓端側擁有了AI能力,所以讓人更關心的問題是,端側大模型會帶來革命性的變化嗎?
2024世界人工智能大會期間,愛芯元智創始人、董事長仇肖莘對雷峰網表示,「目前端側大模型的應用還是探索階段,還不好判斷是否會帶來顛覆。」
愛芯元智創始人、董事長 仇肖莘
在世界人工智能大會期間,愛芯元智主辦的「芯領未來丨智能芯片及多模態大模型論壇」上,智慧物聯和人工智能創新融合專家殷俊分享,「不應該讓用戶放棄原有的技術投資,而是要通過大小模型協同和模型小型化,實現最優算力配置,來加快大模型行業落地。」
這是一個值得進一步探討的話題,端側大模型落地到底面臨哪些挑戰?會在哪些場景先落地?又會帶來怎樣的變化?
端側大模型到底是不是一場革命?
包括智能手機、城市中隨處可見的攝像頭幾年前已經經歷過一輪AI浪潮,藉助CNN、RNN等AI算法,手機能夠AI拍照、美顏,攝像頭也能識別車牌,統計人流等,雖然不夠完美,但已經廣泛應用。
端側大模型要帶來革命性的變革不僅要效果更好,而且可能要比傳統AI方案成本更低,目前業界都還處於探索階段,技術的變革並非一夜之間發生。
「我們做AI-ISP已經很多年,今年突然成為了爆款。」仇肖莘說,「傳統的ISP降噪、防抖功能是通過硬件模塊實現,AI-ISP用算法取代了這些模塊,但AI算法也只是將傳統ISP通路中20多個模塊中的幾個換成了AI算法。」
同樣的道理,端側大模型是否能帶來顛覆,以及何時會帶來顛覆,也還值得探討。
在談顛覆之前,端側大模型首先應該解決的是落地的問題。
殷俊認為,大模型在文本、語音等領域快速發展,但在視覺領域的落地卻面臨可靠性、穩定性、理解不夠全面等挑戰,真實準確描述客觀世界是視覺大模型落地的關鍵。
算力、內存和帶寬都是端側大模型落地最底層的挑戰。
「大模型在端側的落地,內存大小、帶寬的限制超過了算力限制。」仇肖莘進一步表示,「算力可以很大,但數據會成為瓶頸,芯片一定要和算法做聯合優化。」
業界也正在積極探索端側大模型落地內存和帶寬限制的問題,比如探索DDR用Wafer to Wafer的形式,實現1024個通道,解決帶寬和延遲的問題。又或者開發出能夠在端側使用的HBM,解決數據牆問題。
技術向前演進的同時應用的探索也在加速,仇肖莘認為汽車、手機、PC都將是率先落地端側大模型的場景。
這些場景無疑需要原生支持Transformer架構的處理器。
押中生成式AI,原生支持Transformer有10倍性能優勢
愛芯元智在世界人工智能大會2024上正式發佈了愛芯通元AI處理器,在高中低三檔算力中已完成布局,已經在智慧城市和輔助駕駛兩個領域實現了規模化量產,並且可以支持以文搜圖、通用檢測、以圖生文、AI Agent等通用大模型應用。
這是一個有趣的話題,愛芯通元混合精度NPU早在2021年就已經立項,2022年年中回片,並在年底向客戶銷售,三年前設計的芯片為什麼能原生支持Transformer?
愛芯元智聯合創始人、副總裁劉建偉介紹,愛芯元智NPU設計是AI處理器的設計思路,從一開始就考慮各種模型結構包括Transformer等模型的算子支持,愛芯通元AI處理器的核心是算子指令集和數據流微架構。底層採用可編程數據流的微架構提高能效和算力密度。同時,愛芯通元的靈活性也保證了算子指令集的完備性,支撐各種AI的應用。
還有愛芯通元成熟的軟件工具鏈可以讓開發者快速上手,也能夠快速實現對端側大模型的適配。
今年四月,愛芯元智就基於AX650N平台完成了Llama 3 8B和Phi-3-mini模型的適配。
愛芯通元V4(AX630C)也已經適配了通義千問0.5B、TinyLlama-1.1 1.1B模型的適配,Token速度也不錯。
「愛芯通元AI處理器現在最高支持7B參數的模型。」仇肖莘表示,「我們也注意到蘋果手機上的大模型是3B,落地邊緣側和端側模型的參數大小預計是3B-7B。」
如果模型的參數更大,帶來的是更智能,但也更考驗芯片和算法的聯合調優。
「模型的輕量化很重要,這時候混合精度就非常有價值。比如同樣是7B參數,如果用混合精度可以將計算和存儲的需求都降低,愛芯通元就支持混合精度。」仇肖莘指出。
得益於愛芯通元採用的DSA架構,相比英偉達GPGPU架構,在端側Transformer架構推理場景,愛芯通元AI處理器相比英偉達有10倍的性能優勢。
愛芯元智會基於這些優勢在哪些場景做探索?
手機和汽車兩大端側大模型落地場景
「從此前的單模態,到現在的多模態,AI檢測的效率、準確度都會更高,應用場景也會更多。」仇肖莘認為。
手機、PC和汽車無疑是當下端側大模型最適合落地的場景。
「我們已經接觸了很多手機廠商,以及手機芯片廠商,探討將我們的IP集成到他們SoC里的可能性。」仇肖莘透露。
另外智能手機現在想要快速實現對生成式AI的支持,可以在SoC之外增加一個協處理器,這樣做的劣勢是成本高,應該是一個臨時的解決方案。
「未來一定是在手機SoC中集成NPU,但要集成多大算力的NPU,能夠支持手機各種應用的同時成本又不太高,蘋果和國內手機廠商的探索都很重要。」仇肖莘說。
汽車的計算實時性需求,以及對智能化的需求,也讓汽車成為了落地端側大模型一個重要的市場。
如今汽車行業關注端到端,比如信號通過ISP之後是否可以通過黑盒子的大模型直接成像、出執行策略,通過大模型降低系統的複雜性,這都是端側大模型在汽車行業落地非常好的場景。
愛芯元智的AI芯片在2022年下半年就已經通過了車規,基於成熟的工具鏈很快就做出了demo通過Tire1提供給主機廠。
「我們的時機比較好,那時候國內缺性價比的智駕方案,加上國內的車企比較願意嘗試新方案,很快就拿到了定點。」仇肖莘認為,「目前汽車智能化是一個很好的市場,特別是10萬及以下級別汽車的法律法規市場,比如7月份歐盟要求汽車的主動安全變成強制標配,用於減少交通事故,國內主動安全帶動的裝配量也會快速增長。」
愛芯元智瞄準的是售價10萬以下汽車的L2、L2+智能駕駛場景,性價比就是關鍵。
愛芯元智降低成本的方法是將芯片平台化,也就是取不同應用場景需求的最大公約數設計芯片並平台化,用同一個平檯面向不同市場,通過大量出貨降低芯片成本。
仇肖莘指出,愛芯元智要做普惠AI,智慧城市是愛芯元智增長的第一曲線,第二曲線是智能駕駛,現在也在探索邊緣計算和具身智能。
從傳統CV算法到Transformer,從智慧城市到智能汽車再到未來的具身智能,愛芯元智不僅前瞻性的看準了算法演進的方向,還非常明確要做普惠AI以性價比立足市場,無論是技術路線還是戰略,愛芯元智顯然走在正確的道路上。雷峰網