影眸科技吳迪:3D生成是「空間智能」的最後一塊拼圖丨36氪專訪

作者 | 耿宸斐

編輯 | 宋婉心

封面來源 | 企業供圖

不久前,3D大模型公司影眸科技完成了數千萬美元A輪融資。這一輪融資由美團龍珠、位元組跳動領投,老股東紅杉中國種子基金、奇績創壇連續跟投,光源資本擔任獨家財務顧問。

據影眸科技創始人吳迪介紹,本輪融資將主要用於影眸科技在3D大模型的前沿探索,並加速以3D生成大模型Rodin為核心的Hyper3D系列產品在全球市場的商業化落地。

2024年,資本及市場對AI的關注迅速從技術前沿進展轉向商業化收益。據了解,影眸科技推出的大模型Rodin自上線僅45天,年度經常性收入(ARR)就已突破100萬美元,成為當前AI創業公司中少有的商業化成功案例。

   圖:Rodin界面;圖片來源:企業供圖

Rodin的快速增長折射出3D生成市場的巨大潛力,尤其是隨着元宇宙、虛擬現實、具身智能等新興應用場景的迅猛發展,3D內容的需求量正迎來爆發。

綜合相關行業數據,遊戲和娛樂、影視和動畫、建築與房地產(AEC)、製造業與產品設計、電⼦商務與虛擬展示的3D建模外包市場TAM總規模高達149-335億美元。

然而,傳統的基於幾何建模的手工創作3D模型不僅耗時費力,還有着較高的技術門檻,極大地限制了3D內容生產的效率和規模。在此背景下,生成式AI工具被視作是提高3D生成效率,降低3D內容創作門檻的關鍵。

但問題在於,儘管AIGC的熱潮已席捲全球,目前,我們熟悉的大部分主流AIGC工具依然集中在圖像和視頻等2D內容的生成上,屬於3D生成的「ChatGPT」時刻尚未真正到來。

這背後的原因是,受限於技術,3D大模型的生成質量瓶頸尚未得到真正突破。

相較於圖像、視頻等形式,生產級的3D內容需要滿足更為複雜和更嚴格的標準。除了生成速度、質量,還要兼顧3D網格的結構和拓撲質量、UV圖結構以及紋理清晰度等。

吳迪坦言,雖然3D生成的質量已經被抬升到一個新的高度,目前的3D生成在材質可用性、拓撲結構、UV展開等方面還不能滿足實際應用的需求。這些技術方面的短板,已經成為3D生成行業前沿待攻克的重點問題。

這一背景下,全球範圍內,3D生成技術的迭代正加速推進。去年,影眸團隊與上海科技大學合作提出的「可控3D原生DiT生成框架CLAY」和「3D服裝生成框架DressCode」,顯著提升了3D生成的質量,被認為是新一代3D生成的基礎框架。

與此同時,海內外已經集中爆發了一批AI生成3D產品。

在海外,Meta推出文生3D模型Meta 3D Gen,可1秒生成3D素材;谷歌發佈基礎世界模型Genie2,根據一張圖片生成可供人類或AI智能體控制動作、可玩的3D環境;英偉達發佈Edify 3D,支持從文本提示或圖像直接生成4K級別的3D實體與場景。

在國內,除了影眸科技上線了AI 3D模型生成產品Rodin,騰訊也發佈了3D生成開源模型Hunyuan3D-1.0,可同時支持文字、圖像轉3D資產,最快10秒完成端到端生成。

可以說,全球3D大模型選手們都在暗中較量、默默發力,從a16z押注的Yellow、Kaedim、BackFlip,到李飛飛的World Labs,AI 3D生成的技術迭代正在加速逼近質變的臨界點。

不過,從市場層面看,3D生成現階段所輻射的用戶群體仍集中於遊戲、視頻製作、電商、工業設計等B端領域,C端市場的滲透率相對較低。

吳迪在和36氪的對談中對這一現象分析稱,與視頻、圖像以及音樂不同,3D資產現階段還無法輕鬆地通過社交媒體進行分享和傳播。

尤其是在當前以二維為主的設備環境下,普通用戶對3D資產的需求尚未成熟,消費場景也較為有限,這一現狀很大程度上影響了3D生成技術在C端市場的普及與推廣。

「但隨着3D打印、AR和VR等消費級產品的不斷發展和普及,3D生成有望在C端市場迎來爆髮式增長。」在吳迪看來,隨着技術的成熟,3D生成一定可以運用在越來越多的領域,甚至像文字、圖像和視頻一樣成為普通用戶日常創作和分享的一部分。

圖:影眸團隊在SIGGRAPH Real-time Live!環節展示Rodin 3D生成;圖源:企業供圖

 正是基於對商業化的洞察,影眸在研發階段便以落地為目標,比如公司專註的「生產就緒(Production-Ready)」標準。

這個標準指的是生成的3D模型可以直接適配後期製作管線,進入實際生產流程,從而將用戶的興趣轉化為真正的生產力工具,併產生實際商業價值。

「在更加遙遠的未來,當元宇宙、機械人成為生活中的一部分時,3D生成必然會迎來真正的爆發。」吳迪表示。

近期36氪和影眸科技創始人吳迪進行了對談,以下為採訪精編:

36氪:作為一家由高校孵化的企業,影眸的商業化進展很多都基於學術研發,可以簡單介紹一下嗎?

吳迪:影眸孵化於上海科技大學,2016年起就在三維建模領域進行研發。2024年,我們有兩篇和3D生成大模型相關的文章獲得SIGGRAPH最佳論文榮譽提名,兩次入選SIGGRAPH Real-time Live!,是該項目50年來首次入選的中國大陸團隊。

36氪:Rodin為什麼能做到上線僅45天就達到了100w美金ARR?

吳迪:主要得益於對市場的精準定位以及產品力。在研發和產品開發的過程中,我們始終把「Production- Ready」作為研發的核心指標,我們要做的就是可直接使用的技術的研發。而且,在研發的過程中,我們對比了所有技術路線,沒有選擇當時更被廣泛關注的「2D升維」的技術路徑,而是選擇了當時並不被看好的「3D原生」路線,即從該模型的訓練、監督、生成都在三維中進行。這雖然讓我們的產品比同行晚了半年發佈,但也讓我們產品的生成效果在當時的行業內實現了代差級的領先。

36氪:在技術路徑上,影眸並沒有跟隨大多數人去採用2D升維的技術路線,而是選擇3D原生,這背後的考量是什麼?

吳迪:2D升3D的路徑是當時行業內被普遍認同,也是用的最多的,因為從多視角的二維圖像來得到三維信息最符合大家直覺,同時大家普遍覺得三維資產不夠,需要用二維資產補足,但我們在最開始接觸目標客戶的時候,我們就發現他們其實不只是需要能生成3D模型,更重要的是這個3D模型的可用性要足夠好。

我們當時結合自己在圖形學領域數年的研究經驗,認識到當三維數據被壓縮到二維時,無論有多少視角,都無法完整表達物體三維結構中的每個細節,這會導致2D升3D的路徑很難達到客戶的使用標準,同時3D原生能保留更多信息,生成質量的上限會更高。

如果當時選擇了2D升維這條路的話,我們可能很快就能推出產品,但最後還是沒這樣做,Rodin Gen-1比別人晚發半年左右。

36氪:但其實很多企業都會擔心自己的產品發佈落後於同行,在做這個選擇的時候不會有顧慮嗎?

吳迪:這確實是一個「敢為天下后」的決定,但在當時我們幾乎沒有猶豫,因為我們堅定認為只有3D原生的技術路徑才能達到更接近商用的標準,我們在內部把他稱為「Production- Ready」,這也是影眸研發和開發產品的核心標準。要達到「Production- Ready」,除了建出模型,還在3D表達、拓撲、UV展開、材質等方面有更多要求。Rodin Gen-1雖然比其他產品發出的更晚,但它是最早跨過「可用性」那條標準線的3D大模型產品。當然即使我們現在這一代模型已經提升了質量上限,它與真正可以接入到流程還有距離。

36氪:這種差距具體表現在哪裡?

吳迪:由於在一些場景,比如遊戲中要使用一個模型,他會有很嚴格的要求,比如在剛說到的拓撲結構、UV展開還有一些絕對的細節量上,即使我們已經做的非常不錯,但仍舊會有距離。客戶在使用的過程中還是需要經過修改甚至是重新製作。

36氪:公司的收入分佈是怎樣的?

吳迪:我們有70%的收入來自海外,在美國、歐洲、日韓都有業務布局,其中歐美的份額佔比較大,佔大約50%以上。比如有一個來自德國的用戶,調用我們的API做了一個非常有吸引力的產品,這個產品甚至本身就超過了50萬美元的ARR。

36氪:影眸的核心客戶群體有哪些?

吳迪:目前還是集中在遊戲、視頻製作、電商這些泛娛樂、新消費場景。但3D生成也正在不斷地拓展使用邊界,像3D打印、具身智能、工業設計都是我們未來目標的的核心用戶群。 

36氪:有沒有具體的案例可以講一下?

吳迪:以我們與拓竹的合作為例,我們之間合作實際上是拓竹基於我們的技術開發出產品,然後將產品開放給客戶。在拓竹官方的printmo項目中,用戶僅需上傳一張圖片,AI就能把它轉換成寵物小精靈的風格,然後由我們的技術完成3D生成,再由用戶的3D打印機打印為實體。這也是我們在3D打印領域的第一次嘗試。

36氪:這些客戶的需求對於影眸在技術上的迭代有哪些影響?

吳迪:影眸的所有技術層面的迭代幾乎都是基於客戶需求的。比如說遊戲、視頻製作等領域需要的模型都是拓撲規整且合理、UV利用率高的模型,我們接下來的技術研發就會朝着這個目標前進。但當我們橫跨到工業設計等領域,需求就完全不同。所以從最長期的角度考慮,我們希望能夠找到一種一統天下的3D表達方式,可適配不同場景,對各種需求下的三維模型都能做到很好的轉換和適配。

2024年底,我們最新上線了Rodin Gen-1.5版本的模型,這次升級通過新一代3D原生表達,全面解決了行業內長期存在的薄面與邊緣銳度問題,讓生成的模型有更加銳利和平直的邊緣。這個需求在遊戲,尤其是產品設計領域中尤為重要。這次升級也讓我們的產品領先幅度再次擴大。

36氪:影眸如何看待3D生成的未來發展?

吳迪:在未來3D生成還有很大的可供挖掘的空間。要實現在AR/VR/虛擬世界中的個人創作,就要解放用戶的3D內容創作能力。作為構建在三維空間中的世界,未來機器對世界的理解也必然基於三維。3D生成會實現空間智能的最重要組成部分。

關注獲取更多資訊

分享到Facebook
技術平台: Nasthon Systems