編輯|李然
因為有了AI,Meta的元宇宙夢不死!
Meta 3D Gen
Meta推出了一種名為Meta 3D Gen的端到端3D素材生成模型,可以在不到一分鐘的時間內根據文本描述創建高質量的3D素材。
圖源:X(@AIatMeta)
Meta 3D Gen結合了Meta的兩個現有模型:用於生成 3D 網格素材的AssetGen和用於精細紋理化的 TextureGen。 Meta 表示,這種集成可以為沉浸式內容帶來更高質量的3D生成。
Meta 3D Gen
據Meta稱,3D Gen在速度和質量方面都超過了領先的行業解決方案。技術報告中稱,專業3D藝術家在大多數類別中對該工具的評分都好於競爭對手,特別是對於複雜的請求。Meta表示,**它的速度是同類系統的3到60倍。**
Meta 3D Gen
VR行業發展速度不及預期,其中一個最重要的原因就是創建內容的成本過高,很難吸引內容創作者為元宇宙創建素材。而且人工創建的VR 3D素材質量因為硬件性能等各種因素的限制,相比平面素材過於「簡陋」,使得用戶的沉浸感不足。
和現有的業界產品(Meshy、Tripo等)相比,Meta的Gen 3D生成的效果確實要好上不少,而且用時還是最少的。圖源:Meta論文
而如果用戶能夠非常方便且高效地創造3D素材,至少將能大大改善VR內容缺乏的問題。如果素材的質量再能得到進一步的提高,生成的虛擬現實世界真的能夠達到以假亂真的地步。在Gen AI的加持之下,也許VR中的虛擬世界未來要成為第一個AI生成比例大於人工生成的領域。
Meta 3D Gen
也許小扎的VR夢,在AI的加持下,就真的要成了。
圖源:X(@KaladinFree)
網友驚呼:這個技術對於VR以及Meta自身的發展策略來說太重要了。Meta可能是除了英偉達以外AI發展最大的贏家!
圖源:X(@sonieashan)
從文本到3D,是怎樣煉成的?
從文本提示詞生成3D素材的模型,在 3D 圖形、動畫、遊戲和 AR/VR 等領域都具有巨大的發揮潛力。
雖然在文生圖和文生視頻模型領域,已經取得了世界矚目的進展(例如MidJourney、Sora、Runway等等),但在3D 生成模型領域,以往的模型質量仍然不足以用於專業用途。
**以往3D生成模型有很多缺陷,比如生成速度慢,生成的3D網格和紋理中存在偽影。此外,以往的很多模型仍然將物體外觀渲染為固有的顏色,忽略了 3D 物體的顏色應該隨着環境光的變化而變化**。特別是對於反光材料,當把它們放置在新環境中時,它們會顯得格格不入。
而Meta的3D Gen 能在不到 30 秒內生成3D素材,相比於以往具有同等速度的模型,在保真度、生成的 3D 網格質量、特別是材料的質量和控制等方面,表現更好。
Meta 3D Gen
3D Gen是如何做到如此栩栩如生的3D素材生成的呢?
3D Gen 採用了兩階段的方法,結合了兩個組件,第一階段使用AssetGen組件,第二階段使用TextureGen組件。
第一階段:從文本到圖像
這一階段的目標是,從文本生成有着色和陰影的圖像,從四個標準視角,生成這些角度的4張視圖。為此,Meta團隊使用了一個經過預訓練的文生圖的擴散模型,該模型在數十億張帶標籤的圖像上進行訓練。
第一階段的推理時間約為 30 秒。
左為其他模型效果,右為3D Gen模型效果。圖源:Meta論文
和其他3D素材生成模型相比,Meta的AssetGen的細節,光照的效果都明顯要豐富和真實得多。
左為其他模型效果,右為3D Gen模型效果。圖源:Meta論文
值得一提的是,Meta團隊使用的這個文生圖模型,其架構與國內智源研究院的「悟道3.0」Emu開源多模態模型類似。
第二階段:從圖像到3D
根據第一階段生成的 3D 素材和最初的文本提示詞,**對第一階段的素材進行紋理細化或者重新着色,來生成更高質量的紋理和 PBR(physically based rendering,基於物理的渲染)圖**。這一階段使用了Meta團隊的從文本到紋理( text-to-texture)的生成模型 3D TextureGen。
第二階段推理時間約為 20 秒。
相比業內其他技術,Meta的TextureGen生成的紋理質量非常高。圖源:Meta論文
通過構建 AssetGen 和 TextureGen兩個組件,3D Gen模型將3D物體的三種高度互補的表現方式結合起來:視覺空間(圖像)、體積空間(3D 形狀和外觀)以及 UV 空間(紋理與質地)。
與許多最先進的解決方案不同,AssetGen 和 TextureGen 都是前饋生成器,因此在部署后既快速又高效。
下圖顯示了 3D Gen 從第一階段到第二階段處理后的效果對比。第二階段后通常具有更高的視覺美學,看起來更逼真,並且在高頻顏色區有更多細節。
△第一階段效果。圖源:Meta論文
△第二階段處理后的效果。圖源:Meta論文
Meta團隊將3D Gen與其他文生3D模型同行們(Meshy v3、Tripo等)進行了比較。Meta表示,競爭對手們在簡單物體上做得很好,但更複雜的物體組合和場景就有挑戰了,而且展現高頻區細節與暴露視覺偽影之間總是難以平衡。
3D Gen還可以在同一形狀的物體上,進行不同的着色。在第一階段生成的 3D 網格,然後傳遞到第二階段,只要使用不同的提示詞,就能創建具有相同形狀但外觀不同的新素材。除了實現語義編輯並執行全局和局部修改之外,3D Gen 還可以成功地模仿不同的材料和藝術風格。
在同一形狀的物體上,進行不同的着色
除了對物體本身進行不同着色,3D Gen還能調整整體場景的風格。通過對物體層面的提示詞進行加強,加上風格信息,就能將整個場景的風格進行調整,效果很協調。
在下圖中,3D Gen就對同樣的物體,進行不同風格的場景渲染,有針織玩偶、恐怖電影、水下世界、像素藝術、聖誕節等風格。
調整整體場景的風格
90后研發團隊
Gen 3D的研發團隊也非常年輕,基本都是由90后組成。
**Raphael Bensadoun**
Raphael Bensadoun
他畢業於特拉維夫大學,之後在兩家小公司有過時間不長的工作經歷,之後來到Meta成為了AI研究人員。
Raphael Bensadoun
**Tom Monnier**
Tom Monnier
他畢業於法國最好的工程師大學,然後在Tinyclues和Adobe工作了一段時間之後,進入Meta擔任研究科學家。
Tom Monnier
**Filippos Kokkinos**
Filippos Kokkinos
他是Meta GenAI的研究科學家,此前曾在Facebook AI Research(FAIR)工作。他的研究以生成性深度學習為中心,特別關注視頻和從文本、圖像和視頻生成3D的技術。在加入Meta之前他曾經在華為等公司實習過。
他博士畢業於倫敦大學學院。
Filippos Kokkinos
Meta的3D Gen的潛在應用是巨大的。遊戲開發人員可以用3D Gen快速製作遊戲環境和角色原型,建築可視化公司則只需要文本描述,就能生成建築物整體和內部的詳細 3D 模型,簡化設計流程。在VR/MR領域,3D Gen 可以快速創建沉浸式環境和物體,加速元宇宙應用程序的開發。AI的未來將會進一步加速。