![]()
據9to5Mac報道,蘋果機器學習團隊與南京大學、香港科技大學的研究人員合作發佈了一款非常有意思的 3D AI 模型,名為Matrix3D。據悉,這款大型攝影測量模型能夠僅憑几張二維照片重建三維物體和場景,這與當前的流程有很大不同。

首先要說的是攝影測量技術。它利用照片進行測量,從而創建 3D 模型或地圖。目前,該過程涉及使用不同的模型進行姿態估計和深度預測等步驟,這可能導致效率低下和錯誤。
但 Matrix3D 通過一次性完成所有操作簡化了這一過程。它接收圖像、相機參數(例如角度和焦距)和深度數據,並使用統一的架構進行處理。這不僅簡化了工作流程,還提高了準確性。

更有意思的是該模型的訓練方式。研究人員使用了一種掩蔽學習策略,與早期基於 Transformer 的 AI 系統非常相似,這些系統為 ChatGPT 的初始版本鋪平了道路。
他們在訓練過程中隨機隱藏了部分輸入數據,這迫使 Matrix3D 不得不學習如何填補這些空白。這項技術至關重要,因為它使 Matrix3D 即使在較小或不完整的數據集上也能有效地進行訓練。
結果非常驚人 —— 只需三張輸入圖像,Matrix3D 就能生成物體、甚至整個環境的詳細 3D 重建,這顯然可以為 Apple Vision Pro 等沉浸式頭顯帶來非常有趣的應用。

研究人員在GitHub上公開了 Matrix3D 的源代碼,並在arXiv上發表了他們的論文。他們還創建了一個網站,用戶可以在其中觀看更多示例視頻,甚至可以與一些物體和環境的點雲重建進行交互。
(舉報)