混元模型|腾讯新模型 图像秒变3D影片

原文刊于信报财经新闻「CEO AI⎹ EJ Tech

腾讯(00700)混元团队日前发布开源模型HunyuanWorld-Voyager,容许用户使用单张图片,生成完整3D世界影片,省去大量后续处理工作。程式码与模型权重完整开源,在代码托管平台GitHub及AI开发者平台Hugging Face提供下载。官方建议配置为内存80GB以上的图像处理器(GPU)。

腾讯混元团队发布开源模型HunyuanWorld-Voyager,容许用户使用单张图片,生成完整3D世界影片。(GitHub影片撷图)

研究人员以「几何注入条件」机制,将深度资讯与画面生成紧密结合,降低场景失真与幻觉问题;又设计了「世界快取」机制,持续累积点云(Point Cloud)座标资讯,协助模型记忆场景结构。团队还建立一条自动化数据管线,从各类影片撷取相机位置与深度资讯,省却人手标注工序,借此建构逾10万段影片的训练资料集。

Voyager各项评分均列三甲

在WorldScore测试中,HunyuanWorld-Voyager以77.62分排名首位,超越多款全球领先模型,每项指标都取得头三名成绩,包括相机控制、物体控制、内容对齐、3D结构一致性等。不过模型输出的结果,仍限于导览影片与点云数据,后者虽有助于转制3D建模,但模型尚无法直接生成网格(Mesh)或贴图(Texture)。

分享到Facebook
技术平台: Nasthon Systems