北京智造宇宙有限责任公司

Meta联手牛津大学研究员开发VFusion3D大模型，可改变VR、游戏等领域

2024-08-12T07:07:02.449789180Z

Meta和牛津大学的研究人员开发了一种强大的人工智能模型，能够根据单个图像或文本描述生成高质量的3D对象。

Meta

该系统名为VFusion3D，是朝着可扩展3D AI迈出的重要一步，可以改变VR、游戏和数字设计等领域。

Junlin Han、Filippos Kokkinos和Philip Torr领导的研究团队解决了人工智能领域一个长期存在的挑战——与大量在线2D图像和文本相比，3D训练数据非常稀缺。他们的新方法利用预训练的视频AI模型来生成合成3D数据，使他们能够训练更强大的3D生成系统。

Meta

研究人员在论文中解释道：“开发基础3D生成模型的主要障碍是3D数据的有限可用性。”

为了克服这个问题，他们对现有的视频AI模型进行了微调，以产生多视角视频序列，本质上是教会它从多个角度想象物体。然后，使用合成数据来训练VFusion3D。

结果确实令人印象深刻。在测试中，与之前最先进的系统相比，人类评估者在90%以上的时间里更喜欢VFusion3D的3D重建。该模型可以在几秒钟内从单个图像生成3D Asset。

Meta

最令人兴奋的可能是这种方法的可伸缩性。随着更强大的视频AI模型的开发，以及更多可用于微调的3D数据，研究人员预计VFusion3D的能力将继续快速提高。

这一突破最终可能会加速依赖3D内容的行业创新。游戏开发者可能会用它来快速创建角色和环境原型。建筑师和产品设计师可以快速将概念可视化。VR/AR应用可能会借助AI生成的3D Asset变得更加身临其境。

Meta

尽管该技术功能强大，但并非没有限制。研究人员指出，该系统有时难以识别车辆和文本等特定对象类型。他们认为，视频AI模型的未来发展可能有助于解决这些缺点。

随着人工智能不断重塑创意产业，Meta的VFusion3D展示了巧妙的数据生成方法如何开启机器学习的新领域。经过进一步改进，这项技术可以为全球设计师、开发人员和艺术家提供强大的3D创作工具。

详细介绍VFusion3D的研究论文已被2024年欧洲计算机视觉会议（ECCV）接受，其代码也已在GitHub上公开提供，允许其他研究人员可以在此基础上继续研究。随着这项技术的不断发展，它有望重新定义3D内容创作的边界，有可能改变行业并开辟新的创意表达领域。

【文章来源:87870，转载须注明来源及链接，否则将追究其法律责任！】