Meta和牛津大学的研究人员开发了一种强大的人工智能模型,能够根据单个图像或文本描述生成高质量的3D对象。

该系统名为VFusion3D,是朝着可扩展3D AI迈出的重要一步,可以改变VR、游戏和数字设计等领域。
Junlin Han、Filippos Kokkinos和Philip Torr领导的研究团队解决了人工智能领域一个长期存在的挑战——与大量在线2D图像和文本相比,3D训练数据非常稀缺。他们的新方法利用预训练的视频AI模型来生成合成3D数据,使他们能够训练更强大的3D生成系统。

研究人员在论文中解释道:“开发基础3D生成模型的主要障碍是3D数据的有限可用性。”
为了克服这个问题,他们对现有的视频AI模型进行了微调,以产生多视角视频序列,本质上是教会它从多个角度想象物体。然后,使用合成数据来训练VFusion3D。
结果确实令人印象深刻。在测试中,与之前最先进的系统相比,人类评估者在90%以上的时间里更喜欢VFusion3D的3D重建。该模型可以在几秒钟内从单个图像生成3D Asset。

最令人兴奋的可能是这种方法的可伸缩性。随着更强大的视频AI模型的开发,以及更多可用于微调的3D数据,研究人员预计VFusion3D的能力将继续快速提高。
这一突破最终可能会加速依赖3D内容的行业创新。游戏开发者可能会用它来快速创建角色和环境原型。建筑师和产品设计师可以快速将概念可视化。VR/AR应用可能会借助AI生成的3D Asset变得更加身临其境。

尽管该技术功能强大,但并非没有限制。研究人员指出,该系统有时难以识别车辆和文本等特定对象类型。他们认为,视频AI模型的未来发展可能有助于解决这些缺点。
随着人工智能不断重塑创意产业,Meta的VFusion3D展示了巧妙的数据生成方法如何开启机器学习的新领域。经过进一步改进,这项技术可以为全球设计师、开发人员和艺术家提供强大的3D创作工具。
详细介绍VFusion3D的研究论文已被2024年欧洲计算机视觉会议(ECCV)接受,其代码也已在GitHub上公开提供,允许其他研究人员可以在此基础上继续研究。随着这项技术的不断发展,它有望重新定义3D内容创作的边界,有可能改变行业并开辟新的创意表达领域。
【文章来源:87870,转载须注明来源及链接,否则将追究其法律责任!】