李飞飞与World Labs的3D AI革命：从单图到沉浸式3D世界的跨越

测试搬砖人。。偶像都是颜狗 2024-12-04 15:06

12 月 3 日，在人工智能领域，World Labs首席执行官李飞飞博士突然宣布了一项突破性进展：一个能够从单张图像生成完整3D世界的AI系统。这一系统的核心在于其生成的3D世界不仅具有交互性，而且遵循基本的物理几何规则。

图片来源于：量子位

▍3D世界生成：从图像到沉浸式体验

World Labs的AI系统通过单张输入图像生成一个完全交互式的3D世界，支持摄像机移动、深景控制、光影调整及物体插入等操作。与传统AI模型着眼于像素预测不同，这套系统直接预测并生成3D几何结构。这意味着场景在用户改变视角或重新审视时依然保持一致，解决了以往模型缺乏持久性和稳定性的缺陷。

用户可以通过浏览器实时探索生成的3D场景，如同玩游戏般直观自由。从浅景深到希区柯克变焦等专业摄像效果，该技术将摄影级别的操作融入生成式AI系统，显著提升了交互体验。此外，系统还能动态调整光照、修改物体形状及插入新对象，为创作者提供了前所未有的工具。目前不足在于交互的边界范围很窄，活动范围还不够。

图片来源于World Labs X官方

▍技术亮点：

l 实时浏览器渲染：用户可以直接在浏览器中探索生成的3D场景，实现类似电子游戏的自由视角控制。

l 专业摄影效果：支持浅景深、摇镜头变焦等3D摄像机效果。

l 深度感知：通过深度图技术，精确呈现场景中物体与摄像机的距离关系。

l 场景交互：支持改变光照、修改几何形状，以及插入新对象等功能。

l 创意整合：与文本生成图片等AI工具结合，支持艺术创作和工作流优化。

此外，之前大多数生成模型预测的是像素，而这个AI系统直接预测3D场景。所以场景在你移开视线再回来时不会发生变化。官方则表示“这仅仅是3D原生生成AI未来的一个缩影”：“我们正在努力尽快将这项技术交到用户手中！”

图片来源于World Labs X官方

▍从隐身到聚焦：World Labs的发展路径

World Labs成立于2024年1月，是李飞飞首次创业创立的空间智能公司，专注于构建“大世界模型”（LWM）来感知、生成3D世界并与之交互。公司在2024年9月正式结束隐身状态，并宣布过去两轮融资共筹得2.3亿美元，估值达10亿美元，投资方包括a16z、英伟达、领英创始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。预计公司将在2025年推出首款产品，从世界模型的生成开始逐步支持AR技术、机器人技术及自动驾驶等领域。