AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

1631684464880_.pic.jpg

当地时间5月9日，Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind，包括视觉（图像和视频形式）、温度（红外图像）、文本、音频、深度信息、运动读数（由惯性测量单元或IMU产生）。目前，相关源代码已托管至GitHub。

何为横跨6种模态？

即以视觉为核心，ImageBind可做到6个模态之间任意的理解和转换。Meta展示了一些案例，如听到狗叫画出一只狗，同时给出对应的深度图和文字描述；如输入鸟的图像+海浪的声音，得到鸟在海边的图像。

相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样将文字与图像配对的图像生成器，ImageBind 更像是广撒网，可以连接文本、图像/视频、音频、3D 测量（深度）、温度数据（热）和运动数据（来自 IMU），而且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或者想象环境的方式。

640 (2).png

研究者表示 ImageBind 可以使用大规模视觉语言模型（如 CLIP）进行初始化，从而利用这些模型的丰富图像和文本表示。因此，ImageBind 只需要很少的训练就可以应用于各种不同的模态和任务。

ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分，从而实现从所有相关类型数据中学习。随着模态数量的增加，ImageBind 为研究人员打开了尝试开发全新整体性系统的闸门，例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式，即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。

640 (3).png