Waymo利用谷歌Gemini模型开发端到端自动驾驶技术

第一电动 2024-10-31 15:23

10月31日，自动驾驶公司Waymo宣布开发出一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型EMMA，用于其机器人出租车。EMMA模型能够处理传感器数据，生成自动驾驶车辆的未来轨迹，帮助无人驾驶车辆做出决策。

Waymo的研究论文指出，传统的自动驾驶系统存在可扩展性问题，主要是由于模块间的误差积累和通信有限。而MLLM如Gemini可以提供丰富的“世界知识”，并通过链式推理展现出卓越的推理能力，模仿人类的思维方式。Waymo表示，EMMA模型在帮助机器人出租车应对复杂环境方面表现良好，如遇到各种动物或道路施工时，能够帮助无人驾驶汽车找到合适的行驶路线。

然而，EMMA模型也有局限性，如无法整合来自激光雷达或雷达的3D传感器输入，Waymo表示这是因为计算开销太高，并且一次只能处理少量图像帧。此外，MLLM存在“幻觉”的风险，无人驾驶汽车的容错率非常有限，因此在这些模型能够大规模部署之前，还需要进行更多研究。