理想MindVLA:自动驾驶的革命性突破,理想MindVLA:重塑自动驾驶技术格局

本文围绕理想汽车在NVIDIA GTC 2025上分享的下一代自动驾驶技术MindVLA展开,详细介绍了其技术架构创新、六大关键技术以及为用户体验带来的提升,探讨了该技术在不同领域的重要意义。

理想MindVLA:自动驾驶的革命性突破,理想MindVLA:重塑自动驾驶技术格局

在3月18日举办的NVIDIA GTC 2025活动中,理想汽车自动驾驶技术研发负责人贾鹏发表了主题演讲。在这次演讲里,他着重分享了理想汽车针对下一代自动驾驶技术MindVLA的最新思考与进展情况。

技术架构创新

MindVLA属于机器人大模型,它出色地整合了空间智能、语言智能以及行为智能。基于端到端 + VLM双系统架构的最佳实践经验,再加上对前沿技术的敏锐洞察力,理想汽车自主研发出了VLA模型——MindVLA。VLA代表着机器人大模型的全新范式,它能够赋予自动驾驶强大的3D空间理解能力、逻辑推理能力以及行为生成能力,让自动驾驶系统可以感知环境、思考应对策略并适应各种复杂环境。

MindVLA并非简单地将端到端模型和VLM模型进行结合,其所有模块均是全新设计。3D空间编码器借助语言模型,与逻辑推理深度融合后,能够给出合理的驾驶决策,并且输出一组Action Token(动作词元)。这里的Action Token是对周围环境和自车驾驶行为的编码,随后通过Diffusion(扩散模型)进一步优化,从而得出最佳的驾驶轨迹。整个推理过程都在车端进行,并且要实现实时运行。

六大关键技术

  1. MindVLA打破了自动驾驶技术框架设计的传统模式,采用了3D高斯(3D Gaussian)这一中间表征。3D高斯能够承载丰富的语义信息,具备出色的多粒度、多尺度3D几何表达能力。通过充分利用海量数据进行自监督训练,极大地提升了下游任务的性能。

  2. 理想汽车从0开始设计并训练了适合MindVLA的LLM基座模型。该模型采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现了模型的稀疏化。这样在保证模型规模不断增长的同时,不会降低端侧的推理效率。在基座模型的训练过程中,理想汽车加入了大量3D数据,使模型具备了3D空间理解和推理能力。为了进一步激发模型的空间智能,还加入了未来帧的预测生成和稠密深度的预测等训练任务。

  3. LLM基座模型在获得3D空间智能后,还需要进一步提升逻辑推理能力。理想汽车通过训练LLM基座模型学习人类的思考过程,让快慢思考有机地结合在同一模型中,并且可以实现自主切换快思考和慢思考。为了充分发挥NVIDIA Drive AGX的性能,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度,实现了模型参数规模与实时推理性能之间的平衡。

  4. MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升了在复杂交通环境中的博弈能力。同时,Diffusion可以根据外部条件,例如风格指令,动态调整生成结果。为了解决Diffusion模型效率低的问题,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2 – 3步就能完成高质量轨迹的生成。面对部分长尾场景,理想汽车建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升了安全下限。

  5. MindVLA基于自研的重建 + 生成云端统一世界模型,深度融合了重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建出接近真实世界的仿真环境。凭借世界模型的技术积累与充足计算资源的支撑,MindVLA实现了基于仿真环境的大规模闭环强化学习,也就是真正意义上的从“错误中学习”。在过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作是将3D GS的训练速度提升至7倍以上。

  6. 理想汽车通过创新性的预训练和后训练方法,让MindVLA实现了卓越的泛化能力和涌现特性。它不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。

用户体验提升

理想MindVLA:自动驾驶的革命性突破,理想MindVLA:重塑自动驾驶技术格局

MindVLA将为用户带来全新的产品形态和产品体验,配备MindVLA的汽车就像是一位听得懂、看得见、找得到的专职司机。

“听得懂”意味着用户可以通过语音指令改变车辆的路线和行为。例如,当用户在陌生园区寻找超市时,只需通过理想同学对车辆说:“带我去找超市”,车辆就能在没有导航信息的情况下,自主漫游找到目的地。在车辆行驶过程中,用户还能跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。

“看得见”是指MindVLA具备强大的通识能力,它不仅能够识别星巴克、肯德基等不同的商店招牌。当用户在陌生地点找不到车辆时,拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆就能搜寻照片中的位置,并自动找到用户。

“找得到”表示车辆可以自主地在地库、园区和公共道路上漫游。典型的应用场景是,当用户在商场地库找不到车位时,跟车辆说:“去找个车位停好”,车辆就会利用强大的空间推理能力自主寻找车位。即便遇到死胡同,车辆也能自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依靠MindVLA的空间理解和逻辑推理能力。

总结来说,对于用户而言,有MindVLA赋能的车不再只是一个简单的驾驶工具,而是一个能够与用户沟通、理解用户意图的智能体;对于汽车行业而言,如同iPhone 4重新定义了手机,MindVLA也将重新定义自动驾驶;对于人工智能领域而言,汽车作为物理人工智能的最佳载体,未来探索出物理世界和数字世界结合的范式,将有望赋能多个行业协同发展。

本文详细介绍了理想汽车下一代自动驾驶技术MindVLA,包括其技术架构创新、六大关键技术以及为用户带来的全新体验。MindVLA在技术上有诸多突破,实现了模型性能与推理速度的平衡,提升了安全下限和泛化能力。它将为用户提供更智能的驾驶体验,有望重新定义自动驾驶,还可能推动人工智能与多个行业的协同发展。

原创文章,作者:Stev,如若转载,请注明出处:https://www.lingtongdata.com/320.html

(0)
StevStev
上一篇 2025年3月18日
下一篇 2025年3月18日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注