老兵不死！百度开源BEVWorld：BEV潜在空间构建多模态世界模型，全面理解自动驾驶~

时间：2026-03-13 11:56:45

最佳回答

BEVWorld是百度提出的一种通过统一BEV潜在空间构建多模态世界模型的创新方法，旨在全面理解自动驾驶环境，在自监督学习范式下高效处理未标注多模态传感器数据，并在下游自动驾驶任务和多模态未来预测中表现出色。方法概述BEVWorld主要由两部分组成：多模态tokenizer和潜在BEV序列扩散模型。多模态tokenizer多模态tokenizer的核心功能是将原始多模态传感器数据压缩成一个统一的BEV潜在空间，具体实现步骤如下：BEV编码器网络：采用Swin-Transformer作为图像骨干网络，提取多视图图像特征。将点云分割成BEV空间上的支柱（Pillars），并使用Swin-Transformer作为LiDAR骨干网络，提取LiDAR BEV特征。利用基于可变形注意力的机制融合LiDAR BEV特征和图像特征。BEV解码器网络：由于直接从BEV特征恢复图像和LiDAR存在高度信息缺失问题，BEV解码器首先将BEV标记转换为3D体素特征。然后使用基于体素的NeRF渲染技术恢复多视图图像和LiDAR点云。多模态渲染网络：分为图像重建网络和LiDAR重建网络。图像重建通过沿射线路径采样点并聚合特征描述符，最后通过CNN解码器生成RGB图像。LiDAR重建则通过计算采样点的期望深度来模拟LiDAR观测。潜在BEV序列扩散模型潜在BEV序列扩散模型旨在预测未来帧的图像和点云，避免自回归方法的累积误差问题，具体实现步骤如下：模型结构：采用基于空间-时间变换器的扩散方法，将顺序的噪声BEV标记转换为基于动作条件的干净未来BEV预测。训练过程：以历史BEV标记和当前BEV标记为条件，学习添加到未来BEV标记中的噪声。测试过程：使用DDIM调度器从纯噪声中恢复未来BEV标记，并通过多模态tokenizer的解码器渲染出未来的多传感器数据。实验与结果数据集实验在nuScenes和Carla两个数据集上进行：nuScenes：包含多视图图像和LiDAR扫描的多模态自动驾驶数据集，包含700个训练视频和150个验证视频。Carla：开源自动驾驶模拟器，包含多种天气和城镇环境，实验中收集了300万帧数据进行训练。多模态tokenizer评估通过消融研究评估不同设计决策对多模态tokenizer的影响：不同模态的影响：结合LiDAR和多视图相机模态获得最佳重建性能。渲染方法的影响：基于射线的采样方法在多视图重建中表现更好。tokenizer下游任务验证在3D检测和运动预测任务上验证BEVWorld的有效性：3D检测：在nuScenes 3D检测基准上，使用tokenizer编码器作为预训练模型显著提升性能。运动预测：在检测头基础上添加运动预测头，实现准确轨迹预测。潜在BEV序列扩散模型评估介绍了潜在BEV序列扩散模型的训练细节，并与现有方法比较：LiDAR预测质量：在nuScenes和Carla数据集上取得了与现有方法相当或更好的结果。视频生成质量：在无额外条件情况下取得与使用手动标注条件方法相当或更好的结果。BevWorld 还可以根据Action指令进行相应的生成控制。结论与展望本文提出的BEVWorld框架通过统一的BEV潜在空间构建多模态世界模型，能够在自监督学习范式下高效处理未标注多模态传感器数据，实现对驾驶环境的全面理解。实验结果表明，BEVWorld在下游自动驾驶任务中表现出色，并在多模态未来预测中取得满意结果。然而，该工作仍存在一些局限性，如扩散模型推断过程缓慢且计算成本高，动态对象生成图像模糊等。未来研究可探索一步扩散方法提高效率，并引入专门针对动态对象的模块提升生成质量。总之，BEVWorld为自动驾驶领域中的世界模型构建提供了新视角和方法，有望促进自动驾驶技术的进一步发展。

时间：2026-03-13 11:56:51

本类最有帮助

网问答为提供知识和解答各类疑难的平台,目标是做到有问必答解决您遇到的各类问题.本站内容均为网友发表,并不代表本站立场!

投诉邮箱：