tag 标签: 场景

相关博文
  • 2025-3-28 10:17
    31 次阅读|
    0 个评论
    多模态自动驾驶混合渲染HRMAD:将NeRF和3DGS进行感知验证和端到端AD测试
    基于 3DGS 和 NeRF 的 三维重建技术 在过去的一年中取得了快速的进步,动态模型也变得越来越普遍,然而这些模型仅限于处理 原始轨迹域内的对象。 HRMAD 作为一种混合方案,将传统的基于网格的动态三维神经重建和物理渲染优势结合,支持在任意位置部署网格动态代理,自由调整环境条件,在多个相机视角下进行自由切换,与传统仿真方法相比有效 减少了领域差距, 同时 保留了可控性。 一、方法描述 HRMAD提出的 NeRF2GS双模型训练范式 显著提升了 合成质量 ,尤其是道路和车道标志,同时满足交互式帧率。通过此块级并行训练架构,可以处理 超过10万平方米场景重建 ,并同步传输出分割掩膜/法线图/深度图。通过物理光栅化/光线追踪渲染后端,HRMAD支持多个相机模型、LiDAR和Radar的 实时多模态输出 。如图1所示的模型架构。 图1 具体而言,HRMAD基于RGB相机、GNSS和LiDAR的同步数据进行模型训练。该方案结合了 NeRF优秀的泛化能力 和 3DGS实时的渲染速度 ,通过T-S结构,将NeRF生成的深度、法线和外观监督信息传递给3DGS模型,并通过正则化将LiDAR深度数据引入NeRF,从而实现更准确的 几何结构建模 。 传统基于透视投影的渲染方法通常依赖于特定的投影模型,为了在3DGS场景中 适配任意传感器 ,HRMAD提出了一种 新的渲染算法架构 ,如下图2所示。 图2 该架构基于 共享代码库 实现了光栅化和光线追踪渲染,用于计算高斯沿射线的贡献。这样不仅能够在三维重建场景中支持 任意相机畸变模型 ,还能够减轻LiDAR仿真中伪影的产生。图3展示了在aiSim中采用HRMAD渲染场景并配置LiDAR后, 点云的可视化效果 。 图3 图4表明HRMAD在 极端视角 下RGB、深度、法线和分割(基于Mask2Former)模态下的几何细节和表面特性,重建面积约为165000平方米(ZalaZone测试场,此重建场景将于 aiSim5.7 版本进行发布)。 图4 二、下游任务验证 1、重建质量验证 由于HRMAD采用的是 基于双边网格的色彩校正方法 ,传统的PSNR指标不再适用,而SSIM和LPIPS指标对 结果相似性 更为敏感,但从结果上看,这两个指标仍然受到 ISP解耦 导致的RAW与重建图像之间 色彩失配 的影响。这一影响体现在了评估结果中,如表1,表中对比了原始3DGS和TCLC-GS在 6个Waymo场景 上的指标表现。 表1 2、语义分割验证 在语义分割上分别从 三个角度 评估模型性能, 首先 通过统计所有像素中 语义分类一致 的比例,反映 全局重建一致性 。 通过 Mask2Former 获取真实图像上计算的分割Mask,并与HRMAD-NeRF(Teacher)和HRMAD-NeRF(Student)渲染得到的分割Mask进行比较,验证 重建的准确性 。同时为了降低道路、天空等易分割区域对整体结果的偏差影响,针对" Car "进行 单独IoU计算 。 为确保验证过程的公平性,真实图像被 重投影 至与渲染过程一致的无畸变针孔相机参数空间,当重建结果正确标注了远距离或被遮挡物体,而Mask2Former因输入信息有限导致 误判 时,此类误差会被 计入评估指标 。同时在夜间拍摄场景和相机直对太阳的场景中(如场景11037651和14663356), 掩膜一致性 显著下降。结果如表2所示。 表2 其次 在 非常规视角 下进行模型渲染,并基于Mask2former生成的Mask与模型预测Mask进行比较。此渲染视角沿自车轨迹生成,并在 米范围内平移前视相机仿真模型。 表3 展示了针对道路表面信息和车辆的 重建性能 。其中 Car类型 的重建性能相对较低,这是由于 Mask2Frame 无法检测远处或被遮挡的物体,从而扩大了差异。 图5 显了示相关结果,绿色为匹配区域,蓝色和橙色分别表示模型预测Mask和Mask2Former的Mask输出。 表3 图5 最后在 极端渲染视角 下(高5m,横向偏移2m,向下偏转25°),针对车道线和路沿语义分割结果进行了 定性评估 ,如图6所示。 图6 3、3D目标检测验证 为了验证HRMAD在 3D目标检测 上的 一致性 ,采用在Waymo Open数据集训练中公开的 DEVIANT 3D目标检测模型 ,进行定量和定性实验。 定量实验 中,在Waymo-13469905891836363794片段中从 横向偏移视角下进行验证,并通过平移变换后的3DBBox定量计算。 定性实验 选取三个驾驶片段进行 静态环境渲染 ,并基于网格渲染添加动态车辆,主要用于评估仿真生成的车辆是否引入了 领域差距 。 表4基于 Waymo指标 进行验证,Original为原始图像。特别在近距离下,HRMAD的表现性能要优于原始图像,这是由于原始图像中 假阳FP 数量更高。在非常规视角渲染下,观察到的差异主要是横向偏移视角下 目标截断 的数量增加,但 整体检测结果 在很大程度上 保持一致。 表4 图7为 DEVIANT模型 在HRMAD渲染Waymo场景中的表现。 图7 三、结语 虽然 HRMAD渲染方法 旨在最大程度减少 区块边界的不连续性 ,但仍不可避免地会产生可见的 伪影 ,特别是在天空和远距离目标区域中。比如天空的RGB重建效果良好,但在自动驾驶仿真测试场景中,在非常规视角下仍然会导致 伪影和结构痕迹 。 在下游任务中,HRMAD针对自动驾驶场景的评估结果已 非常接近真实数据, 但由于 样本有限 ,仍需要更大规模的数据集进行进一步验证。未来的研究也会致力于进一步缩小重建场景和真实数据之间的领域差距,具体来说,可以通过探索 层次化高斯泼溅 来减少区块伪影,并利用生成的法线信息改进LiDAR强度模拟,来更好地反应 点云数据 的方向敏感强度。
  • 2025-3-26 16:12
    0 个评论
    多模态自动驾驶混合渲染HRMAD:将NeRF和3DGS进行感知验证和端到端AD测试
    基于 3DGS 和 NeRF 的 三维重建技术 在过去的一年中取得了快速的进步,动态模型也变得越来越普遍,然而这些模型仅限于处理 原始轨迹域内的对象。 HRMAD 作为一种混合方案,将传统的基于网格的动态三维神经重建和物理渲染优势结合,支持在任意位置部署网格动态代理,自由调整环境条件,在多个相机视角下进行自由切换,与传统仿真方法相比有效 减少了领域差距, 同时 保留了可控性。 一、方法描述 HRMAD提出的 NeRF2GS双模型训练范式 显著提升了 合成质量 ,尤其是道路和车道标志,同时满足交互式帧率。通过此块级并行训练架构,可以处理 超过10万平方米场景重建 ,并同步传输出分割掩膜/法线图/深度图。通过物理光栅化/光线追踪渲染后端,HRMAD支持多个相机模型、LiDAR和Radar的 实时多模态输出 。如图1所示的模型架构。 图1 具体而言,HRMAD基于RGB相机、GNSS和LiDAR的同步数据进行模型训练。该方案结合了 NeRF优秀的泛化能力 和 3DGS实时的渲染速度 ,通过T-S结构,将NeRF生成的深度、法线和外观监督信息传递给3DGS模型,并通过正则化将LiDAR深度数据引入NeRF,从而实现更准确的 几何结构建模 。 传统基于透视投影的渲染方法通常依赖于特定的投影模型,为了在3DGS场景中 适配任意传感器 ,HRMAD提出了一种 新的渲染算法架构 ,如下图2所示。 图2 该架构基于 共享代码库 实现了光栅化和光线追踪渲染,用于计算高斯沿射线的贡献。这样不仅能够在三维重建场景中支持 任意相机畸变模型 ,还能够减轻LiDAR仿真中伪影的产生。图3展示了在aiSim中采用HRMAD渲染场景并配置LiDAR后, 点云的可视化效果 。 图3 图4表明HRMAD在 极端视角 下RGB、深度、法线和分割(基于Mask2Former)模态下的几何细节和表面特性,重建面积约为165000平方米(ZalaZone测试场,此重建场景将于 aiSim5.7 版本进行发布)。 图4 二、下游任务验证 1、重建质量验证 由于HRMAD采用的是 基于双边网格的色彩校正方法 ,传统的PSNR指标不再适用,而SSIM和LPIPS指标对 结果相似性 更为敏感,但从结果上看,这两个指标仍然受到 ISP解耦 导致的RAW与重建图像之间 色彩失配 的影响。这一影响体现在了评估结果中,如表1,表中对比了原始3DGS和TCLC-GS在 6个Waymo场景 上的指标表现。 表1 2、语义分割验证 在语义分割上分别从 三个角度 评估模型性能, 首先 通过统计所有像素中 语义分类一致 的比例,反映 全局重建一致性 。 通过 Mask2Former 获取真实图像上计算的分割Mask,并与HRMAD-NeRF(Teacher)和HRMAD-NeRF(Student)渲染得到的分割Mask进行比较,验证 重建的准确性 。同时为了降低道路、天空等易分割区域对整体结果的偏差影响,针对" Car "进行 单独IoU计算 。 为确保验证过程的公平性,真实图像被 重投影 至与渲染过程一致的无畸变针孔相机参数空间,当重建结果正确标注了远距离或被遮挡物体,而Mask2Former因输入信息有限导致 误判 时,此类误差会被 计入评估指标 。同时在夜间拍摄场景和相机直对太阳的场景中(如场景11037651和14663356), 掩膜一致性 显著下降。结果如表2所示。 表2 其次 在 非常规视角 下进行模型渲染,并基于Mask2former生成的Mask与模型预测Mask进行比较。此渲染视角沿自车轨迹生成,并在 米范围内平移前视相机仿真模型。 表3 展示了针对道路表面信息和车辆的 重建性能 。其中 Car类型 的重建性能相对较低,这是由于 Mask2Frame 无法检测远处或被遮挡的物体,从而扩大了差异。 图5 显了示相关结果,绿色为匹配区域,蓝色和橙色分别表示模型预测Mask和Mask2Former的Mask输出。 表3 图5 最后在 极端渲染视角 下(高5m,横向偏移2m,向下偏转25°),针对车道线和路沿语义分割结果进行了 定性评估 ,如图6所示。 图6 3、3D目标检测验证 为了验证HRMAD在 3D目标检测 上的 一致性 ,采用在Waymo Open数据集训练中公开的 DEVIANT 3D目标检测模型 ,进行定量和定性实验。 定量实验 中,在Waymo-13469905891836363794片段中从 横向偏移视角下进行验证,并通过平移变换后的3DBBox定量计算。 定性实验 选取三个驾驶片段进行 静态环境渲染 ,并基于网格渲染添加动态车辆,主要用于评估仿真生成的车辆是否引入了 领域差距 。 表4基于 Waymo指标 进行验证,Original为原始图像。特别在近距离下,HRMAD的表现性能要优于原始图像,这是由于原始图像中 假阳FP 数量更高。在非常规视角渲染下,观察到的差异主要是横向偏移视角下 目标截断 的数量增加,但 整体检测结果 在很大程度上 保持一致。 表4 图7为 DEVIANT模型 在HRMAD渲染Waymo场景中的表现。 图7 三、结语 虽然 HRMAD渲染方法 旨在最大程度减少 区块边界的不连续性 ,但仍不可避免地会产生可见的 伪影 ,特别是在天空和远距离目标区域中。比如天空的RGB重建效果良好,但在自动驾驶仿真测试场景中,在非常规视角下仍然会导致 伪影和结构痕迹 。 在下游任务中,HRMAD针对自动驾驶场景的评估结果已 非常接近真实数据, 但由于 样本有限 ,仍需要更大规模的数据集进行进一步验证。未来的研究也会致力于进一步缩小重建场景和真实数据之间的领域差距,具体来说,可以通过探索 层次化高斯泼溅 来减少区块伪影,并利用生成的法线信息改进LiDAR强度模拟,来更好地反应 点云数据 的方向敏感强度。 目前, HRMAD生成场景 已集成在 aiSim 中,可在不同传感器模型配置方案下,实现 端到端仿真测试 交互式验证和测试。
  • 热度 1
    2025-3-6 13:17
    706 次阅读|
    0 个评论
    3DGS:革新自动驾驶仿真场景重建的关键技术
    随着自动驾驶技术的迅猛发展,构建 高保真、动态的仿真场景 成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下, 3D高斯点阵渲染(3DGS) 技术应运而生,成为自动驾驶仿真场景重建的关键突破。 一、3DGS技术概述与原理 1、3DGS的技术概述 3DGS是一种基于3D高斯分布的 三维场景表示方法 。通过将场景中的对象转化为多个 3D高斯点 ,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的 几何形状 和 光照特性 。 与 传统的神经辐射场(NeRF) 方法相比,3DGS在渲染速度和图像质量方面表现出色,弥补了NeRF在动态场景处理和细节保留上的不足。 图1:3DGS重建流程 2、3DGS的技术原理 在3DGS中,首先通过 SfM(Structure from Motion) 技术进行数据预处理,校准相机位置并恢复其内部和外部参数,生成稀疏点云。然后,基于这些点云 初始化一组3D高斯点 ,每个高斯点的初始位置、协方差矩阵和不透明度都会进行设置。 训练过程中,3DGS通过 反向传播 不断优化这些高斯点的位置、形状和不透明度。值得注意的是,3DGS采用了 自适应密度控制 ,能够在每次反向传播后去除那些不重要的高斯点,并根据需要对高斯点进行 分裂或克隆 ,以保证场景重建的精度和细节。 图2:训练过程中高斯点的优化 二、3DGS在自动驾驶仿真中的应用 在自动驾驶领域,3DGS技术被广泛应用于 高保真仿真场景 的重建。通过将 多视角图像转化为3D高斯点云 ,3DGS能够快速、精确地重建复杂的街道场景,为自动驾驶系统的训练和验证提供真实的虚拟环境。例如,Huang等人提出的 S³Gaussian 方法,通过自监督学习,从4D一致性中分解动态和静态元素,实现了高质量的街道场景重建。 此外,Zhou等人提出的 DrivingGaussian 方法,针对环视动态自动驾驶场景,发展了基于3D高斯的重建仿真技术。该方法能够有效建模复杂的多尺度背景和前景,提升了自动驾驶系统在复杂环境下的感知能力。 图3:S³Gaussian方法 图4:DrivingGaussian方法 1、3DGS的优势与挑战 (1)优势 高效性: 通过显式建模方法,3DGS避免了传统神经网络训练中的计算开销,训练速度更快,渲染效率更高。 精度: 3D高斯点可以细致地捕捉场景中的每个细节,从而实现高精度的三维重建。 实时性: 3DGS支持实时渲染,适合需要快速响应的应用场景,如自动驾驶仿真。 (2)挑战 场景复杂度: 对于极为复杂的三维场景,3DGS可能需要大量的高斯点,这会增加计算负担和内存消耗。 动态场景的支持: 目前,3DGS主要集中在静态场景的重建,如何高效地处理 动态场景 中的物体变化,仍然是一个技术挑战。 三、aiSim的3DGS重建功能 aiSim仿真平台结合3DGS 技术,可以提供强大的三维重建功能,极大地提升了自动驾驶仿真测试的效率和精度。 在aiSim中,3DGS被用于从 多视角图像 中重建复杂的三维场景。aiSim能够精确地捕捉环境的 几何形状 和 光照特性 ,为自动驾驶系统提供 高保真的虚拟环境 。这种高精度的三维重建使得自动驾驶算法能够在仿真中进行更为真实的测试,减少了对实际道路测试的依赖。 图5:大FoV相机渲染出现非一致性(左)重建3DGS渲染方案后(右) aiSim新构建的 GGSR通用高斯泼溅渲染器 优化了重建场景下光线追踪传感器的渲染效果,增强了广角镜头渲染下的 一致性 ,并能减少伪影的产生,实现高保真度的3DGS重建场景兼容。 在重建的静态场景之上,aiSim支持 自定义动态的场景交通流 。通过添加动态实体,aiSim可以模拟交通流、行人行为等动态元素,为自动驾驶系统提供更为全面的测试场景。这种动态重建能力使得aiSim在验证自动驾驶系统的泛化能力和 应对复杂场景 的能力方面,展现出了巨大的优势。 图6:十字路口车辆起步场景 四、结语 3DGS作为一种新兴的三维场景重建技术,凭借其高效、精确和实时的特点,在自动驾驶仿真领域展现出了巨大的潜力。我们有理由相信,未来3DGS将为更多行业带来创新性的解决方案。 ▍参考文献 1.3D Gaussian Splatting for Real-Time Radiance Field Rendering 2. S3Gaussian: Self-Supervised Street Gaussians for Autonomous Driving 3.DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes
相关资源