菜单

Administrator
发布于 2026-05-19 / 4 阅读
0
0

LiDAR 数据与 RGB 图像联合融合

LiDAR数据联合RGB:激光雷达与摄像头传感器融合

本文内容整理自知乎文章《浅析自动驾驶激光雷达与摄像头传感器融合》及 LiDAR+RGB 融合相关技术资料

一、概述

传感器融合是自动驾驶汽车的关键技术之一,是感知模块的重要组成部分。我们希望通过融合来自不同视觉传感器的数据,以增加冗余、确定性或利用多个传感器的优势。

在感知步骤中,使用激光雷达(LiDAR)雷达(Radar)摄像头(Camera) 的组合来理解环境是非常常见的。这3个传感器各有优缺点:

传感器 优势 劣势
雷达 可直接测量障碍物的速度 分辨率低,缺乏细节
激光雷达 作为飞行时间传感器,非常适合估计距离,提供精确3D点云 成本较高,受天气影响,缺乏颜色/纹理信息
摄像头 擅长对象分类及场景理解,提供丰富的RGB颜色和纹理信息 缺乏直接深度信息,受光照条件影响大

LiDAR和摄像头是天然的互补对:LiDAR提供精确的3D几何位置(X, Y, Z坐标),摄像头提供丰富的语义信息(颜色、纹理、类别标签)。


二、传感器数据特点

摄像头:2D传感器

相机输出边界框、车道线位置、交通灯颜色、交通标志等丰富语义信息。图像数据格式为 H×W×3(高度、宽度、RGB三通道)。

激光雷达:3D传感器

LiDAR(光检测和测距)输出一组3D点云,每个点具有 (X, Y, Z) 坐标。可以在3D数据上执行多种应用,包括运行机器学习模型和神经网络。


三、传感器融合算法分类

传感器融合算法按抽象级别可分为两类核心方法:

1. 早期融合(Early Fusion)—— 融合原始数据

  • 融合层级:低级传感器融合
  • 融合内容:原始像素和点云数据
  • 特点:一旦插入传感器,融合过程很快发生

典型流程——点云投影到2D图像:

将激光雷达帧中的3D点云转换为相机帧中的2D投影,需要几何转换:

  1. Step 1:将每个3D激光雷达点转换为齐次坐标(激光雷达帧/齐次坐标)
  2. Step 2:应用投影方程(平移和旋转),将点从激光雷达帧转换到相机帧(相机帧/齐次坐标)
  3. Step 3:将点转换回欧几里得坐标(相机帧/欧几里得坐标)

即:[X_cam, Y_cam, 1]^T = K * [R|t] * [X_lidar, Y_lidar, Z_lidar, 1]^T

其中 K 为摄像头内参矩阵,[R|t] 为外参旋转平移矩阵。

ROI匹配(感兴趣区域匹配):

  • 融合每个边界框内的数据
  • 输出:激光雷达投影点提供精确距离 + 相机边界框提供分类结果
  • 挑战:选择哪个点作为距离?(最近点?中心点?中位数?平均值?)

2. 后期融合(Late Fusion)—— 融合结果

  • 融合层级:中级/高级传感器融合
  • 融合内容:独立检测后的边界框或轨迹结果
  • 两种方式:2D空间融合 或 3D空间融合

3D障碍物检测(LiDAR):

  • 深度学习方法:RANDLA-NET等算法
  • 朴素方法:无监督3D机器学习

3D障碍物检测(Camera):

  • 更困难,尤其使用单目相机时
  • 需要准确的投影值(内参和外参标定)+ 深度学习
  • 需要了解车辆的大小和方向

IOU匹配:

  • 空间IOU匹配:如果摄像头和激光雷达的边界框在2D或3D中重叠,认为是同一障碍物
  • 时间IOU匹配:采用卡尔曼滤波器和匈牙利算法进行帧间跟踪

四、LiDAR+RGB 融合的常见方法

1. 数据级融合(早期融合)

将RGB像素值直接附加到LiDAR点云上。在点云特征张量 XYZID 基础上增加 RGB 三个额外特征通道,创建大小为 64×512×8 的张量。

2. 特征级融合(中期融合)

  • 为每个输入模态构造独立的编码器
  • 分别提取特征后,使用连接层将特征图融合在一起
  • 典型架构:XYZDI + DIRGB(双流网络TSNet)
  • 优势:单独的编码器可在各自模态中用于其他任务

3. 混合融合(早期+中期)

将RGB通道连接到LiDAR的深度和强度通道,组合两种融合策略的优点,显著提升基线性能。

4. 深度补全

使用RGB图像引导,补全LiDAR点云的缺失区域,生成稠密深度图。典型方法:

  • 多阶段指导网络(Multi-stage Guidance Network)
  • FusionNet 等端到端多模态编码器-解码器

5. 语义融合

  • PointPainting:将RGB图像的语义分割结果(如语义掩码)投影到LiDAR点云,增强点云语义信息
  • LIF-Seg:从粗到细的LiDAR-相机融合框架,解决弱时空同步问题

五、主流开源算法与工具

算法/工具 数据输入 输出结果 适用场景
LVI-SAM LiDAR+RGB+IMU 带纹理的稠密点云地图 无人机/车载实时建图
R3LIVE LiDAR+RGB+IMU 彩色3D点云地图 实时SLAM建图
PointPainting LiDAR+RGB语义分割 语义增强的点云 自动驾驶目标检测
F-PointNet RGB 2D框+LiDAR点云 3D目标检测框 实时3D检测
Open3D-ML LiDAR+RGB 带纹理的3D网格 静态场景三维重建
LiDAR-NeRF LiDAR+多视角RGB 高保真辐射场模型 大场景数字孪生
Autoware LiDAR+RGB+IMU+GPS 高精地图与实时感知 自动驾驶全栈开发
DeepFusion LiDAR+相机 3D目标检测 多模态3D检测

六、关键挑战

  1. 时空同步:LiDAR和相机采集频率不同,存在帧间时间偏移。弱时空同步限制了融合性能。
  2. 空间对齐:传感器安装位置偏差导致点云与图像平面无法正确映射,需要精确标定。
  3. 视场差异:LiDAR和相机有不同的FOV(如LiDAR看不到车辆近场),导致数据不完全重叠。
  4. 分辨率差异:LiDAR点云稀疏(通常64线/128线),而RGB图像密集,投影后LiDAR表示稀疏。
  5. 环境因素:光照条件或天气变化可能显著影响相机数据质量。
  6. 计算开销:多模态数据需要更大的网络和计算资源。

七、总结

LiDAR与RGB数据的融合是自动驾驶和机器人领域的关键技术,通过充分发挥LiDAR的几何精度和相机的语义丰富性,可以显著提升环境感知能力。融合策略从早期数据级融合到后期决策级融合各有优劣,选择取决于具体应用场景对实时性、精度和计算资源的需求。

注:本文内容综合自知乎文章《浅析自动驾驶激光雷达与摄像头传感器融合》及相关技术文献综合整理。


评论