LiDAR数据联合RGB：激光雷达与摄像头传感器融合

本文内容整理自知乎文章《浅析自动驾驶激光雷达与摄像头传感器融合》及 LiDAR+RGB 融合相关技术资料

一、概述

传感器融合是自动驾驶汽车的关键技术之一，是感知模块的重要组成部分。我们希望通过融合来自不同视觉传感器的数据，以增加冗余、确定性或利用多个传感器的优势。

在感知步骤中，使用激光雷达（LiDAR）、雷达（Radar） 和摄像头（Camera） 的组合来理解环境是非常常见的。这3个传感器各有优缺点：

传感器	优势	劣势
雷达	可直接测量障碍物的速度	分辨率低，缺乏细节
激光雷达	作为飞行时间传感器，非常适合估计距离，提供精确3D点云	成本较高，受天气影响，缺乏颜色/纹理信息
摄像头	擅长对象分类及场景理解，提供丰富的RGB颜色和纹理信息	缺乏直接深度信息，受光照条件影响大

LiDAR和摄像头是天然的互补对：LiDAR提供精确的3D几何位置（X, Y, Z坐标），摄像头提供丰富的语义信息（颜色、纹理、类别标签）。

二、传感器数据特点

摄像头：2D传感器

相机输出边界框、车道线位置、交通灯颜色、交通标志等丰富语义信息。图像数据格式为 H×W×3（高度、宽度、RGB三通道）。

激光雷达：3D传感器

LiDAR（光检测和测距）输出一组3D点云，每个点具有 (X, Y, Z) 坐标。可以在3D数据上执行多种应用，包括运行机器学习模型和神经网络。

三、传感器融合算法分类

传感器融合算法按抽象级别可分为两类核心方法：

1. 早期融合（Early Fusion）—— 融合原始数据

融合层级：低级传感器融合
融合内容：原始像素和点云数据
特点：一旦插入传感器，融合过程很快发生

典型流程——点云投影到2D图像：

将激光雷达帧中的3D点云转换为相机帧中的2D投影，需要几何转换：

Step 1：将每个3D激光雷达点转换为齐次坐标（激光雷达帧/齐次坐标）
Step 2：应用投影方程（平移和旋转），将点从激光雷达帧转换到相机帧（相机帧/齐次坐标）
Step 3：将点转换回欧几里得坐标（相机帧/欧几里得坐标）

即：[X_cam, Y_cam, 1]^T = K * [R|t] * [X_lidar, Y_lidar, Z_lidar, 1]^T

其中 K 为摄像头内参矩阵，[R|t] 为外参旋转平移矩阵。

ROI匹配（感兴趣区域匹配）：

融合每个边界框内的数据
输出：激光雷达投影点提供精确距离 + 相机边界框提供分类结果
挑战：选择哪个点作为距离？（最近点？中心点？中位数？平均值？）

2. 后期融合（Late Fusion）—— 融合结果

融合层级：中级/高级传感器融合
融合内容：独立检测后的边界框或轨迹结果
两种方式：2D空间融合或 3D空间融合

3D障碍物检测（LiDAR）：

深度学习方法：RANDLA-NET等算法
朴素方法：无监督3D机器学习

3D障碍物检测（Camera）：

更困难，尤其使用单目相机时
需要准确的投影值（内参和外参标定）+ 深度学习
需要了解车辆的大小和方向

IOU匹配：

空间IOU匹配：如果摄像头和激光雷达的边界框在2D或3D中重叠，认为是同一障碍物
时间IOU匹配：采用卡尔曼滤波器和匈牙利算法进行帧间跟踪

四、LiDAR+RGB 融合的常见方法

1. 数据级融合（早期融合）

将RGB像素值直接附加到LiDAR点云上。在点云特征张量 XYZID 基础上增加 RGB 三个额外特征通道，创建大小为 64×512×8 的张量。

2. 特征级融合（中期融合）

为每个输入模态构造独立的编码器
分别提取特征后，使用连接层将特征图融合在一起
典型架构：XYZDI + DIRGB（双流网络TSNet）
优势：单独的编码器可在各自模态中用于其他任务

3. 混合融合（早期+中期）

将RGB通道连接到LiDAR的深度和强度通道，组合两种融合策略的优点，显著提升基线性能。

4. 深度补全

使用RGB图像引导，补全LiDAR点云的缺失区域，生成稠密深度图。典型方法：

多阶段指导网络（Multi-stage Guidance Network）
FusionNet 等端到端多模态编码器-解码器

5. 语义融合

PointPainting：将RGB图像的语义分割结果（如语义掩码）投影到LiDAR点云，增强点云语义信息
LIF-Seg：从粗到细的LiDAR-相机融合框架，解决弱时空同步问题

五、主流开源算法与工具

算法/工具	数据输入	输出结果	适用场景
LVI-SAM	LiDAR+RGB+IMU	带纹理的稠密点云地图	无人机/车载实时建图
R3LIVE	LiDAR+RGB+IMU	彩色3D点云地图	实时SLAM建图
PointPainting	LiDAR+RGB语义分割	语义增强的点云	自动驾驶目标检测
F-PointNet	RGB 2D框+LiDAR点云	3D目标检测框	实时3D检测
Open3D-ML	LiDAR+RGB	带纹理的3D网格	静态场景三维重建
LiDAR-NeRF	LiDAR+多视角RGB	高保真辐射场模型	大场景数字孪生
Autoware	LiDAR+RGB+IMU+GPS	高精地图与实时感知	自动驾驶全栈开发
DeepFusion	LiDAR+相机	3D目标检测	多模态3D检测

六、关键挑战

时空同步：LiDAR和相机采集频率不同，存在帧间时间偏移。弱时空同步限制了融合性能。
空间对齐：传感器安装位置偏差导致点云与图像平面无法正确映射，需要精确标定。
视场差异：LiDAR和相机有不同的FOV（如LiDAR看不到车辆近场），导致数据不完全重叠。
分辨率差异：LiDAR点云稀疏（通常64线/128线），而RGB图像密集，投影后LiDAR表示稀疏。
环境因素：光照条件或天气变化可能显著影响相机数据质量。
计算开销：多模态数据需要更大的网络和计算资源。

七、总结

LiDAR与RGB数据的融合是自动驾驶和机器人领域的关键技术，通过充分发挥LiDAR的几何精度和相机的语义丰富性，可以显著提升环境感知能力。融合策略从早期数据级融合到后期决策级融合各有优劣，选择取决于具体应用场景对实时性、精度和计算资源的需求。

注：本文内容综合自知乎文章《浅析自动驾驶激光雷达与摄像头传感器融合》及相关技术文献综合整理。

菜单

分享

LiDAR 数据与 RGB 图像联合融合

LiDAR数据联合RGB：激光雷达与摄像头传感器融合

一、概述

二、传感器数据特点

摄像头：2D传感器

激光雷达：3D传感器

三、传感器融合算法分类

1. 早期融合（Early Fusion）—— 融合原始数据

2. 后期融合（Late Fusion）—— 融合结果

四、LiDAR+RGB 融合的常见方法

1. 数据级融合（早期融合）

2. 特征级融合（中期融合）

3. 混合融合（早期+中期）

4. 深度补全

5. 语义融合

五、主流开源算法与工具

六、关键挑战

七、总结

评论

GitHub热点追踪（2026-05-20）

RuView（π RuView）：用 WiFi 信号感知世界的革命 — 无摄像头的人体姿态检测与生命体征监测

Agent Harness 是什么？—— 从概念到 OpenCode 实践

Anthropic Cybersecurity Skills：754 个结构化网络安全技能 — 让 AI Agent 成为安全分析师

Multica：开源多智能体协作平台 — 把编码 Agent 变成真正的队友

GitHub热点追踪（2026-05-22）

GitHub热点追踪（2026-05-24）

Presenton：开源 AI 演示文稿生成器 — Gamma/Beautiful AI 的完全自托管替代

Understand-Anything：将代码库变为交互式知识图谱 — AI Agent 的代码理解革命

单例模式