基于 RL 的自动驾驶策略——PE-RLHF 与 CoFe-DIRL 联合分析

Mon, 15 Jun 2026 02:00:00 +0000

引言

人工智能系统的安全问题是当前学术界与工业界共同关注的热点。在自动驾驶领域，如何在安全性与灵活性之间取得平衡是核心挑战——强化学习（RL）探索能力强但可能产生危险动作，模仿学习（IL）安全性高但过于保守。

本文对两篇 TR_C 新兴技术 2025 论文进行联合分析：

PE-RLHF（Physical-Enhanced RLHF）——用物理规则兜底人类反馈的不可靠性
CoFe-DIRL（Conflict-Free Deep Imitation RL）——在优化层面消除 RL 与 IL 的梯度冲突

两篇论文从不同角度切入自动驾驶策略学习的核心矛盾，共同指向一个根本问题：如何让 AI 系统安全且灵活地驾驶。

一、背景与问题

现有方法的局限性

方法	优势	劣势
强化学习 RL	探索能力强	训练危险 / 产生危险动作
模仿学习 IL	安全性高 / 拟人化	过于保守 / 新场景失灵
RLHF	结合人类判断	人类疲劳/分心 / 反馈不可靠

两篇论文从不同角度切入这一核心矛盾：PE-RLHF 用物理规则弥补人类反馈的不可靠性，在安全层面建立更稳定的兜底机制；CoFe-DIRL 则从梯度层面解决 RL 与 IL 联合训练时的优化冲突，让两种学习范式真正协同而非相互抵消。

二、PE-RLHF：物理知识 + 人类反馈双导师机制

2.1 核心思想：双导师机制

人类灵活决策 + 物理规则安全兜底

PE-RLHF 的核心洞察在于：人类反馈灵活但不可靠，物理模型稳定但保守。单独使用任一种都会有明显短板，而将两者通过 Q 值仲裁机制结合，可以实现优势互补。

论文框架分为三层：

底层：用 IDM/MOBIL 物理模型提供安全动作基准
中层：在线反馈收集人类接管数据
顶层：训练集成 Q 网络对两类动作做价值仲裁，输出最终控制指令

...

组会汇报：自动驾驶传感器攻击与语音注入攻击研究

Fri, 12 Jun 2026 02:00:00 +0000

引言

图 2: 自动驾驶传感器与语音助手安全攻击示意图

本次组会汇报聚焦于AI系统的物理层安全，探讨了三篇从不同角度揭示智能系统传感器脆弱性的论文：

USENIX Security 2025 — Shadow Hack：通过在路面铺设特殊材料制造点云阴影，欺骗自动驾驶LiDAR检测模型凭空产生虚假障碍物；
DEF CON 24 — 传感器非接触攻击：通过声、电磁波、光等物理信道，对特斯拉的超声波雷达、毫米波雷达和摄像头实施干扰与欺骗；
ACM CCS 2017 — DolphinAttack：利用超声波载波将人耳不可闻的语音指令注入智能语音助手。

这三篇论文虽然针对的传感器和目标系统各异，但其核心思路高度一致——系统默认信任传感器物理层输入，而攻击者正是利用了这种信任，在物理层注入或篡改信号，使上层AI算法基于被污染的数据做出错误决策。

Paper 1: Shadow Hack — 利用激光雷达阴影欺骗3D目标检测

维度	人类反馈	物理规则

属性	信息
会议	USENIX Security 2025
作者	Ryunosuke Kobayashi, et al.
核心	Shadow Hack攻击+BBValidator防御，材料制造LiDAR空洞使模型假阳性

背景与动机

3D 目标检测模型在处理时，受边界效应和深度学习特征提取的影响，会错误地将这些“阴影边缘缺陷”当成物体的三维特征。

攻击概述

Shadow Hack的攻击目标不是让车消失，而是在无车处制造类似车后阴影的点云缺失区域。

图 3: Shadow Hack

图 4: Shadow Hack

背景与动机

实验系统包含虚拟仿真测试平台（基于 CARLA / OpenPCDet）以及真实的物理光学暗室测试台（包含 16 线/64...

自动驾驶感知攻击与语音注入攻击——对两篇顶会论文的完整分析梳理

Sat, 06 Jun 2026 02:00:00 +0000

引言

人工智能系统的安全问题是当前学术界与工业界共同关注的热点。在众多安全威胁中，利用光学物理效应对 AI 感知系统进行攻击的研究尤为引人注目——攻击者不需要接触目标设备，也不需要破解网络协议，仅通过操控光信号就能欺骗 AI 系统做出错误的判断。

本文对两篇安全领域顶级会议论文进行逐页联合分析与梳理：

Adversarial Sensor Attack on LiDAR-based Perception（ACM CCS 2019）——利用激光欺骗 LiDAR 感知系统，在自动驾驶车辆前方制造”假障碍物”
Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems（USENIX Security 2020）——利用调制激光向语音助手注入恶意语音命令

两篇论文虽针对不同的 AI 应用场景，却在攻击范式上高度相似：利用传感器物理特性的局限性，绕过 AI 系统的安全防护，实现远距离、无接触的注入攻击。

Paper 1: Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving

作者： Yulong Cao 等
来源： ACM CCS 2019
DOI： 10.1145/3319535.3339815

概述

图 1: Adv-LiDAR 方法论总览——从物理层 LiDAR spoofing 到感知模型对抗攻击的完整框架（Cao et al., CCS 2019 Fig. 2）

这篇论文不是只证明 LiDAR 能被 spoof，而是问 spoof 出来的点能否骗过 AV 感知模型。作者选择 Baidu Apollo 作为目标平台，目标是让车前 2-8 m 出现假障碍物。方法把物理攻击能力、点云预处理、DNN 输出和后处理放进一个优化框架。

背景：LiDAR 感知管线

...

北京交通大学人工智能安全实验室

基于 RL 的自动驾驶策略——PE-RLHF 与 CoFe-DIRL 联合分析

引言

一、背景与问题

现有方法的局限性

二、PE-RLHF：物理知识 + 人类反馈双导师机制

2.1 核心思想：双导师机制

组会汇报：自动驾驶传感器攻击与语音注入攻击研究

引言

Paper 1: Shadow Hack — 利用激光雷达阴影欺骗3D目标检测

背景与动机

攻击概述

背景与动机

自动驾驶感知攻击与语音注入攻击——对两篇顶会论文的完整分析梳理

引言

Paper 1: Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving

概述

背景：LiDAR 感知管线