<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>北京交通大学人工智能安全实验室</title>
    <description>THETA Lab - Thorough Evaluation on Threats of AI 北京交通大学网络空间安全学院 · 人工智能安全实验室</description>
    <link>https://nwj6688.github.io</link>
    <atom:link href="https://nwj6688.github.io/feed.xml" rel="self" type="application/rss+xml"/>
    <pubDate>Thu, 25 Jun 2026 11:39:47 +0000</pubDate>
    <lastBuildDate>Thu, 25 Jun 2026 11:39:47 +0000</lastBuildDate>
    <generator>Jekyll v3.10.0</generator>
    
    <item>
      <title>基于 RL 的自动驾驶策略——PE-RLHF 与 CoFe-DIRL 联合分析</title>
      <description>&lt;h2 id=&quot;引言&quot;&gt;引言&lt;/h2&gt; &lt;p&gt;人工智能系统的安全问题是当前学术界与工业界共同关注的热点。在自动驾驶领域，如何在&lt;strong&gt;安全性&lt;/strong&gt;与&lt;strong&gt;灵活性&lt;/strong&gt;之间取得平衡是核心挑战——强化学习（RL）探索能力强但可能产生危险动作，模仿学习（IL）安全性高但过于保守。&lt;/p&gt; &lt;p&gt;本文对两篇 TR_C 新兴技术 2025 论文进行联合分析：&lt;/p&gt; &lt;ol&gt; &lt;li&gt;&lt;strong&gt;PE-RLHF&lt;/strong&gt;（Physical-Enhanced RLHF）——用物理规则兜底人类反馈的不可靠性&lt;/li&gt; &lt;li&gt;&lt;strong&gt;CoFe-DIRL&lt;/strong&gt;（Conflict-Free Deep Imitation RL）——在优化层面消除 RL 与 IL 的梯度冲突&lt;/li&gt; &lt;/ol&gt; &lt;p&gt;两篇论文从不同角度切入自动驾驶策略学习的核心矛盾，共同指向一个根本问题：如何让 AI 系统安全且灵活地驾驶。&lt;/p&gt; &lt;h2 id=&quot;一背景与问题&quot;&gt;一、背景与问题&lt;/h2&gt; &lt;h3 id=&quot;现有方法的局限性&quot;&gt;现有方法的局限性&lt;/h3&gt; &lt;table&gt; &lt;thead&gt; &lt;tr&gt; &lt;th&gt;方法&lt;/th&gt; &lt;th&gt;优势&lt;/th&gt; &lt;th&gt;劣势&lt;/th&gt; &lt;/tr&gt; &lt;/thead&gt; &lt;tbody&gt; &lt;tr&gt; &lt;td&gt;强化学习 RL&lt;/td&gt; &lt;td&gt;探索能力强&lt;/td&gt; &lt;td&gt;训练危险 / 产生危险动作&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td&gt;模仿学习 IL&lt;/td&gt; &lt;td&gt;安全性高 / 拟人化&lt;/td&gt; &lt;td&gt;过于保守 / 新场景失灵&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td&gt;RLHF&lt;/td&gt; &lt;td&gt;结合人类判断&lt;/td&gt; &lt;td&gt;人类疲劳/分心 / 反馈不可靠&lt;/td&gt; &lt;/tr&gt; &lt;/tbody&gt; &lt;/table&gt; &lt;p&gt;两篇论文从不同角度切入这一核心矛盾：&lt;strong&gt;PE-RLHF&lt;/strong&gt; 用物理规则弥补人类反馈的不可靠性，在安全层面建立更稳定的兜底机制；&lt;strong&gt;CoFe-DIRL&lt;/strong&gt; 则从梯度层面解决 RL 与 IL 联合训练时的优化冲突，让两种学习范式真正协同而非相互抵消。&lt;/p&gt; &lt;h2 id=&quot;二pe-rlhf物理知识--人类反馈双导师机制&quot;&gt;二、PE-RLHF：物理知识 + 人类反馈双导师机制&lt;/h2&gt; &lt;h3 id=&quot;21-核心思想双导师机制&quot;&gt;2.1 核心思想：双导师机制&lt;/h3&gt; &lt;p&gt;&lt;strong&gt;人类灵活决策 + 物理规则安全兜底&lt;/strong&gt;&lt;/p&gt; &lt;p&gt;PE-RLHF 的核心洞察在于：&lt;strong&gt;人类反馈灵活但不可靠，物理模型稳定但保守&lt;/strong&gt;。单独使用任一种都会有明显短板，而将两者通过 Q 值仲裁机制结合，可以实现优势互补。&lt;/p&gt; &lt;p&gt;论文框架分为三层：&lt;/p&gt; &lt;ul&gt; &lt;li&gt;&lt;strong&gt;底层&lt;/strong&gt;：用 IDM/MOBIL 物理模型提供安全动作基准&lt;/li&gt; &lt;li&gt;&lt;strong&gt;中层&lt;/strong&gt;：在线反馈收集人类接管数据&lt;/li&gt; &lt;li&gt;&lt;strong&gt;顶层&lt;/strong&gt;：训练集成 Q 网络对两类动作做价值仲裁，输出最终控制指令&lt;/li&gt; &lt;/ul&gt; &lt;table&gt; &lt;thead&gt; &lt;tr&gt; &lt;th&gt;维度&lt;/th&gt; &lt;th&gt;人类反馈&lt;/th&gt; &lt;th&gt;物理规则&lt;/th&gt;...</description>
      <pubDate>Mon, 15 Jun 2026 02:00:00 +0000</pubDate>
      <link>https://nwj6688.github.io/2026/06/15/autonomous-driving-rl-strategies.html</link>
      <guid isPermaLink="true">https://nwj6688.github.io/2026/06/15/autonomous-driving-rl-strategies.html</guid>
      
      <category>强化学习</category>
      
      <category>模仿学习</category>
      
      <category>自动驾驶</category>
      
      <category>PE-RLHF</category>
      
      <category>CoFe-DIRL</category>
      
      <category>安全约束</category>
      
    </item>
    
    <item>
      <title>组会汇报：自动驾驶传感器攻击与语音注入攻击研究</title>
      <description>&lt;h2 id=&quot;引言&quot;&gt;引言&lt;/h2&gt; &lt;p&gt;&lt;img src=&quot;/images/blog/2026-06-12-group-meeting-0612-sensor-security-fig01.jpg&quot; alt=&quot;封面&quot; /&gt; &lt;em&gt;图 2: 自动驾驶传感器与语音助手安全攻击示意图&lt;/em&gt;&lt;/p&gt; &lt;p&gt;本次组会汇报聚焦于AI系统的物理层安全，探讨了三篇从不同角度揭示智能系统传感器脆弱性的论文：&lt;/p&gt; &lt;ol&gt; &lt;li&gt;&lt;strong&gt;USENIX Security 2025 — Shadow Hack&lt;/strong&gt;：通过在路面铺设特殊材料制造点云阴影，欺骗自动驾驶LiDAR检测模型凭空产生虚假障碍物；&lt;/li&gt; &lt;li&gt;&lt;strong&gt;DEF CON 24 — 传感器非接触攻击&lt;/strong&gt;：通过声、电磁波、光等物理信道，对特斯拉的超声波雷达、毫米波雷达和摄像头实施干扰与欺骗；&lt;/li&gt; &lt;li&gt;&lt;strong&gt;ACM CCS 2017 — DolphinAttack&lt;/strong&gt;：利用超声波载波将人耳不可闻的语音指令注入智能语音助手。&lt;/li&gt; &lt;/ol&gt; &lt;p&gt;这三篇论文虽然针对的传感器和目标系统各异，但其核心思路高度一致——&lt;strong&gt;系统默认信任传感器物理层输入，而攻击者正是利用了这种信任，在物理层注入或篡改信号，使上层AI算法基于被污染的数据做出错误决策&lt;/strong&gt;。&lt;/p&gt; &lt;hr /&gt; &lt;h2 id=&quot;paper-1-shadow-hack--利用激光雷达阴影欺骗3d目标检测&quot;&gt;Paper 1: Shadow Hack — 利用激光雷达阴影欺骗3D目标检测&lt;/h2&gt; &lt;table&gt; &lt;thead&gt; &lt;tr&gt; &lt;th&gt;属性&lt;/th&gt; &lt;th&gt;信息&lt;/th&gt; &lt;/tr&gt; &lt;/thead&gt; &lt;tbody&gt; &lt;tr&gt; &lt;td&gt;&lt;strong&gt;会议&lt;/strong&gt;&lt;/td&gt; &lt;td&gt;USENIX Security 2025&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td&gt;&lt;strong&gt;作者&lt;/strong&gt;&lt;/td&gt; &lt;td&gt;Ryunosuke Kobayashi, et al.&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td&gt;&lt;strong&gt;核心&lt;/strong&gt;&lt;/td&gt; &lt;td&gt;Shadow Hack攻击+BBValidator防御，材料制造LiDAR空洞使模型假阳性&lt;/td&gt; &lt;/tr&gt; &lt;/tbody&gt; &lt;/table&gt; &lt;h3 id=&quot;背景与动机&quot;&gt;背景与动机&lt;/h3&gt; &lt;p&gt;3D 目标检测模型在处理时，受边界效应和深度学习特征提取的影响，会错误地将这些“阴影边缘缺陷”当成物体的三维特征。&lt;/p&gt; &lt;h3 id=&quot;攻击概述&quot;&gt;攻击概述&lt;/h3&gt; &lt;p&gt;Shadow Hack的攻击目标不是让车消失，而是在无车处制造类似车后阴影的点云缺失区域。&lt;/p&gt; &lt;p&gt;&lt;img src=&quot;/images/blog/2026-06-12-group-meeting-0612-sensor-security-fig01.jpg&quot; alt=&quot;Shadow Hack&quot; /&gt; &lt;em&gt;图 3: Shadow Hack&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;img src=&quot;/images/blog/2026-06-12-group-meeting-0612-sensor-security-fig02.png&quot; alt=&quot;Shadow Hack&quot; /&gt; &lt;em&gt;图 4: Shadow Hack&lt;/em&gt;&lt;/p&gt; &lt;h3 id=&quot;背景与动机-1&quot;&gt;背景与动机&lt;/h3&gt; &lt;p&gt;实验系统包含虚拟仿真测试平台（基于 CARLA / OpenPCDet）以及真实的物理光学暗室测试台（包含 16 线/64...</description>
      <pubDate>Fri, 12 Jun 2026 02:00:00 +0000</pubDate>
      <link>https://nwj6688.github.io/2026/06/12/group-meeting-0612-sensor-security.html</link>
      <guid isPermaLink="true">https://nwj6688.github.io/2026/06/12/group-meeting-0612-sensor-security.html</guid>
      
      <category>智能驾驶安全</category>
      
      <category>网络空间安全</category>
      
      <category>AI安全</category>
      
    </item>
    
    <item>
      <title>自动驾驶感知攻击与语音注入攻击——对两篇顶会论文的完整分析梳理</title>
      <description>&lt;h2 id=&quot;引言&quot;&gt;引言&lt;/h2&gt; &lt;p&gt;人工智能系统的安全问题是当前学术界与工业界共同关注的热点。在众多安全威胁中，利用&lt;strong&gt;光学物理效应&lt;/strong&gt;对 AI 感知系统进行攻击的研究尤为引人注目——攻击者不需要接触目标设备，也不需要破解网络协议，仅通过操控光信号就能欺骗 AI 系统做出错误的判断。&lt;/p&gt; &lt;p&gt;本文对两篇安全领域顶级会议论文进行逐页联合分析与梳理：&lt;/p&gt; &lt;ol&gt; &lt;li&gt;&lt;strong&gt;Adversarial Sensor Attack on LiDAR-based Perception&lt;/strong&gt;（ACM CCS 2019）——利用激光欺骗 LiDAR 感知系统，在自动驾驶车辆前方制造”假障碍物”&lt;/li&gt; &lt;li&gt;&lt;strong&gt;Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems&lt;/strong&gt;（USENIX Security 2020）——利用调制激光向语音助手注入恶意语音命令&lt;/li&gt; &lt;/ol&gt; &lt;p&gt;两篇论文虽针对不同的 AI 应用场景，却在攻击范式上高度相似：&lt;strong&gt;利用传感器物理特性的局限性，绕过 AI 系统的安全防护，实现远距离、无接触的注入攻击&lt;/strong&gt;。&lt;/p&gt; &lt;hr /&gt; &lt;h2 id=&quot;paper-1-adversarial-sensor-attack-on-lidar-based-perception-in-autonomous-driving&quot;&gt;Paper 1: Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving&lt;/h2&gt; &lt;ul&gt; &lt;li&gt;&lt;strong&gt;作者：&lt;/strong&gt; Yulong Cao 等&lt;/li&gt; &lt;li&gt;&lt;strong&gt;来源：&lt;/strong&gt; ACM CCS 2019&lt;/li&gt; &lt;li&gt;&lt;strong&gt;DOI：&lt;/strong&gt; 10.1145/3319535.3339815&lt;/li&gt; &lt;/ul&gt; &lt;h3 id=&quot;概述&quot;&gt;概述&lt;/h3&gt; &lt;p&gt;&lt;img src=&quot;/images/blog/2026-06-06-autonomous-driving-p1-overview.png&quot; alt=&quot;Adv-LiDAR 方法论总览&quot; /&gt; &lt;em&gt;图 1: Adv-LiDAR 方法论总览——从物理层 LiDAR spoofing 到感知模型对抗攻击的完整框架（Cao et al., CCS 2019 Fig. 2）&lt;/em&gt;&lt;/p&gt; &lt;p&gt;这篇论文不是只证明 LiDAR 能被 spoof，而是问 spoof 出来的点能否骗过 AV 感知模型。作者选择 Baidu Apollo 作为目标平台，目标是让车前 2-8 m 出现假障碍物。方法把物理攻击能力、点云预处理、DNN 输出和后处理放进一个优化框架。&lt;/p&gt; &lt;h3 id=&quot;背景lidar-感知管线&quot;&gt;背景：LiDAR 感知管线&lt;/h3&gt;...</description>
      <pubDate>Sat, 06 Jun 2026 02:00:00 +0000</pubDate>
      <link>https://nwj6688.github.io/2026/06/06/autonomous-driving-perception-attack-voice-injection-analysis.html</link>
      <guid isPermaLink="true">https://nwj6688.github.io/2026/06/06/autonomous-driving-perception-attack-voice-injection-analysis.html</guid>
      
      <category>自动驾驶安全</category>
      
      <category>LiDAR攻击</category>
      
      <category>语音注入攻击</category>
      
      <category>智能驾驶安全</category>
      
    </item>
    
  </channel>
</rss>
