自动驾驶感知攻击与语音注入攻击——对两篇顶会论文的完整分析梳理

引言

人工智能系统的安全问题是当前学术界与工业界共同关注的热点。在众多安全威胁中，利用光学物理效应对 AI 感知系统进行攻击的研究尤为引人注目——攻击者不需要接触目标设备，也不需要破解网络协议，仅通过操控光信号就能欺骗 AI 系统做出错误的判断。

本文对两篇安全领域顶级会议论文进行逐页联合分析与梳理：

Adversarial Sensor Attack on LiDAR-based Perception（ACM CCS 2019）——利用激光欺骗 LiDAR 感知系统，在自动驾驶车辆前方制造”假障碍物”
Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems（USENIX Security 2020）——利用调制激光向语音助手注入恶意语音命令

两篇论文虽针对不同的 AI 应用场景，却在攻击范式上高度相似：利用传感器物理特性的局限性，绕过 AI 系统的安全防护，实现远距离、无接触的注入攻击。

Paper 1: Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving

作者： Yulong Cao 等
来源： ACM CCS 2019
DOI： 10.1145/3319535.3339815

概述

图 1: Adv-LiDAR 方法论总览——从物理层 LiDAR spoofing 到感知模型对抗攻击的完整框架（Cao et al., CCS 2019 Fig. 2）

这篇论文不是只证明 LiDAR 能被 spoof，而是问 spoof 出来的点能否骗过 AV 感知模型。作者选择 Baidu Apollo 作为目标平台，目标是让车前 2-8 m 出现假障碍物。方法把物理攻击能力、点云预处理、DNN 输出和后处理放进一个优化框架。

背景：LiDAR 感知管线

自动驾驶系统中的 LiDAR（激光雷达）通过发射激光脉冲并测量反射时间来感知周围环境。在百度 Apollo 等主流自动驾驶平台中，LiDAR 点云的处理流程通常包括以下步骤：

数据采集：原始 3D 点云 X
预处理：坐标变换、ROI 提取、将 3D 点云压缩为 2D 特征矩阵
DNN 推理：输出 objectness（物体置信度）、positiveness（正面置信度）以及位置、方向、尺寸等参数
后处理：阈值过滤、连通图聚类、候选障碍物筛选

Apollo LiDAR 感知管线 图 2: Apollo 的 LiDAR 感知管线——从原始点云到障碍物检测的完整流程（Cao et al., CCS 2019 Fig. 1）

这一管线意味着攻击者不能仅通过添加噪声点来欺骗系统，而需要让伪造点云通过整个 pipeline。Apollo 的模型输入不是原始点云，而是 3D 点云压成的 2D 特征矩阵。DNN 后还有后处理，所以只改变模型输出不等于最终出现障碍物。后续目标函数围绕 objectness/positiveness 设计，就是因为它们决定候选障碍物是否被保留。

威胁模型：物理层 LiDAR Spoofing

攻击者通过监听目标 LiDAR 的激光脉冲，在特定延迟后发射攻击激光，让 LiDAR 误以为存在真实的反射信号。延迟控制测距（纳秒级延迟对应厘米级距离变化），结合扫描序列可影响伪造点的空间位置分布。实验表明，攻击设备的可靠可控点数约为 60 个点，远少于真实车辆反射的密集点云。

物理层 LiDAR spoofing 攻击设置 图 3: 攻击者用延迟组件触发激光，向受害 LiDAR 注入伪造点（Cao et al., CCS 2019 Fig. 3）

固定扫描序列示意图 图 4: 固定 firing sequence 允许攻击者选择伪造点出现的角度和距离（Cao et al., CCS 2019 Fig. 4）

论文采用 white-box 分析，假设攻击者知道目标感知系统信息，用来研究最强风险边界。

盲目注入为什么不够

在提出完整攻击方法前，作者先通过实验证明：盲目的随机点注入无法有效欺骗感知模型。

盲目 spoofing 实验 图 5: 把攻击实验采集到的 spoofed points 合成到真实 Apollo 点云中测试（Cao et al., CCS 2019 Fig. 5）

真实车辆反射点云通常更宽、更密集。攻击设备可靠可控点数有限，论文实测约 60 个点。Apollo 的 DNN + 聚类后处理会过滤掉很多”不像障碍物”的点模式。转折：必须从传感器 spoofing 升级为面向感知模型的对抗 spoofing。

攻击能力建模

论文的核心贡献在于将物理世界可实现的 LiDAR spoofing 转化为一个可优化的对抗攻击问题。攻击能力被分解为点数和空间可控性两部分：距离变化来自延时控制，高度变化来自切换垂直线，方位变化来自扫描时序和攻击位置。

攻击能力建模 图 6: 距离、海拔高度、方位角三种可控扰动参数化（Cao et al., CCS 2019 Fig. 7）

攻击能力 A 被形式化为：

点数：{20, 40, 60 points}
空间变换：全局旋转 θ + 平移 τx + 高度缩放 sh

这一步把物理世界能做的事，转成优化问题里的约束。

Adv-LiDAR 核心算法

Adv-LiDAR 核心算法流程 图 7: Adv-LiDAR 算法流程——从原始点云到 spoofed point cloud 的粗搜+细调优化（Cao et al., CCS 2019 Fig. 8）

算法拆解：

将原始点云 X 和 spoofed point cloud T 映射到 2D feature matrix
在目标区域附近对 rotation θ、translation τx 做全局采样
用 Adam 优化 θ、τx、height scale sh
选择 loss 最小的一组参数，把 T 变成 T′ 并加入 X

对抗损失函数设计为：

L_adv = Σ(1 - objectness · positiveness) · GaussianMask(px, py)

目标不是让模型任意出错，而是在攻击者指定的前方位置生成候选障碍物。Gaussian mask 让优化集中在目标位置附近。最后输出的是物理上可解释的 spoofed point cloud，不是纯数字噪声。

优化策略分析

Loss surface 分析 图 8: 小尺度 noisy，大尺度 flat——粗搜+细调策略的设计动机（Cao et al., CCS 2019 Fig. 9）

观察到 loss surface 存在局部噪声、全局平坦的特性。直接使用 Adam 等梯度优化器容易陷入局部最优。因此设计了两阶段策略：

先对旋转 θ 和平移 τx 进行全局采样（覆盖目标位置附近的空间）
再用 Adam 优化器进行局部微调

实验结果

评估结果 图 9: S-opt（粗搜+细调）显著优于 V-opt（纯视觉优化），60 点时约 75% 成功率（Cao et al., CCS 2019 Fig. 10）

攻击持续性 图 10: 60 个伪造点注入后约 15 帧保持较高成功率（Cao et al., CCS 2019 Fig. 11）

关键结果：

使用 Baidu Apollo 公开真实 LiDAR trace，均匀采样 300 帧
攻击目标是前方 2-8 m 障碍物
粗搜+细调策略（S-opt）将平均成功率从 18.9% 提升到 43.3%，平均提升 2.65 倍
60 点能力时成功率约 75%
对后续约 1.5 秒的连续帧仍有鲁棒性，说明攻击不要求车辆位置完全固定

驾驶影响分析

急刹场景 图 11: 假障碍物导致急刹——速度从 43 km/h 降至 0 km/h，约 1 秒（Cao et al., CCS 2019 Fig. 12）

绿灯被阻场景 图 12: 红灯后绿灯，车辆被假障碍物阻止启动（Cao et al., CCS 2019 Fig. 13）

在驾驶影响方面，Apollo Sim-control 仿真显示：假障碍物会导致规划层执行急刹决策（43 km/h → 0 km/h，约 1 秒）。如果车辆在红灯前静止，攻击者持续伪造近障碍物，绿灯后也可能阻止车辆启动。

实际攻击效果

实际采集的 spoofed points 图 13: 在实际实验中采集到的 spoofed points 分布（Cao et al., CCS 2019 Fig. 14）

小结

Adv-LiDAR 的核心贡献在于把物理可实现的 LiDAR spoofing 与机器学习感知 pipeline 的目标优化连接起来。系统设计上，3D 点云压成 2D 特征会损失高度信息，地面反射点可能被错误聚进假障碍物。局限在于作者并未在真实道路上攻击完整的自动驾驶系统，动态瞄准仍是未来工作。

Paper 2: Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems

作者： Takeshi Sugawara 等
来源： 29th USENIX Security Symposium, 2020

概述

图 14: 110+ 米远距离攻击实验环境（Sugawara et al., USENIX Security 2020 Fig. 1）

题目： Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems 来源/年份： USENIX Security Symposium · 2020

解决什么问题： 语音助手（如 Alexa、Siri、Google Assistant）是否会被激光注入的虚假语音命令欺骗。 怎么解决： 利用光电/光声效应，将语音命令调制成激光信号，照射麦克风进音孔，使麦克风产生对应的电信号。

攻击原理：把声音改写成光

攻击链路分为两层：

物理层：攻击者准备普通语音命令录音（如 wake word + 具体命令），通过激光驱动器将音频波形调制到激光二极管的驱动电流上。光强随音频波形变化，形成幅度调制（AM）光信号。当调制光照射到麦克风的进音孔（microphone aperture）时，麦克风输出端会出现对应的音频电信号。

系统层：语音助手在处理音频输入时缺少足够的认证机制，将注入的电信号视为真实的语音命令并执行。

MEMS 麦克风攻击示意 图 15: 攻击装置：PC → 放大器 → 激光二极管 → 照射 MEMS microphone（Sugawara et al., USENIX Security 2020 Fig. 5a）

为什么麦克风会”听见”光？

论文区分了两种物理效应：

MEMS 麦克风内部结构 图 16: MEMS microphone 内部结构——ASIC 芯片和振膜（Sugawara et al., USENIX Security 2020 Fig. 2）

Photoelectric effect（光电效应）：激光直接照射麦克风 ASIC 芯片，产生电信号
Photoacoustic effect（光声效应）：激光照射麦克风振膜，引起热胀冷缩产生声波

ASIC 与振膜分离实验 图 17: 遮蔽 ASIC 后用环氧树脂覆盖振膜，ASIC 侧仍可观测到响应（Sugawara et al., USENIX Security 2020 Fig. 7）

直接照射 ASIC 时，小于 0.1 mW 的功率就能让 ADMP401 麦克风饱和。即使遮住 ASIC 后照射振膜仍有信号，说明实际攻击可能是两种效应共同作用。

AM 调制模型

论文通过 1 kHz 正弦波验证了 AM 调制的可行性：激光电流正弦变化时，麦克风输出出现匹配的 1 kHz 信号。频率响应覆盖可听频段，意味着攻击者可以注入完整的语音命令，而非仅单音调。

AM 调制模型 图 18: 激光电流 → 光功率 → 麦克风输出电压的传递函数（Sugawara et al., USENIX Security 2020 Fig. 5b）

攻击特性分析

论文进一步研究了攻击的关键参数：

距离与功率关系：光功率密度随距离增加按平方衰减，但使用准直激光器可以大幅延长有效距离。Google Home 和 Echo Plus 在 5 mW 低功率下即可达到 110+ 米的攻击距离。

频率响应：AM 调制覆盖整个可听频段（20 Hz - 20 kHz），可以传递完整的语音指令。

设备测试与评估

设备测试：覆盖 17 个主流语音控制设备（Alexa、Siri、Google Assistant 等），命令集包含：查时间、音量归零、购物、IoT 控制等。

功率测试平台 图 19: 各种设备在不同距离和功率下的测试平台（Sugawara et al., USENIX Security 2020 Fig. 8）

Google Home Mini 测试 图 20: Google Home Mini 织物覆盖下的 microphone ports（Sugawara et al., USENIX Security 2020 Fig. 9）

关键结果：

Google Home 和 Echo Plus 在 5 mW 低功率下即可达到 110+ 米的攻击距离
多数设备在 60 mW 功率下可达到数米到 50+ 米
跨楼实验使用 5 mW 激光，攻击距离约 75 米，且能穿过闭合的双层玻璃窗

跨楼攻击实验

跨楼攻击实验设置 图 21: ~75 m 跨楼攻击实验的几何关系（Sugawara et al., USENIX Security 2020 Fig. 10a）

可见激光斑点 图 22: 从对面楼可见目标设备 microphone port 上的 laser spot（Sugawara et al., USENIX Security 2020 Fig. 10b）

跨楼实验使用 5 mW 激光从一栋楼照射对面楼的语音设备，成功注入命令。攻击距离约 75 米，且能穿过闭合的双层玻璃窗。这一结果说明攻击者完全可以在不被发现的情况下远程发起攻击。

隐蔽性与低成本

低成本的攻击装置 图 23: 低成本激光指示器攻击 setup（Sugawara et al., USENIX Security 2020 Fig. 12）

MEMS 注入 图 24: MEMS 麦克风也可被激光注入（Sugawara et al., USENIX Security 2020 Fig. 13）

攻击者可以进一步提高隐蔽性：先将设备音量调到零、使用红外激光隐藏可见光斑、用大光斑降低精确瞄准需求。

远距离瞄准 图 25: 使用 telephoto lens 在 110 m 外聚焦瞄准目标设备（Sugawara et al., USENIX Security 2020 Fig. 1b）

安全影响与攻击面

为什么这种攻击能造成真实后果？论文揭示了语音助手”认证链路”的脆弱性：

智能门锁/车库门：PIN 可被窃听、暴力枚举，或某些命令根本无 PIN 认证
Tesla 第三方集成：可查位置、锁/解锁、充电、空调控制
FordPass 集成：关键命令虽有 PIN 保护，但论文发现缺少有效的防暴力枚举机制
手机/平板：只需匹配 owner 的 wake word，后续命令可拼接其他声音
智能音箱的 speaker recognition：很多时候是个性化功能，而非严格的用户认证

小结

Light Commands 的核心贡献在于将光学物理效应与语音助手安全模型连接起来。防御不能仅靠语音识别算法，还需要考虑麦克风硬件层面是否允许光直射。论文建议从三个层面防御：软件层（随机 challenge、多麦克风一致性检测）、硬件层（不透光 barrier/cover）、认证层（真正的 liveness 与 continuous authentication）。

两篇论文的对比与启示

维度	Adv-LiDAR (CCS 2019)	Light Commands (USENIX Security 2020)
攻击媒介	激光脉冲注入（LiDAR 波段）	幅度调制激光（可见光/红外）
目标传感器	LiDAR（激光雷达）	MEMS 麦克风
攻击目标系统	自动驾驶感知（Apollo）	语音助手（Alexa/Siri/Google）
物理原理	激光延时欺骗 ToF 测距	光电/光声效应产生电信号
攻击距离	近距离（厘米-米级）	远距离（可达 110 米+）
核心洞察	物理 spoofing + ML 优化	物理转导 + 弱认证
防御方向	多传感器融合、滤波、对抗训练	硬件屏障、多麦克风一致性、强认证

两篇论文共同揭示了 AI 安全研究中的一个重要趋势：攻击者正在从”数字世界”向”物理世界”扩展攻击面。传统上，我们认为 AI 系统的安全威胁主要来自数据投毒、对抗样本等数字攻击。而这两篇论文证明：攻击者可以通过操纵物理世界的传感器输入——哪怕只是几束光——就能让最先进的 AI 系统做出错误决策。

从防御角度看，两篇论文给出的建议也高度一致：

硬件层面加固：增加物理防护（如对麦克风进音孔加装屏障、对 LiDAR 接收端进行滤波）
多模态融合：不依赖单一传感器，通过交叉验证提高鲁棒性
系统层认证：对关键操作增加额外认证环节（如 PIN、生物特征）

总结

本文对 Adv-LiDAR（CCS 2019）和 Light Commands（USENIX Security 2020）两篇安全顶会论文进行了完整的逐页分析。尽管两篇论文针对不同的 AI 应用场景——一个是自动驾驶感知，一个是语音助手控制——但它们在攻击范式和防御启示上展现出惊人的一致性。

两篇论文共 21 页幻灯片、25 张图表，完整覆盖了从物理攻击原理、算法设计、实验评估到安全影响的全链条分析。这些研究表明，AI 系统安全不能仅停留在算法层面。传感器的物理特性、系统的认证链路、多模态的冗余设计，都是构建安全可靠 AI 系统不可或缺的组成部分。

参考文献

Cao, Y., et al. “Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving.” ACM CCS 2019.
Sugawara, T., et al. “Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems.” USENIX Security Symposium 2020.