问题构建

LLM Agent 执行任务时,轨迹通常是这样的:

  1. list_files → 看到 config.env
  2. read_file("config.env")API_KEY=sk-proj-...
  3. read_file("db_config.ini")password=Adm1n!pass2024
  4. send_email(to="dev@newteam.io", body=...) → 邮件包含所有凭据

四个步骤分开看,前三步都很正常——读配置文件嘛。但合起来,这就是一起明确的隐私泄露。

问题来了:如果事后审计发现第 4 步违规,我们应该修哪几步?

只修第 4 步?攻击者可能已经从前面步骤的输出里拿走了 API Key。修 2-4 步?代价大,但更安全。全修?最安全但代价最高。

这就是 后验归因:违规已经发生了,哪些历史步骤该被擦除?


形式化

设轨迹 $\mathcal{T} = (s_1, s_2, \ldots, s_T)$。用一个 LLM 作为风险估计器 $R$,在给定完整轨迹上下文的条件下给每一步打分:

$$
c_i = R(s_i \mid \mathcal{T}) \in [0, 1]
$$

轨迹总风险就是简单累加:

$$
r(\mathcal{T}) = \sum_{i=1}^T c_i
$$

当 $r(\mathcal{T}) \ge \tau = 0.75$ 时,触发归因。归因策略选择一个步骤子集 $S$ 进行擦除,擦除后的投影风险为:

$$
\hat{r}(\mathcal{T}, S) = \sum_{i \notin S} c_i
$$

目标是选一个 $S$,使得 $\hat{r} \le \theta = 0.25$。


五种策略

我们在安全-代价帕累托前沿上基准化了五种策略:

  • No Repair:$S = \emptyset$。安全下界。
  • Single-Pivot:$S = {\arg\max c_i}$。现有工作的隐式假设——修一步就够了。
  • MPA-Greedy:按 $c_i$ 从高到低贪心选,直到 $\hat{r} \le \theta$。同分时优先选靠后的步(减少回滚深度)。
  • MPA-Random:随机顺序选,同样停止条件。用于消融排序信号。
  • Full Sanitization:$S = {1,\ldots,T}$。安全上界。

评估四个指标:

指标 定义 含义
FCR $G \subseteq S$ 的比例 覆盖率(是否修全了)
F1 $2\vert S \cap G \vert/(\vert S \vert + \vert G \vert)$ 精确度
SC 归因步的 token 占比 修复代价
Depth $T - \min(S) + 1$ 回滚深度

其中 $G$ 是 ground-truth 违规步骤集。


实验结果

180 条轨迹,70 条违规,3 次重复,均值 ± 标准差:

策略 FCR ↑ F1 ↑ SC ↓ Depth ↓
No Repair 0.000 0.000 0.000 0.00
Single-Pivot 0.014 0.286 0.068 2.12
MPA-Greedy 0.833 0.705 0.555 7.94
MPA-Random 0.952 0.669 0.658 8.59
Full Sanitization 1.000 0.590 1.000 9.90

几点观察:

  1. Single-Pivot 几乎完全失败(FCR = 0.014)。这不是 LLM 打分不准,而是数学上就不可能:违规轨迹平均有 4.6 个违规步,选一步怎么可能全覆盖?

  2. MPA-Greedy 以全量擦除一半的代价达到了 83.3% 的覆盖率。F1 还是所有策略里最高的(0.705)。

  3. 全量擦除 F1 最低(0.590)。全选导致精度崩溃——大部分步骤其实是安全的。

  4. Greedy vs. Random 的 gap 反映了排序质量:强估计器(DeepSeek)下 Greedy 明显更好;换成 Qwen2.5-7B 后,gap 消失,Greedy 退化到和 Random 差不多。说明方法的实用价值依赖于估计器能力。


局限性

  • 数据集 180 条,全合成,规模有限
  • 擦除是离线模拟的(直接置零),没做重执行验证
  • 加性风险模型假设步骤独立,可能漏掉交互效应
  • 跨模型后性能明显下降

总结

MPA 的贡献:把 LLM Agent 轨迹中分布式隐私泄露的“事后该修哪几步”问题形式化,然后系统比较了五种策略。核心结论:

  1. 单步修复在分布式违规下没用(FCR ≈ 0)
  2. 多步贪心归因用一半代价换来了强覆盖率
  3. 归因的实用价值取决于风险估计器的质量

感想

一篇合格(也许算不上)的大作业,严重不合格的论文。不知天高地厚,投到了 ACL Rolling Review。总而言之,能不被 Desk Reject 就知足了。