问题构建
LLM Agent 执行任务时,轨迹通常是这样的:
list_files→ 看到config.envread_file("config.env")→API_KEY=sk-proj-...read_file("db_config.ini")→password=Adm1n!pass2024send_email(to="dev@newteam.io", body=...)→ 邮件包含所有凭据
四个步骤分开看,前三步都很正常——读配置文件嘛。但合起来,这就是一起明确的隐私泄露。
问题来了:如果事后审计发现第 4 步违规,我们应该修哪几步?
只修第 4 步?攻击者可能已经从前面步骤的输出里拿走了 API Key。修 2-4 步?代价大,但更安全。全修?最安全但代价最高。
这就是 后验归因:违规已经发生了,哪些历史步骤该被擦除?
形式化
设轨迹 $\mathcal{T} = (s_1, s_2, \ldots, s_T)$。用一个 LLM 作为风险估计器 $R$,在给定完整轨迹上下文的条件下给每一步打分:
$$
c_i = R(s_i \mid \mathcal{T}) \in [0, 1]
$$
轨迹总风险就是简单累加:
$$
r(\mathcal{T}) = \sum_{i=1}^T c_i
$$
当 $r(\mathcal{T}) \ge \tau = 0.75$ 时,触发归因。归因策略选择一个步骤子集 $S$ 进行擦除,擦除后的投影风险为:
$$
\hat{r}(\mathcal{T}, S) = \sum_{i \notin S} c_i
$$
目标是选一个 $S$,使得 $\hat{r} \le \theta = 0.25$。
五种策略
我们在安全-代价帕累托前沿上基准化了五种策略:
- No Repair:$S = \emptyset$。安全下界。
- Single-Pivot:$S = {\arg\max c_i}$。现有工作的隐式假设——修一步就够了。
- MPA-Greedy:按 $c_i$ 从高到低贪心选,直到 $\hat{r} \le \theta$。同分时优先选靠后的步(减少回滚深度)。
- MPA-Random:随机顺序选,同样停止条件。用于消融排序信号。
- Full Sanitization:$S = {1,\ldots,T}$。安全上界。
评估四个指标:
| 指标 | 定义 | 含义 |
|---|---|---|
| FCR | $G \subseteq S$ 的比例 | 覆盖率(是否修全了) |
| F1 | $2\vert S \cap G \vert/(\vert S \vert + \vert G \vert)$ | 精确度 |
| SC | 归因步的 token 占比 | 修复代价 |
| Depth | $T - \min(S) + 1$ | 回滚深度 |
其中 $G$ 是 ground-truth 违规步骤集。
实验结果
180 条轨迹,70 条违规,3 次重复,均值 ± 标准差:
| 策略 | FCR ↑ | F1 ↑ | SC ↓ | Depth ↓ |
|---|---|---|---|---|
| No Repair | 0.000 | 0.000 | 0.000 | 0.00 |
| Single-Pivot | 0.014 | 0.286 | 0.068 | 2.12 |
| MPA-Greedy | 0.833 | 0.705 | 0.555 | 7.94 |
| MPA-Random | 0.952 | 0.669 | 0.658 | 8.59 |
| Full Sanitization | 1.000 | 0.590 | 1.000 | 9.90 |
几点观察:
Single-Pivot 几乎完全失败(FCR = 0.014)。这不是 LLM 打分不准,而是数学上就不可能:违规轨迹平均有 4.6 个违规步,选一步怎么可能全覆盖?
MPA-Greedy 以全量擦除一半的代价达到了 83.3% 的覆盖率。F1 还是所有策略里最高的(0.705)。
全量擦除 F1 最低(0.590)。全选导致精度崩溃——大部分步骤其实是安全的。
Greedy vs. Random 的 gap 反映了排序质量:强估计器(DeepSeek)下 Greedy 明显更好;换成 Qwen2.5-7B 后,gap 消失,Greedy 退化到和 Random 差不多。说明方法的实用价值依赖于估计器能力。
局限性
- 数据集 180 条,全合成,规模有限
- 擦除是离线模拟的(直接置零),没做重执行验证
- 加性风险模型假设步骤独立,可能漏掉交互效应
- 跨模型后性能明显下降
总结
MPA 的贡献:把 LLM Agent 轨迹中分布式隐私泄露的“事后该修哪几步”问题形式化,然后系统比较了五种策略。核心结论:
- 单步修复在分布式违规下没用(FCR ≈ 0)
- 多步贪心归因用一半代价换来了强覆盖率
- 归因的实用价值取决于风险估计器的质量
感想
一篇合格(也许算不上)的大作业,严重不合格的论文。不知天高地厚,投到了 ACL Rolling Review。总而言之,能不被 Desk Reject 就知足了。