Multi-Pivot Attribution：分布式隐私泄露的归因

14 Jun

Multi-Pivot Attribution：分布式隐私泄露的归因

Licphel Owner Lv.2 | 2026-06-14 | blog-computer | 36 阅读 | 点赞 | 收藏

问题构建

LLM Agent 执行任务时，轨迹通常是这样的：

list_files → 看到 config.env
read_file("config.env") → API_KEY=sk-proj-...
read_file("db_config.ini") → password=Adm1n!pass2024
send_email(to="dev@newteam.io", body=...) → 邮件包含所有凭据

四个步骤分开看，前三步都很正常——读配置文件嘛。但合起来，这就是一起明确的隐私泄露。

问题来了：如果事后审计发现第 4 步违规，我们应该修哪几步？

只修第 4 步？攻击者可能已经从前面步骤的输出里拿走了 API Key。修 2-4 步？代价大，但更安全。全修？最安全但代价最高。

这就是 后验归因：违规已经发生了，哪些历史步骤该被擦除？

形式化

设轨迹 $\mathcal{T} = (s_1, s_2, \ldots, s_T)$。用一个 LLM 作为风险估计器 $R$，在给定完整轨迹上下文的条件下给每一步打分：

$$
c_i = R(s_i \mid \mathcal{T}) \in [0, 1]
$$

轨迹总风险就是简单累加：

$$
r(\mathcal{T}) = \sum_{i=1}^T c_i
$$

当 $r(\mathcal{T}) \ge \tau = 0.75$ 时，触发归因。归因策略选择一个步骤子集 $S$ 进行擦除，擦除后的投影风险为：

$$
\hat{r}(\mathcal{T}, S) = \sum_{i \notin S} c_i
$$

目标是选一个 $S$，使得 $\hat{r} \le \theta = 0.25$。

五种策略

我们在安全-代价帕累托前沿上基准化了五种策略：

No Repair：$S = \emptyset$。安全下界。
Single-Pivot：$S = {\arg\max c_i}$。现有工作的隐式假设——修一步就够了。
MPA-Greedy：按 $c_i$ 从高到低贪心选，直到 $\hat{r} \le \theta$。同分时优先选靠后的步（减少回滚深度）。
MPA-Random：随机顺序选，同样停止条件。用于消融排序信号。
Full Sanitization：$S = {1,\ldots,T}$。安全上界。

评估四个指标：

指标	定义	含义
FCR	$G \subseteq S$ 的比例	覆盖率（是否修全了）
F1	$2\vert S \cap G \vert/(\vert S \vert + \vert G \vert)$	精确度
SC	归因步的 token 占比	修复代价
Depth	$T - \min(S) + 1$	回滚深度

其中 $G$ 是 ground-truth 违规步骤集。

实验结果

180 条轨迹，70 条违规，3 次重复，均值 ± 标准差：

策略	FCR ↑	F1 ↑	SC ↓	Depth ↓
No Repair	0.000	0.000	0.000	0.00
Single-Pivot	0.014	0.286	0.068	2.12
MPA-Greedy	0.833	0.705	0.555	7.94
MPA-Random	0.952	0.669	0.658	8.59
Full Sanitization	1.000	0.590	1.000	9.90

几点观察：

Single-Pivot 几乎完全失败（FCR = 0.014）。这不是 LLM 打分不准，而是数学上就不可能：违规轨迹平均有 4.6 个违规步，选一步怎么可能全覆盖？
MPA-Greedy 以全量擦除一半的代价达到了 83.3% 的覆盖率。F1 还是所有策略里最高的（0.705）。
全量擦除 F1 最低（0.590）。全选导致精度崩溃——大部分步骤其实是安全的。
Greedy vs. Random 的 gap 反映了排序质量：强估计器（DeepSeek）下 Greedy 明显更好；换成 Qwen2.5-7B 后，gap 消失，Greedy 退化到和 Random 差不多。说明方法的实用价值依赖于估计器能力。

局限性

数据集 180 条，全合成，规模有限
擦除是离线模拟的（直接置零），没做重执行验证
加性风险模型假设步骤独立，可能漏掉交互效应
跨模型后性能明显下降

总结

MPA 的贡献：把 LLM Agent 轨迹中分布式隐私泄露的“事后该修哪几步”问题形式化，然后系统比较了五种策略。核心结论：

单步修复在分布式违规下没用（FCR ≈ 0）
多步贪心归因用一半代价换来了强覆盖率
归因的实用价值取决于风险估计器的质量

感想

一篇合格（也许算不上）的大作业，严重不合格的论文。不知天高地厚，投到了 ACL Rolling Review。总而言之，能不被 Desk Reject 就知足了。

标签: LLM Agent

Ntopia

关于本站

站务信息（重要）