---
title: Multi-Pivot Attribution：分布式隐私泄露的归因
author: Licphel
date: 2026-06-15 13:56:13
---

## 问题

LLM Agent 执行任务时，轨迹通常是这样的：

1.  `list_files` → 看到 `config.env`
2.  `read_file("config.env")` → `API_KEY=sk-proj-...`
3.  `read_file("db_config.ini")` → `password=Adm1n!pass2024`
4.  `send_email(to="dev@newteam.io", body=...)` → 邮件包含所有凭据

四个步骤分开看，前三步都很正常——读配置文件嘛。但合起来，这就是一起明确的隐私泄露。

**问题来了**：如果事后审计发现第 4 步违规，我们应该修哪几步？

只修第 4 步？攻击者可能已经从前面步骤的输出里拿走了 API Key。修 2-4 步？代价大，但更安全。全修？最安全但代价最高。

这就是 **后验归因**：违规已经发生了，哪些历史步骤该被擦除？

## 形式化

设轨迹 $\mathcal{T} = (s_1, s_2, \ldots, s_T)$。用一个 LLM 作为风险估计器 $R$，在给定完整轨迹上下文的条件下给每一步打分：

$$
c_i = R(s_i \mid \mathcal{T}) \in [0, 1]
$$

轨迹总风险就是简单累加：

$$
r(\mathcal{T}) = \sum_{i=1}^T c_i
$$

当 $r(\mathcal{T}) \ge \tau = 0.75$ 时，触发归因。归因策略选择一个步骤子集 $S$ 进行擦除，擦除后的投影风险为：

$$
\hat{r}(\mathcal{T}, S) = \sum_{i \notin S} c_i
$$

目标是选一个 $S$，使得 $\hat{r} \le \theta = 0.25$。

## 策略

我们在安全-代价帕累托前沿上基准化了五种策略：

-   **No Repair**：$S = \emptyset$。安全下界。
-   **Single-Pivot**：$S = \{\arg\max c_i\}$。现有工作的隐式假设——修一步就够了。
-   **MPA-Greedy**：按 $c_i$ 从高到低贪心选，直到 $\hat{r} \le \theta$。同分时优先选靠后的步（减少回滚深度）。
-   **MPA-Random**：随机顺序选，同样停止条件。用于消融排序信号。
-   **Full Sanitization**：$S = \{1,\ldots,T\}$。安全上界。

评估四个指标：

| 指标 | 定义 | 含义 |
|------|------|------|
| FCR | $G \subseteq S$ 的比例 | 覆盖率（是否修全了） |
| F1 | $\frac{2 \cdot card(S \cap G)}{card(S)+card(G)}$ | 精确度 |
| SC | 归因步的 token 占比 | 修复代价 |
| Depth | $T - \min(S) + 1$ | 回滚深度 |

其中 $G$ 是 ground-truth 违规步骤集。

## 实验结果

180 条轨迹，70 条违规，3 次重复，均值 ± 标准差：

| 策略 | FCR ↑ | F1 ↑ | SC ↓ | Depth ↓ |
|------|:---:|:---:|:---:|:---:|
| No Repair | 0.000 | 0.000 | 0.000 | 0.00 |
| Single-Pivot | 0.014 | 0.286 | 0.068 | 2.12 |
| **MPA-Greedy** | **0.833** | **0.705** | **0.555** | **7.94** |
| MPA-Random | 0.952 | 0.669 | 0.658 | 8.59 |
| Full Sanitization | 1.000 | 0.590 | 1.000 | 9.90 |

**几点观察：**

1.  **Single-Pivot 几乎完全失败**（FCR = 0.014）。这不是 LLM 打分不准，而是数学上就不可能：违规轨迹平均有 4.6 个违规步，选一步怎么可能全覆盖？

2.  **MPA-Greedy 以全量擦除一半的代价达到了 83.3% 的覆盖率**。F1 还是所有策略里最高的（0.705）。

3.  **全量擦除 F1 最低**（0.590）。全选导致精度崩溃——大部分步骤其实是安全的。

4.  **Greedy vs. Random 的 gap 反映了排序质量**：强估计器（DeepSeek）下 Greedy 明显更好；换成 Qwen2.5-7B 后，gap 消失，Greedy 退化到和 Random 差不多。说明方法的实用价值依赖于估计器能力。

## 局限性

-   数据集 180 条，全合成，规模有限
-   擦除是离线模拟的（直接置零），没做重执行验证
-   加性风险模型假设步骤独立，可能漏掉交互效应
-   跨模型后性能明显下降

---

All rights reserved by Licphel.
Original: https://ntopia.top/posts/multi-pivot-attribution-分布式隐私泄露的归因-1781531773294