LLM Agent 的隐私泄露往往不是一步到位的,而是多个看似无害的步骤组合起来才出问题。本文形式化了一个“后验归因”问题:泄露已经发生了,该修哪几步?我们提出 Multi-Pivot Attribution (MPA),用上下文感知的 LLM 给每一步打分,累加到阈值就触发干预,然后用贪心排序挑出需要擦除的步骤子集。在 180 条 Agent 轨迹上的实验表明,多步归因显著优于单步基线,而且用全量擦除约一半的代价就达到了接近的安全水平。

阅读全文...