跳到主要内容
版本:2.0.x

自动压缩对话上下文

当对话轮次增多,历史消息会超出大模型的处理上限。上下文压缩策略可以在消息数量达到阈值后自动生成摘要,将较早的消息压缩存储,降低每次模型调用的上下文压力。

工作机制

  • 跟踪对话中的消息数量
  • 当历史消息数达到阈值时,触发一次摘要生成
  • 被替换的旧消息会持久化到 Agent 工作空间,后续可回溯
  • 摘要替换旧消息加入对话,并保留最近的若干条完整消息(默认 20 条)

配置项

策略在 Agent 编辑器的 高级上下文上下文压缩策略 中配置:

  • 消息阈值:历史消息数量达到该值后触发一次摘要生成。默认值 40。值越小摘要越频繁,值越大对话上下文越完整。
  • Token 阈值:生成摘要时送入模型的历史内容上限。默认值 128000。超出部分会被裁剪。值越大,单次摘要纳入的上文可能越多。
  • 摘要模型:用于生成摘要的模型。不配置时复用当前 Agent 的主模型和主模型参数。

子Agent 配置

子Agent 作为独立的 Agent 实例,可以在各自的配置中独立设置上下文压缩策略,互不影响。

典型场景

上下文压缩适合复杂多轮长任务,典型场景包括:

  • 长时间客服会话:客户与 Agent 反复沟通问题,对话轮次可能很快超过阈值
  • 多轮数据分析:Agent 逐步探索数据、调整分析方向、验证结论,每次迭代都有新交互
  • 持续文档协作:Agent 辅助编写和修改长文档,需要保持对前文意图的连贯理解