跳到主要内容

版本：2.0.x

自动压缩对话上下文

当对话轮次增多，历史消息会超出大模型的处理上限。上下文压缩策略可以在消息数量达到阈值后自动生成摘要，将较早的消息压缩存储，降低每次模型调用的上下文压力。

工作机制

跟踪对话中的消息数量
当历史消息数达到阈值时，触发一次摘要生成
被替换的旧消息会持久化到 Agent 工作空间，后续可回溯
摘要替换旧消息加入对话，并保留最近的若干条完整消息（默认 20 条）

配置项

策略在 Agent 编辑器的 运行与安全 -> 上下文 中配置：

消息阈值：历史消息数量达到该值后触发一次摘要生成。默认值 40。值越小摘要越频繁，值越大对话上下文越完整。
Token 阈值：生成摘要时送入模型的历史内容上限。默认值 128000。超出部分会被裁剪。值越大，单次摘要纳入的上文可能越多。
摘要模型：用于生成摘要的模型。不配置时复用当前 Agent 的主模型和主模型参数。

子Agent 配置

子Agent 作为独立的 Agent 实例，可以在各自的配置中独立设置上下文压缩策略，互不影响。

与运行时上下文和长期记忆的区别

上下文压缩处理的是当前会话中过长的历史消息，目标是让长对话继续运行。
运行时上下文注入处理的是当前时间、用户、语言、角色和组织信息，目标是让 Agent 理解当前运行环境。
长期记忆处理的是跨会话可复用的信息，目标是让 Agent 在后续会话中召回历史偏好、规则或事实。

三者可以同时使用。长任务优先配置上下文压缩；需要感知当前用户身份时配置运行时上下文；需要跨会话记住用户偏好或项目事实时配置长期记忆。

典型场景

上下文压缩适合复杂多轮长任务，典型场景包括：

长时间客服会话：客户与 Agent 反复沟通问题，对话轮次可能很快超过阈值
多轮数据分析：Agent 逐步探索数据、调整分析方向、验证结论，每次迭代都有新交互
持续文档协作：Agent 辅助编写和修改长文档，需要保持对前文意图的连贯理解

工作机制
配置项
子Agent 配置
与运行时上下文和长期记忆的区别
典型场景