跳到主要内容

Token 压缩

模型有固定的上下文窗口。Token 压缩是 OpenHuman 保持长对话、大型记忆树和冗长工具结果不会达到该上限的方式。

压缩内容

来源方法
网络搜索结果片段提取 - 保留前 3 个结果,丢弃其余
网络抓取器输出剥离 + 在 1 MB 输入 / 50 K 输出处截断
记忆召回结果在将块传递给模型之前进行语义去重
长工具输出带"见文件"提示的行号截断
对话历史当轮数超过窗口时重写摘要

工作原理

原始输入 → 过滤器(广告、导航、样板)→ 块 → 去重 → 总结(如超过限制)→ 模型

配置

标志默认功能
MAX_SEARCH_RESULTS3每次搜索保留的结果数
MAX_SCRAPE_BYTES1 MB每页输入上限
MAX_MEMORY_CHUNKS20每次查询召回的块数

另见