跳到主要内容

网络抓取器

一个专用获取工具，区别于通用的 http_request。它的存在是因为 agent 不想要原始 HTML - 它想要的是文章。

功能

获取 URL
剥离样板（导航、广告、页脚、脚本）
返回 agent 可以推理的干净文本

保护措施

响应上限 1 MB - 大页面被截断
20 秒超时 - 慢服务器不会阻塞对话
受代理和 URL 保护规则约束

适用场景

阅读文章、博客文章、文档页面、GitHub README，没有噪音
跟进网络搜索结果
按需总结单个页面

另见

网络搜索 - 找到要输入抓取器的 URL
Token 压缩 - 什么在长页面到达模型之前修剪它们

功能
保护措施
适用场景
另见