跳到主要内容

网络抓取器

一个专用获取工具,区别于通用的 http_request。它的存在是因为 agent 不想要原始 HTML - 它想要的是文章

功能

  • 获取 URL
  • 剥离样板(导航、广告、页脚、脚本)
  • 返回 agent 可以推理的干净文本

保护措施

  • 响应上限 1 MB - 大页面被截断
  • 20 秒超时 - 慢服务器不会阻塞对话
  • 受代理和 URL 保护规则约束

适用场景

  • 阅读文章、博客文章、文档页面、GitHub README,没有噪音
  • 跟进网络搜索结果
  • 按需总结单个页面

另见