浏览器和计算机控制
当 agent 需要以人类的方式使用您的机器时——打开页面、截图、点击按钮、输入短语——这些工具就是它实现的方式。
浏览器
- 打开 agent 可以读取的嵌入式 webview 中的 URL
- 截图 当前页面
- 检查图像输出和元数据,以便 agent 描述它看到的内容
浏览器表面通过 CEF(Chromium Embedded Framework)运行。
计算机(鼠标 + 键盘)
- 鼠标 - 移动、点击、拖拽
- 键盘 - 输入文本、发送按键
- 类人路径 - 移动和点击遵循类人轨迹,而不是瞬间移动
适用场景
- 驱动没有 API 或原生集成的网站
- 需要单个截图不够的多步 UI 流程
- 从聊天中自动化本地应用
另见
- 网络抓取器 - 当您只需要文章而不是整个页面时