跳到主要内容

浏览器和计算机控制

当 agent 需要以人类的方式使用您的机器时——打开页面、截图、点击按钮、输入短语——这些工具就是它实现的方式。

浏览器

  • 打开 agent 可以读取的嵌入式 webview 中的 URL
  • 截图 当前页面
  • 检查图像输出和元数据,以便 agent 描述它看到的内容

浏览器表面通过 CEF(Chromium Embedded Framework)运行。

计算机(鼠标 + 键盘)

  • 鼠标 - 移动、点击、拖拽
  • 键盘 - 输入文本、发送按键
  • 类人路径 - 移动和点击遵循类人轨迹,而不是瞬间移动

适用场景

  • 驱动没有 API 或原生集成的网站
  • 需要单个截图不够的多步 UI 流程
  • 从聊天中自动化本地应用

另见