跳到主要内容

浏览器和计算机控制

当 agent 需要以人类的方式使用您的机器时——打开页面、截图、点击按钮、输入短语——这些工具就是它实现的方式。

浏览器

打开 agent 可以读取的嵌入式 webview 中的 URL
截图当前页面
检查图像输出和元数据，以便 agent 描述它看到的内容

浏览器表面通过 CEF（Chromium Embedded Framework）运行。

计算机（鼠标 + 键盘）

鼠标 - 移动、点击、拖拽
键盘 - 输入文本、发送按键
类人路径 - 移动和点击遵循类人轨迹，而不是瞬间移动

适用场景

驱动没有 API 或原生集成的网站
需要单个截图不够的多步 UI 流程
从聊天中自动化本地应用

另见

网络抓取器 - 当您只需要文章而不是整个页面时

浏览器
计算机（鼠标 + 键盘）
适用场景
另见