跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.qoder.com/llms.txt

Use this file to discover all available pages before exploring further.

Computer Use 是 Qoder 的能力扩展,让智能体可以像人一样感知屏幕画面,并在你的电脑上执行点击、输入、滚动等操作。当任务涉及图形界面且无法通过命令行或 API 完成时,智能体可以直接操控桌面应用和浏览器来帮你完成工作 —— 而你可以继续在前台处理自己的事情。
Computer Use 目前为 Beta 功能,体验和能力仍在持续改进中。

核心能力

屏幕感知

  • 读取目标应用窗口的可见内容,理解界面布局、按钮文字、表单状态等视觉信息。
  • 在操作过程中持续截图,判断页面是否加载完成、操作是否生效,再决定下一步动作。

键鼠操作

  • 支持点击、双击、拖拽、文字输入、快捷键组合等完整的人机交互方式。
  • 操作精度达到像素级别,能准确定位并操作细小的 UI 元素。

后台自主执行

  • 智能体在后台独立完成鼠标移动、键盘输入和屏幕截图,不占用你的前台焦点。
  • 你可以在智能体工作的同时继续使用电脑处理其他事务,互不干扰。

跨应用工作流

  • 在多个桌面应用之间自主切换,串联多步操作形成完整流程。
  • 根据每一步的执行结果动态调整后续策略,而非机械地重复预设脚本。

适用场景

  • 操作缺少 API 的桌面应用:当目标应用没有命令行接口或插件支持时,智能体通过图形界面直接完成操作,例如在设计工具中调整参数、在管理后台批量修改配置。
  • 跨应用流程自动化:需要在多个应用之间搬运信息或执行连续步骤时,智能体可以自主切换窗口、复制数据、填写表单,完成端到端的工作流。
  • 图形界面验证与测试:验证 UI 修改的实际效果、复现仅在图形界面中出现的问题,或检查应用在特定操作序列下的表现。
  • 信息采集与整理:从没有导出功能的应用中提取数据,或将分散在多个界面中的信息汇总整理到统一位置。
对于 Web 应用的操作,建议优先使用 Browser Agent

系统要求

  • macOS 14 (Sonoma) 或更高版本。

如何使用

在输入框中使用斜杠命令 /computer-use 唤起该能力,并用自然语言描述你的任务。在会话中实时查看智能体的截图和操作进度,随时中断任务或通过对话给出额外指示。
Editor Window 的所有模式均支持 Computer Use;Quest Window 仅在 Experts 模式下支持 Computer Use。

权限与授权

首次启用 Computer Use 时,Qoder 会弹出权限引导窗口,请求两项系统权限:
  • 辅助功能(Accessibility):允许 Qoder 读取界面元素树并执行点击、输入等辅助功能操作。
  • 屏幕录制(Screen Recording):允许 Qoder 截取当前活动窗口的屏幕截图,以便智能体感知界面状态。
点击「打开设置」后,系统将跳转至对应的系统设置页面,拖动 Qoder Computer Use 至应用列表内完成授权。 当智能体尝试操作某个应用时,Qoder 会请求你的授权。默认情况下为 Ask every time,也可以在设置内进行修改:打开设置,进入 Integrations 页面,在 Built-in Agent 区域找到 Computer Use Agent,点击右侧下拉菜单选择执行策略。
  • Ask every time:每次智能体需要操控桌面时都会请求你的确认。
  • Auto-run:智能体可以自动执行桌面操作,无需逐次确认。
  • Disabled:完全关闭 Computer Use 能力。
Editor Window 和 Quest Window 的设置均在此处统一管理。

注意事项

  • 授权即可操控电脑:启用后,智能体可以操作你电脑上的其他应用,效果等同于你本人操作。不需要时在设置内关闭。
  • 操作可能不可撤销:智能体在桌面应用中的操作(如发送消息、删除文件)可能无法回退。高风险场景建议使用「Ask every time」策略。
  • 屏幕内容会被截图:智能体通过截图感知界面,屏幕上的敏感信息可能被捕获。操作前建议关闭含密码或隐私数据的窗口。