> ## Documentation Index
> Fetch the complete documentation index at: https://docs.qoder.com/llms.txt
> Use this file to discover all available pages before exploring further.

# Computer Use 智能体

Computer Use 是 Qoder 的能力扩展，让智能体可以像人一样感知屏幕画面，并在你的电脑上执行点击、输入、滚动等操作。当任务涉及图形界面且无法通过命令行或 API 完成时，智能体可以直接操控桌面应用和浏览器来帮你完成工作 —— 而你可以继续在前台处理自己的事情。

<Note>
  Computer Use 目前为 Beta 功能，macOS 与 Windows 均已支持，体验和能力仍在持续改进中。
</Note>

<div id="core-capabilities">
  ## **核心能力**
</div>

<CardGroup cols={2}>
  <Card title="屏幕感知" icon="eye">
    * 读取目标应用窗口的可见内容，理解界面布局、按钮文字、表单状态等视觉信息。
    * 在操作过程中持续截图，判断页面是否加载完成、操作是否生效，再决定下一步动作。
  </Card>

  <Card title="键鼠操作" icon="keyboard">
    * 支持点击、双击、拖拽、文字输入、快捷键组合等完整的人机交互方式。
    * 操作精度达到像素级别，能准确定位并操作细小的 UI 元素。
  </Card>

  <Card title="自主执行" icon="play">
    * 智能体独立完成鼠标移动、键盘输入和屏幕截图，根据界面状态自主决定每一步操作。
    * macOS 上操作在后台进行，不占用前台焦点；Windows 上操作在前台进行，你能看到光标移动与每一步实际动作（详见下方平台差异）。
  </Card>

  <Card title="跨应用工作流" icon="layer-group">
    * 在多个桌面应用之间自主切换，串联多步操作形成完整流程。
    * 根据每一步的执行结果动态调整后续策略，而非机械地重复预设脚本。
  </Card>
</CardGroup>

<div id="usage-scenarios">
  ## **适用场景**
</div>

* **操作缺少 API 的桌面应用**：当目标应用没有命令行接口或插件支持时，智能体通过图形界面直接完成操作，例如在设计工具中调整参数、在管理后台批量修改配置。
* **跨应用流程自动化**：需要在多个应用之间搬运信息或执行连续步骤时，智能体可以自主切换窗口、复制数据、填写表单，完成端到端的工作流。
* **图形界面验证与测试**：验证 UI 修改的实际效果、复现仅在图形界面中出现的问题，或检查应用在特定操作序列下的表现。
* **信息采集与整理**：从没有导出功能的应用中提取数据，或将分散在多个界面中的信息汇总整理到统一位置。

> 对于 Web 应用的操作，建议优先使用 [Browser Agent](/zh/user-guide/chat/browser-agent)。

<div id="system-requirements">
  ## **系统要求**
</div>

* macOS 14 (Sonoma) 或更高版本。
* Windows 10 或更高版本。

<div id="platform-differences">
  ## **Windows 与 macOS 的差异**
</div>

Windows 的输入机制和窗口管理与 macOS 差异较大，我们在 Windows 上独立重新实现了整套桌面操控能力。使用体验上有两点区别：

* **操作在前台进行**：Windows 的输入机制要求目标窗口处于前台才能接收操作，因此你能看到光标移动、看到每一步实际发生的动作。需要中断时随时按 `Esc`。
* **弹窗能被识别**：Windows 下 Office 等应用经常弹出确认框和警告框，这些弹窗是独立窗口，主窗口截图里看不到。Qoder 做了自动检测与合成，能识别并处理这些弹窗，不会卡在「是否保存」之类的提示上。

<div id="how-to-use">
  ## **如何使用**
</div>

在输入框中使用斜杠命令 `/computer-use` 唤起该能力，并用自然语言描述你的任务。在会话中实时查看智能体的截图和操作进度，随时中断任务或通过对话给出额外指示。

<Note>
  Editor Window 的所有模式均支持 Computer Use；Quest Window 仅在 Experts 模式下支持 Computer Use。
</Note>

<div id="app-window-snapshot">
  ## **应用窗口快照**
</div>

需要把当前最前面的应用窗口作为上下文交给智能体时，**双击 `Command` 键**即可对当前活动的应用窗口捕获快照，截图会以图片附件的形式自动发送到 Qoder 的对话输入框，作为下一条指令的上下文 —— 无需切换窗口、手动截图再上传。

适合的场景包括：

* 把设计稿、原型、参考素材等从设计工具中快速带入对话，作为生成或修改代码的依据。
* 在浏览器、数据库客户端、终端等应用中遇到错误信息或异常画面时，快速发给智能体协助定位和分析。
* 在浏览 API 文档、技术博客或教程时，把关键页面快照传给智能体，让其参考最新内容直接实现功能或修复代码。

如果不需要该能力，可在设置中关闭：进入 **集成** 页面，找到 **应用窗口快照**，点击右侧下拉菜单选择 **禁用** 即可。

<div id="permissions">
  ## **权限与授权**
</div>

首次启用 Computer Use 时，Qoder 会弹出权限引导窗口，请求两项系统权限：

* **辅助功能（Accessibility）**：允许 Qoder 读取界面元素树并执行点击、输入等辅助功能操作。
* **屏幕录制（Screen Recording）**：允许 Qoder 截取当前活动窗口的屏幕截图，以便智能体感知界面状态。

点击「打开设置」后，系统将跳转至对应的系统设置页面，拖动 Qoder Computer Use 至应用列表内完成授权。

当智能体尝试操作某个应用时，Qoder 会请求你的授权。默认情况下为 **Ask every time**，也可以在设置内进行修改：打开设置，进入 **Integrations** 页面，在 **Built-in Agent** 区域找到 **Computer Use Agent**，点击右侧下拉菜单选择执行策略。

* **Ask every time**：每次智能体需要操控桌面时都会请求你的确认。
* **Auto-run**：智能体可以自动执行桌面操作，无需逐次确认。
* **Disabled**：完全关闭 Computer Use 能力。

Editor Window 和 Quest Window 的设置均在此处统一管理。

<div id="cautions">
  ## **注意事项**
</div>

* **授权即可操控电脑**：启用后，智能体可以操作你电脑上的其他应用，效果等同于你本人操作。不需要时在设置内关闭。
* **操作可能不可撤销**：智能体在桌面应用中的操作（如发送消息、删除文件）可能无法回退。高风险场景建议使用「Ask every time」策略。
* **屏幕内容会被截图**：智能体通过截图感知界面，屏幕上的敏感信息可能被捕获。操作前建议关闭含密码或隐私数据的窗口。
