核心能力
屏幕感知
读取目标应用窗口的可见内容,理解布局、按钮文字、表单状态等视觉信息。操作过程中持续截屏确认上一步是否成功,再决定下一步动作。
鼠标与键盘控制
支持完整的人类输入方式:点击、双击、拖拽、文字输入和键盘快捷键。操作精度达到像素级别,能准确点击小型 UI 元素。
后台自主执行
在后台驱动鼠标、键盘和截屏,不会抢占你的前台焦点。你可以继续使用电脑做其他事情,AI 在背后默默完成任务。
跨应用流程
在多个桌面应用之间切换,将多步操作串联成完整的工作流。根据实时反馈动态调整下一步,而非照搬固定脚本。
使用场景
- 操作没有 API 的桌面应用 — 当目标应用没有命令行或插件时,AI 直接操作图形界面。比如在设计工具中调参数、在管理后台批量修改设置。
- 跨应用工作流 — 任务跨越多个应用时,AI 自动切换窗口、复制数据、填写表单,端到端完成。
- GUI 验证与测试 — 确认界面变更是否按预期工作,复现仅在 GUI 中出现的问题,或检查应用对特定操作序列的响应。
- 信息收集整合 — 从没有导出功能的应用中提取数据,或汇总散落在多个应用中的信息。
系统要求
- macOS 14 或更高版本
- 需要授予辅助功能和屏幕录制权限
使用方式
在对话中直接描述需要在图形界面中完成的任务,QoderWork 会自动判断并启用电脑操控:开启电脑操控
使用电脑操控前,需要先在连接器中开启「计算机控制」:系统权限授权
开启连接器后,首次使用电脑操控时 QoderWork 会引导你授予两项系统权限:
授权完成后,当 AI 尝试操控某个应用时,QoderWork 会征求你的确认。你可以在设置中选择执行策略:
| 策略 | 说明 |
|---|---|
| 每次询问(默认) | AI 每次需要操控桌面时都会先征求你的确认 |
| 自动执行 | AI 直接执行桌面操作,无需逐次确认 |
| 禁用 | 完全关闭电脑操控功能 |
操作过程
当 QoderWork 执行电脑操控时,你会在对话中看到完全透明的操作流程:- 截屏 — AI 截取当前屏幕画面来了解界面状态
- 操作描述 — 每一步操作前说明即将做什么
- 实际操作 — 执行点击、输入、滚动等动作
- 结果确认 — 操作后再次截屏确认结果是否符合预期
典型场景
从应用中提取数据
系统设置调整
跨应用信息整合
使用建议
描述清楚目标应用和路径 告诉 QoderWork 要操作哪个应用、去哪个位置,比”帮我设置一下”要清晰得多。 分步骤下达复杂指令 如果操作步骤很多,可以分几次告诉 AI——先做第一步,确认无误后再继续。 配合 Skill 实现自动化 经常重复的界面操作流程,可以保存为 Skill,以后一句话就能触发整个流程。注意事项
- 部分操作不可撤销 — AI 在桌面应用中执行的操作(如发送消息、删除文件)可能无法撤回。对于高风险场景,建议使用「每次询问」策略。
- 屏幕内容会被截取 — AI 通过截屏感知界面,屏幕上可见的任何内容(包括敏感信息)都可能被捕获。运行自动化前请关闭含密码或私密数据的窗口。
- 网络操作谨慎 — 如果 AI 操作了含有你登录状态的应用,它可以代你发送邮件、提交表单等。对此类操作保持警惕。
使用限制
- 验证码和二步验证 — AI 无法完成 CAPTCHA、短信验证码、人脸识别等操作,需要你手动介入。
- 速度 — 电脑操控需要截屏和分析画面,比纯文本操作慢。
- 精确度 — 界面复杂或元素密集时,AI 的点击精度可能不够高。如果操作失败,尝试描述得更具体。
下一步
连接器
连接浏览器、日历、Microsoft 365、钉钉等外部系统
应用快照
把最前方应用截图作为对话上下文
