核心能力
-
打开与导航网页
- 根据你给出的 URL 打开指定网页。
- 在同一站点内跳转到新的页面或标签,例如点击导航栏链接、分页链接等。
- 支持多步导航任务,例如“依次打开 A 页面 -> 点击 B 菜单 -> 进入 C 详情页”。
-
阅读与提取信息
- 读取当前页面的可见文本内容,如标题、段落、列表和表格等。
- 从页面中提取关键信息,并用自然语言为你总结或对比。
- 根据你的指令在页面中“查找”相关信息,例如“在这个页面上找一下价格相关的内容”。
-
交互与操作页面
- 点击按钮、链接、切换标签页或展开/收起折叠内容。
- 在输入框、搜索框等表单元素中输入文字,并提交表单。
- 通过滚动页面浏览更多内容,避免遗漏关键信息。
-
可视反馈与状态感知
- 在执行复杂步骤时,按需截图当前页面状态,用于后续判断与说明。
- 感知页面是否加载完成、表单是否提交成功、是否跳转到了新的页面等,以便决定下一步操作。
适用场景示例
-
信息检索与对比
- 访问产品官网、文档站点或博客,提取关键信息并生成总结。
- 对多个页面或多个方案进行对比,例如价格、功能或配置差异。
-
在线操作与流程演练
- 演练一个「基于网页」的操作流程,例如注册账号、提交工单(在权限允许和风险可控的前提下)。
- 帮助你梳理某个 Web 后台系统的典型使用步骤,并输出操作说明草稿。
-
辅助开发与测试
- 打开线上文档或 API 参考,提炼出与你当前代码相关的部分。
- 浏览 Web 应用的界面,帮助你检查页面结构、文案或交互逻辑,并给出优化建议。
建议在任务描述中说明目标和约束(例如“只阅读不提交任何表单”“只访问公开文档页”),帮助智能体更安全、稳定地完成任务。
如何在智能体模式中使用
- 自动调用:智能体模式会根据你的请求智能判断何时需要浏览器智能体。
- 显式调用:使用
/browser命令显式请求浏览器智能体。
使用建议与最佳实践
-
明确目标与边界
- 尽量用一句话说明“要达成的结果”,而不是只描述某一步操作。
- 对安全或权限敏感的操作,明确说明“不执行提交/支付/删除等操作”。
-
提供稳定的入口链接
- 优先提供具体页面 URL,而不是模糊的搜索词,这样可以减少跳转干扰。
- 如果需要跨多个页面操作,可以在提示中列出关键页面或路径。
-
适度拆分任务
- 对于非常长的流程(例如复杂配置向导),可以拆分成多个小目标,逐步执行并确认中间结果。
- 在每一阶段结束后,根据 Browser 智能体返回的结果,适当调整下一步的指令。
安全与限制
-
权限与隐私
- 避免让 Browser 智能体在网页中输入或暴露任何敏感信息(如密码、访问令牌、个人隐私数据等)。
- 对涉及账号登录、支付或写入数据的操作,请优先采用手动方式完成,再让智能体进行只读验证或说明。
-
页面兼容性与稳定性
- 某些高度依赖前端框架或复杂交互的站点,可能存在加载缓慢或元素难以识别的情况。
- 页面结构或文案如果频繁变更,可能导致部分步骤执行失败,此时你可以补充更明确的描述或换一个更稳定的入口页面。
-
结果可信度
- Browser 智能体的回答基于实时访问到的网页内容,但网页本身可能并非权威信息,建议在关键决策前自行复核。
- 对于需要法律、合规或高风险业务判断的场景,不应仅依赖 Browser 智能体的自动化结果。
通过 Browser 智能体,你可以让 Qoder 不仅“读懂你的代码”,还可以“读懂你正在访问的网页”,在同一对话中完成代码编辑与网页操作协同,大幅减少在浏览器和 IDE 之间来回切换的成本。