浏览器智能体

浏览器智能体是在智能体模式下使用浏览器完成任务的能力扩展。它可以在受控环境中打开网页、浏览内容、点击按钮、填写表单、滚动页面，并在必要时截图反馈页面状态，从而帮助你完成「需要实际访问网页」的自动化任务。只需在智能会话中用自然语言描述你的需求（例如“去官网查一下最新价格并总结差异”），智能体会在需要时自动调度 Browser 智能体，无需你手动切换模式或编写脚本。

核心能力

浏览器智能体主要具备以下能力：

打开与导航网页
- 根据你给出的 URL 打开指定网页。
- 在同一站点内跳转到新的页面或标签，例如点击导航栏链接、分页链接等。
- 支持多步导航任务，例如“依次打开 A 页面 -> 点击 B 菜单 -> 进入 C 详情页”。
阅读与提取信息
- 读取当前页面的可见文本内容，如标题、段落、列表和表格等。
- 从页面中提取关键信息，并用自然语言为你总结或对比。
- 根据你的指令在页面中“查找”相关信息，例如“在这个页面上找一下价格相关的内容”。
交互与操作页面
- 点击按钮、链接、切换标签页或展开/收起折叠内容。
- 在输入框、搜索框等表单元素中输入文字，并提交表单。
- 通过滚动页面浏览更多内容，避免遗漏关键信息。
可视反馈与状态感知
- 在执行复杂步骤时，按需截图当前页面状态，用于后续判断与说明。
- 感知页面是否加载完成、表单是否提交成功、是否跳转到了新的页面等，以便决定下一步操作。

适用场景示例

你可以在以下场景中考虑使用浏览器智能体：

信息检索与对比
- 访问产品官网、文档站点或博客，提取关键信息并生成总结。
- 对多个页面或多个方案进行对比，例如价格、功能或配置差异。
在线操作与流程演练
- 演练一个「基于网页」的操作流程，例如注册账号、提交工单（在权限允许和风险可控的前提下）。
- 帮助你梳理某个 Web 后台系统的典型使用步骤，并输出操作说明草稿。
辅助开发与测试
- 打开线上文档或 API 参考，提炼出与你当前代码相关的部分。
- 浏览 Web 应用的界面，帮助你检查页面结构、文案或交互逻辑，并给出优化建议。

建议在任务描述中说明目标和约束（例如“只阅读不提交任何表单”“只访问公开文档页”），帮助智能体更安全、稳定地完成任务。

浏览器类型

Browser Agent 支持两种浏览器类型，你可以根据需要切换：

内置浏览器：IDE 内置的轻量级浏览器面板，无需额外配置，适合快速预览和简单页面交互。
Chrome：使用本地 Chrome 浏览器执行，支持更复杂的 Web 应用和需要特定浏览器特性或扩展的页面。

你可以在 Browser Agent 设置中切换浏览器类型。

如何在智能体模式中使用

浏览器智能体已内置于智能体模式中,无需单独配置。你可以通过两种方式调用它:

自动调用：智能体模式会根据你的请求智能判断何时需要浏览器智能体。
显式调用：使用 /browser 命令显式请求浏览器智能体。

详细使用步骤如下：

进入智能体模式

打开 Qoder 的聊天面板并切换到智能体模式

描述你的任务

选择使用 /browser 显式调用，或直接用自然语言描述你的需求，例如：

/browser 打开 https://example.com 并总结主要功能→ 立即体验

/browser 查看 2025 年的定价计划并整理成表格→ 立即体验

/browser 分析这个组件库中的主题自定义选项→ 立即体验

查看结果

浏览器智能体将会:

执行必要的网页交互
提供所采取操作的详细说明
分享屏幕截图以供视觉验证
以结构化格式呈现提取的数据

使用建议与最佳实践

明确目标与边界
- 尽量用一句话说明“要达成的结果”，而不是只描述某一步操作。
- 对安全或权限敏感的操作，明确说明“不执行提交/支付/删除等操作”。
提供稳定的入口链接
- 优先提供具体页面 URL，而不是模糊的搜索词，这样可以减少跳转干扰。
- 如果需要跨多个页面操作，可以在提示中列出关键页面或路径。
适度拆分任务
- 对于非常长的流程（例如复杂配置向导），可以拆分成多个小目标，逐步执行并确认中间结果。
- 在每一阶段结束后，根据 Browser 智能体返回的结果，适当调整下一步的指令。

安全与限制

在使用 Browser 智能体时，需要注意以下事项：

权限与隐私
- 避免让 Browser 智能体在网页中输入或暴露任何敏感信息（如密码、访问令牌、个人隐私数据等）。
- 对涉及账号登录、支付或写入数据的操作，请优先采用手动方式完成，再让智能体进行只读验证或说明。
页面兼容性与稳定性
- 某些高度依赖前端框架或复杂交互的站点，可能存在加载缓慢或元素难以识别的情况。
- 页面结构或文案如果频繁变更，可能导致部分步骤执行失败，此时你可以补充更明确的描述或换一个更稳定的入口页面。
结果可信度
- Browser 智能体的回答基于实时访问到的网页内容，但网页本身可能并非权威信息，建议在关键决策前自行复核。
- 对于需要法律、合规或高风险业务判断的场景，不应仅依赖 Browser 智能体的自动化结果。

通过 Browser 智能体，你可以让 Qoder 不仅“读懂你的代码”，还可以“读懂你正在访问的网页”，在同一对话中完成代码编辑与网页操作协同，大幅减少在浏览器和 IDE 之间来回切换的成本。

快速入门

用户指南

上下文

扩展能力

配置

账户

支持

事件

浏览器智能体

核心能力

适用场景示例

浏览器类型

如何在智能体模式中使用

使用建议与最佳实践

安全与限制

​核心能力

​适用场景示例

​浏览器类型

​如何在智能体模式中使用

​使用建议与最佳实践

​安全与限制

核心能力

适用场景示例

浏览器类型

如何在智能体模式中使用

使用建议与最佳实践

安全与限制