跳转到主要内容
浏览器智能体是在智能体模式下使用浏览器完成任务的能力扩展。它可以在受控环境中打开网页、浏览内容、点击按钮、填写表单、滚动页面,并在必要时截图反馈页面状态,从而帮助你完成「需要实际访问网页」的自动化任务。 只需在智能会话中用自然语言描述你的需求(例如“去官网查一下最新价格并总结差异”),智能体会在需要时自动调度 Browser 智能体,无需你手动切换模式或编写脚本。

核心能力

浏览器智能体主要具备以下能力:
  • 打开与导航网页
    • 根据你给出的 URL 打开指定网页。
    • 在同一站点内跳转到新的页面或标签,例如点击导航栏链接、分页链接等。
    • 支持多步导航任务,例如“依次打开 A 页面 -> 点击 B 菜单 -> 进入 C 详情页”。
  • 阅读与提取信息
    • 读取当前页面的可见文本内容,如标题、段落、列表和表格等。
    • 从页面中提取关键信息,并用自然语言为你总结或对比。
    • 根据你的指令在页面中“查找”相关信息,例如“在这个页面上找一下价格相关的内容”。
  • 交互与操作页面
    • 点击按钮、链接、切换标签页或展开/收起折叠内容。
    • 在输入框、搜索框等表单元素中输入文字,并提交表单。
    • 通过滚动页面浏览更多内容,避免遗漏关键信息。
  • 可视反馈与状态感知
    • 在执行复杂步骤时,按需截图当前页面状态,用于后续判断与说明。
    • 感知页面是否加载完成、表单是否提交成功、是否跳转到了新的页面等,以便决定下一步操作。

适用场景示例

你可以在以下场景中考虑使用浏览器智能体:
  • 信息检索与对比
    • 访问产品官网、文档站点或博客,提取关键信息并生成总结。
    • 对多个页面或多个方案进行对比,例如价格、功能或配置差异。
  • 在线操作与流程演练
    • 演练一个「基于网页」的操作流程,例如注册账号、提交工单(在权限允许和风险可控的前提下)。
    • 帮助你梳理某个 Web 后台系统的典型使用步骤,并输出操作说明草稿。
  • 辅助开发与测试
    • 打开线上文档或 API 参考,提炼出与你当前代码相关的部分。
    • 浏览 Web 应用的界面,帮助你检查页面结构、文案或交互逻辑,并给出优化建议。
建议在任务描述中说明目标和约束(例如“只阅读不提交任何表单”“只访问公开文档页”),帮助智能体更安全、稳定地完成任务。

如何在智能体模式中使用

浏览器智能体已内置于智能体模式中,无需单独配置。你可以通过两种方式调用它:
  1. 自动调用:智能体模式会根据你的请求智能判断何时需要浏览器智能体。
  2. 显式调用:使用 /browser 命令显式请求浏览器智能体。
详细使用步骤如下:
1

进入智能体模式

打开 Qoder 的聊天面板并切换到智能体模式
2

描述你的任务

选择使用 /browser 显式调用,或直接用自然语言描述你的需求,例如:
/browser 打开 https://example.com 并总结主要功能→ 立即体验
/browser 查看 2025 年的定价计划并整理成表格→ 立即体验
/browser 分析这个组件库中的主题自定义选项→ 立即体验
3

查看结果

浏览器智能体将会:
  • 执行必要的网页交互
  • 提供所采取操作的详细说明
  • 分享屏幕截图以供视觉验证
  • 以结构化格式呈现提取的数据

使用建议与最佳实践

  • 明确目标与边界
    • 尽量用一句话说明“要达成的结果”,而不是只描述某一步操作。
    • 对安全或权限敏感的操作,明确说明“不执行提交/支付/删除等操作”。
  • 提供稳定的入口链接
    • 优先提供具体页面 URL,而不是模糊的搜索词,这样可以减少跳转干扰。
    • 如果需要跨多个页面操作,可以在提示中列出关键页面或路径。
  • 适度拆分任务
    • 对于非常长的流程(例如复杂配置向导),可以拆分成多个小目标,逐步执行并确认中间结果。
    • 在每一阶段结束后,根据 Browser 智能体返回的结果,适当调整下一步的指令。

安全与限制

在使用 Browser 智能体时,需要注意以下事项:
  • 权限与隐私
    • 避免让 Browser 智能体在网页中输入或暴露任何敏感信息(如密码、访问令牌、个人隐私数据等)。
    • 对涉及账号登录、支付或写入数据的操作,请优先采用手动方式完成,再让智能体进行只读验证或说明。
  • 页面兼容性与稳定性
    • 某些高度依赖前端框架或复杂交互的站点,可能存在加载缓慢或元素难以识别的情况。
    • 页面结构或文案如果频繁变更,可能导致部分步骤执行失败,此时你可以补充更明确的描述或换一个更稳定的入口页面。
  • 结果可信度
    • Browser 智能体的回答基于实时访问到的网页内容,但网页本身可能并非权威信息,建议在关键决策前自行复核。
    • 对于需要法律、合规或高风险业务判断的场景,不应仅依赖 Browser 智能体的自动化结果。

通过 Browser 智能体,你可以让 Qoder 不仅“读懂你的代码”,还可以“读懂你正在访问的网页”,在同一对话中完成代码编辑与网页操作协同,大幅减少在浏览器和 IDE 之间来回切换的成本。