浮生札记

Page Agent:让网页自己长出 AI 助手

2026/03/15
3
0

前序:Page Agent 是阿里巴巴开源的前端库,它让任何网页都能用自然语言操控——不是外挂,不是浏览器插件,而是直接"住"在网页里的 AI 助手。

和传统的操作方案有什么区别

传统思路是用 Python + Selenium或 Playwright 从外部控制浏览器,需要截图、OCR、模拟点击,流程重、成本高。Page Agent 反其道而行:把 AI 能力注入网页内部,直接读取 DOM 结构,轻量化、低成本、毫秒级响应。

它能做什么

想象这些场景:你正在填一个复杂的报销系统,需要选部门、填金额、贴发票、选审批人。以前要记流程、点十几下。现在直接说:"帮我填差旅报销,金额 580 元,部门选技术部,发票已上传"——Agent 自动定位输入框、下拉菜单、文件上传区,一步完成。

或者你在管理后台,需要找出上周注册但未激活的用户,批量发送提醒。以前要筛选、排序、勾选、点发送。现在直接说:"找到 7 天内注册且状态未激活的用户,全选并发送激活提醒邮件"。

再比如电商运营,每天要把爆款商品从主站同步到活动页。以前手动复制标题、价格、图片链接。现在直接说:"把今日销量 Top 10 的商品信息复制到活动页表格"。

这些不是未来想象,是 Page Agent 现在的能力。它的边界只限于网页本身的 DOM 结构,只要页面上有的元素,都能被自然语言定位。

技术原理简析(源自官方GitHub文档)

  • Page Agent 的工作流程分为四步:

第一步,脱水。把当前页面的 DOM 结构清洗压缩,提取关键信息:按钮的文本、输入框的 placeholder、链接的 href、元素的位置坐标。去掉样式、动画、事件监听等噪音,生成一份精简的"页面骨架"。

第二步,理解。把这份骨架发给大模型(通义千问、GPT-4、Claude 等都可以),同时附上用户的自然语言指令。模型分析后返回结构化动作:点击第几个按钮、在哪个输入框填什么内容、滚动到哪个区域。

第三步,执行。Page Agent 根据模型返回的指令,在真实页面上执行具体操作。不是模拟鼠标轨迹,而是直接调用元素的原生方法.click().value = 'xxx'.scrollIntoView(),稳定且不被反爬虫机制拦截。

第四步,反馈。执行后的新页面状态再次脱水,发给模型确认是否完成目标。如果未完成,继续循环;如果出错,返回错误信息给用户。

整个过程中,大模型只处理文本,不接触图像,成本是视觉模型的十分之一,速度是秒级而非十秒级。

  • 接入方式

Chrome 扩展

如果需要控制多个标签页(比如跨站比价、数据迁移),可以安装 Page Agent Ext 扩展。它拥有更高权限,能监听浏览器事件、管理标签页生命周期,但配置稍复杂,需要开发者模式加载源码。

实际局限

Page Agent 不是万能钥匙。它的前提是你能修改目标网页的代码,或者通过扩展注入脚本。对于别人的网站(如知乎、淘宝、GitHub),除非对方主动接入,否则你无法使用。

它的能力边界也受限于页面本身的结构。如果网页用了大量 Canvas 绘图、Shadow DOM 封闭、或者关键信息用图片呈现,Agent 会"看不见"这些内容。

此外,Demo 模式虽然方便,但使用的是公共 API Key,有调用频率限制,且对话内容可能用于模型优化。

写在最后

Page Agent 代表了一种趋势:AI 能力从"中心化服务"下沉为"分布式组件"。不是每个网站都需要重做,而是像加统计代码、加客服插件一样,加一行 AI 代码就能进化。

它的真正价值不是替代程序员写自动化脚本,而是让非技术用户也能驾驭复杂界面。当老板说"这个后台太难用了",以前要排期重构,现在可以加个 AI 助手先顶上。

技术永远在寻找更自然的交互方式。从命令行到图形界面,再到自然语言,每一层抽象都在扩大用户基数。Page Agent 是这条路上的最新一步,而且是目前最轻量的一步。

GitHub:https://github.com/alibaba/page-agent

谷歌拓展(国内分流)

文档:https://alibaba.github.io/page-agent/

当前版本:v1.5.6(2025年3月)