Page Agent：让网页自己长出 AI 助手

前序：Page Agent 是阿里巴巴开源的前端库，它让任何网页都能用自然语言操控——不是外挂，不是浏览器插件，而是直接"住"在网页里的 AI 助手。

传统思路是用 Python + Selenium或 Playwright 从外部控制浏览器，需要截图、OCR、模拟点击，流程重、成本高。Page Agent 反其道而行：把 AI 能力注入网页内部，直接读取 DOM 结构，轻量化、低成本、毫秒级响应。

想象这些场景：你正在填一个复杂的报销系统，需要选部门、填金额、贴发票、选审批人。以前要记流程、点十几下。现在直接说："帮我填差旅报销，金额 580 元，部门选技术部，发票已上传"——Agent 自动定位输入框、下拉菜单、文件上传区，一步完成。

或者你在管理后台，需要找出上周注册但未激活的用户，批量发送提醒。以前要筛选、排序、勾选、点发送。现在直接说："找到 7 天内注册且状态未激活的用户，全选并发送激活提醒邮件"。

再比如电商运营，每天要把爆款商品从主站同步到活动页。以前手动复制标题、价格、图片链接。现在直接说："把今日销量 Top 10 的商品信息复制到活动页表格"。

这些不是未来想象，是 Page Agent 现在的能力。它的边界只限于网页本身的 DOM 结构，只要页面上有的元素，都能被自然语言定位。

第一步，脱水。把当前页面的 DOM 结构清洗压缩，提取关键信息：按钮的文本、输入框的 placeholder、链接的 href、元素的位置坐标。去掉样式、动画、事件监听等噪音，生成一份精简的"页面骨架"。

第二步，理解。把这份骨架发给大模型（通义千问、GPT-4、Claude 等都可以），同时附上用户的自然语言指令。模型分析后返回结构化动作：点击第几个按钮、在哪个输入框填什么内容、滚动到哪个区域。

第三步，执行。Page Agent 根据模型返回的指令，在真实页面上执行具体操作。不是模拟鼠标轨迹，而是直接调用元素的原生方法.click().value = 'xxx'.scrollIntoView()，稳定且不被反爬虫机制拦截。

第四步，反馈。执行后的新页面状态再次脱水，发给模型确认是否完成目标。如果未完成，继续循环；如果出错，返回错误信息给用户。

整个过程中，大模型只处理文本，不接触图像，成本是视觉模型的十分之一，速度是秒级而非十秒级。

Chrome 扩展

如果需要控制多个标签页（比如跨站比价、数据迁移），可以安装 Page Agent Ext 扩展。它拥有更高权限，能监听浏览器事件、管理标签页生命周期，但配置稍复杂，需要开发者模式加载源码。

Page Agent 不是万能钥匙。它的前提是你能修改目标网页的代码，或者通过扩展注入脚本。对于别人的网站（如知乎、淘宝、GitHub），除非对方主动接入，否则你无法使用。

它的能力边界也受限于页面本身的结构。如果网页用了大量 Canvas 绘图、Shadow DOM 封闭、或者关键信息用图片呈现，Agent 会"看不见"这些内容。

此外，Demo 模式虽然方便，但使用的是公共 API Key，有调用频率限制，且对话内容可能用于模型优化。

Page Agent 代表了一种趋势：AI 能力从"中心化服务"下沉为"分布式组件"。不是每个网站都需要重做，而是像加统计代码、加客服插件一样，加一行 AI 代码就能进化。

它的真正价值不是替代程序员写自动化脚本，而是让非技术用户也能驾驭复杂界面。当老板说"这个后台太难用了"，以前要排期重构，现在可以加个 AI 助手先顶上。

技术永远在寻找更自然的交互方式。从命令行到图形界面，再到自然语言，每一层抽象都在扩大用户基数。Page Agent 是这条路上的最新一步，而且是目前最轻量的一步。

GitHub：https://github.com/alibaba/page-agent

谷歌拓展（国内分流）

夸克网盘 · 提取码: 5iLt

文档：https://alibaba.github.io/page-agent/

当前版本：v1.5.6（2025年3月）

浮生札记