
当 AI 智能体访问你的网站时,究竟发生了什么
从 HTTP 请求到推理的隐形旅程——以及为什么服务器发送的 93% 内容都是 AI 智能体无法利用的噪音。
当 AI 智能体访问你的网站时,究竟发生了什么
每天,数以百万计的 AI 智能体在访问网站。ChatGPT、Claude、Perplexity、购物助手、研究机器人——它们都需要读取网页内容。但没有一个能像人类那样看到你的网站。
没有 CSS。没有渲染后的布局。没有图片(通常情况下)。只有从 HTML 源代码中提取的原始文本。
以下是实际发生的过程,逐步拆解。
第一步:智能体收到一个 URL
用户提出一个问题,比如"帮我比较一下这家店里无线耳机的价格。"AI 智能体识别出相关的 URL,准备进行抓取。
智能体本身没有浏览器。它会委托给一个工具——通常是一个 HTTP 客户端或专门的网页抓取服务——由后者代为发起请求。
第二步:发出 HTTP 请求
工具向你的服务器发送一个标准的 GET 请求。你的服务器并不知道(也不关心)访问者是 AI 智能体——它返回的 HTML 与发送给任何浏览器的完全相同。
响应通常包括:
- 导航栏和菜单(47 个以上的链接)
- Cookie 同意横幅和脚本
- CSS 样式表(内联和外部)
- JavaScript 代码包
- 广告脚本和跟踪像素
- 真正的内容,埋藏在中间某处
对于一个典型的电商产品页面,这意味着 181 KB 的 HTML——大约占 LLM 上下文窗口的 4,125 个 tokens。
第三步:内容提取
原始 HTML 噪音太多、token 消耗太大,无法直接传递给 AI 模型。因此,抓取工具会执行一个预处理步骤:
- 去除无关标签:
<script>、<style>、<nav>、<footer>、跟踪像素 - 提取可读文本: 段落、标题、列表、表格
- 转换为 markdown(有时)以提高紧凑性
- 截断 以适应 token 限制
这种提取是启发式的,并不完美。工具无法分辨哪个 <div> 包含你的产品价格,哪个包含 Cookie 横幅。它根据 HTML 结构进行猜测——而且经常猜错。
第四步:文本进入上下文窗口
清洗后的文本进入 AI 的上下文窗口,就像一条普通消息一样。智能体并不"看到"页面——它读到的是一份文本文档,这份文档可能准确也可能不准确地反映了人类用户实际看到的内容。
此时的关键限制:
- 上下文窗口是有限的。 128K tokens 的模型听起来很宽裕,但一个充满噪音的网页就能消耗其中的 3-5%
- 没有视觉信息。 图片、图表和布局都是不可见的,除非提供了替代文本
- 无法交互。 智能体不能点击按钮、填写表单或滚动页面
第五步:智能体进行推理
基于提取到的文本,智能体尝试回答用户的问题。它会识别产品名称、价格、描述以及任何能找到的结构化信息。
如果提取结果干净,智能体会给出出色的回答。如果提取遗漏了价格(因为价格是由 JavaScript 渲染的),或者把 Cookie 横幅文字当作了产品信息,那么回答就会出错或不完整。
这些局限是结构性的
这不是某个特定 AI 模型的问题。这是 Web 内容分发方式本身的结构性问题:
不执行 JavaScript。 如果你的内容是客户端渲染的(React、Vue、Angular SPA),AI 智能体看到的只是一个空的 <div id="root"></div>,别无其他。你的整个网站对它来说是隐形的。
没有状态或会话。 每个请求都是独立的。智能体无法登录、维护购物车或访问受限内容。
没有目的性导航。 智能体不知道你的 47 个导航链接中哪个通向相关内容,哪个通向隐私政策。每个链接都同样不透明。
截断意味着信息丢失。 当页面过长时,工具会裁剪内容——而被裁掉的可能恰恰是最重要的部分。
这对你的业务意味着什么
如果你的网站依赖 AI 流量——而这种依赖正在日益增长——当前的模式极其低效:
| 发生了什么 | 影响 |
|---|---|
| 智能体下载 181 KB 的 HTML | 在噪音上浪费 tokens |
| 内容提取判断失误 | 关于你产品的信息不准确 |
| JavaScript 渲染的内容 | 对智能体完全不可见 |
| 没有结构化操作 | 智能体找不到你的"购买"或"订阅"按钮 |
| 没有语义链接 | 智能体盲目爬取,而非有目的地导航 |
Web 用同一种格式服务于两类完全不同的受众。 浏览器需要 HTML、CSS 和 JavaScript。AI 智能体需要结构化文本、元数据和声明式操作。
更好的方案
如果你的服务器能检测到访问者是 AI 智能体,并精准地返回它所需要的内容呢?
这就是面向 AI 的内容协商的核心理念——也正是 MAKO 协议所实现的。智能体不再接收 4,125 个 tokens 的嘈杂 HTML,而是收到约 276 个 tokens 的结构化、富含元数据的 markdown。相同的 URL,相同的服务器,不同的响应。
想看看 AI 智能体今天是如何体验你的网站的吗? 查看你的 MAKO Score——一份免费的审计报告,涵盖可发现性、可读性、可信度和可操作性。