M
MAKO
返回博客
当 AI 智能体访问你的网站时,究竟发生了什么
·作者:Juan Isidoro·1 分钟阅读

当 AI 智能体访问你的网站时,究竟发生了什么

从 HTTP 请求到推理的隐形旅程——以及为什么服务器发送的 93% 内容都是 AI 智能体无法利用的噪音。

ai-agentswebeducation

当 AI 智能体访问你的网站时,究竟发生了什么

每天,数以百万计的 AI 智能体在访问网站。ChatGPT、Claude、Perplexity、购物助手、研究机器人——它们都需要读取网页内容。但没有一个能像人类那样看到你的网站。

没有 CSS。没有渲染后的布局。没有图片(通常情况下)。只有从 HTML 源代码中提取的原始文本。

以下是实际发生的过程,逐步拆解。

第一步:智能体收到一个 URL

用户提出一个问题,比如"帮我比较一下这家店里无线耳机的价格。"AI 智能体识别出相关的 URL,准备进行抓取。

智能体本身没有浏览器。它会委托给一个工具——通常是一个 HTTP 客户端或专门的网页抓取服务——由后者代为发起请求。

第二步:发出 HTTP 请求

工具向你的服务器发送一个标准的 GET 请求。你的服务器并不知道(也不关心)访问者是 AI 智能体——它返回的 HTML 与发送给任何浏览器的完全相同。

响应通常包括:

  • 导航栏和菜单(47 个以上的链接)
  • Cookie 同意横幅和脚本
  • CSS 样式表(内联和外部)
  • JavaScript 代码包
  • 广告脚本和跟踪像素
  • 真正的内容,埋藏在中间某处

对于一个典型的电商产品页面,这意味着 181 KB 的 HTML——大约占 LLM 上下文窗口的 4,125 个 tokens

第三步:内容提取

原始 HTML 噪音太多、token 消耗太大,无法直接传递给 AI 模型。因此,抓取工具会执行一个预处理步骤:

  1. 去除无关标签: <script><style><nav><footer>、跟踪像素
  2. 提取可读文本: 段落、标题、列表、表格
  3. 转换为 markdown(有时)以提高紧凑性
  4. 截断 以适应 token 限制

这种提取是启发式的,并不完美。工具无法分辨哪个 <div> 包含你的产品价格,哪个包含 Cookie 横幅。它根据 HTML 结构进行猜测——而且经常猜错。

第四步:文本进入上下文窗口

清洗后的文本进入 AI 的上下文窗口,就像一条普通消息一样。智能体并不"看到"页面——它读到的是一份文本文档,这份文档可能准确也可能不准确地反映了人类用户实际看到的内容。

此时的关键限制:

  • 上下文窗口是有限的。 128K tokens 的模型听起来很宽裕,但一个充满噪音的网页就能消耗其中的 3-5%
  • 没有视觉信息。 图片、图表和布局都是不可见的,除非提供了替代文本
  • 无法交互。 智能体不能点击按钮、填写表单或滚动页面

第五步:智能体进行推理

基于提取到的文本,智能体尝试回答用户的问题。它会识别产品名称、价格、描述以及任何能找到的结构化信息。

如果提取结果干净,智能体会给出出色的回答。如果提取遗漏了价格(因为价格是由 JavaScript 渲染的),或者把 Cookie 横幅文字当作了产品信息,那么回答就会出错或不完整。

这些局限是结构性的

这不是某个特定 AI 模型的问题。这是 Web 内容分发方式本身的结构性问题:

不执行 JavaScript。 如果你的内容是客户端渲染的(React、Vue、Angular SPA),AI 智能体看到的只是一个空的 <div id="root"></div>,别无其他。你的整个网站对它来说是隐形的。

没有状态或会话。 每个请求都是独立的。智能体无法登录、维护购物车或访问受限内容。

没有目的性导航。 智能体不知道你的 47 个导航链接中哪个通向相关内容,哪个通向隐私政策。每个链接都同样不透明。

截断意味着信息丢失。 当页面过长时,工具会裁剪内容——而被裁掉的可能恰恰是最重要的部分。

这对你的业务意味着什么

如果你的网站依赖 AI 流量——而这种依赖正在日益增长——当前的模式极其低效:

发生了什么影响
智能体下载 181 KB 的 HTML在噪音上浪费 tokens
内容提取判断失误关于你产品的信息不准确
JavaScript 渲染的内容对智能体完全不可见
没有结构化操作智能体找不到你的"购买"或"订阅"按钮
没有语义链接智能体盲目爬取,而非有目的地导航

Web 用同一种格式服务于两类完全不同的受众。 浏览器需要 HTML、CSS 和 JavaScript。AI 智能体需要结构化文本、元数据和声明式操作。

更好的方案

如果你的服务器能检测到访问者是 AI 智能体,并精准地返回它所需要的内容呢?

这就是面向 AI 的内容协商的核心理念——也正是 MAKO 协议所实现的。智能体不再接收 4,125 个 tokens 的嘈杂 HTML,而是收到约 276 个 tokens 的结构化、富含元数据的 markdown。相同的 URL,相同的服务器,不同的响应。

想看看 AI 智能体今天是如何体验你的网站的吗? 查看你的 MAKO Score——一份免费的审计报告,涵盖可发现性、可读性、可信度和可操作性。