教程:技术可读性与 AI 爬虫优化
核心观点:最好的 GEO 页面是一个无头浏览器 (Headless Browser) 能瞬间读懂的页面。如果你的内容严重依赖客户端 JS 渲染,你就输在了起跑线上。
很多开发者认为只要 Google 能抓取就行。但在 GEO 中,你面对的是几十种不同的 AI 爬虫(GPTBot, ClaudeBot, Applebot)。大多数爬虫并不具备 Google 那么强大的 JS 渲染能力。
1. 渲染预算 (Rendering Budget)
AI 模型的训练和推理都很昂贵,所以他们的数据采集(爬虫)优先考虑极高的效率。静态 HTML (SSR/SSG) 永远胜过 客户端渲染 (CSR)。
graph TD
Crawler[AI 爬虫]
subgraph Static [静态 HTML / SSR]
Crawler -->|1. 请求| HTML[获取 HTML]
HTML -->|2. 解析| Text[提取文本]
end
subgraph Dynamic [客户端 CSR]
Crawler -->|1. 请求| Empty[空壳 HTML]
Empty -->|2. 下载 JS| JS[JS 文件]
JS -->|3. 执行 JS| Exec[CPU 渲染]
Exec -->|4. 等待超时| Rendered[最终内容]
end
Text -->|低成本| Index[索引入库]
Rendered -->|高成本/超时放弃| Index
style Static fill:#bbf7d0,stroke:#16a34a
style Dynamic fill:#fecaca,stroke:#dc2626
结论:做 GEO,请坚持使用静态站点生成器 (Hugo, Jekyll, 11ty) 或服务端渲染 (Next.js SSR)。
2. DOM 复杂度与信噪比
AI 看的是“骨架”,不是“皮囊”。过深的 DOM 嵌套和过多的无意义标签 (div soup) 会增加提取的噪音。
❌ 臃肿的 DOM (常见于 React)
<div class="wrapper">
<div class="container">
<div class="content-row">
<div class="text-block">
<span>正文内容...</span>
</div>
</div>
</div>
</div>
<div class="container">
<div class="content-row">
<div class="text-block">
<span>正文内容...</span>
</div>
</div>
</div>
</div>
✅ 语义化 HTML (AI 友好)
<article>
<p>正文内容...</p>
</article>
<p>正文内容...</p>
</article>
3. Token 经济学
AI 模型的上下文窗口是有限的(也是昂贵的)。
- 首屏内容 (Above the Fold):把核心结论放在页面代码的前 20%。如果前 5000 个 Token 全是导航、广告和废话,AI 可能会错过价值点。
- 代码/文本比:内联 CSS 和 SVG 会消耗 Token。尽量把样式和脚本放到外部文件中。
4. Robots.txt: 打开大门
除非你有严格的版权需求,否则不要屏蔽 AI 爬虫。它们是你通往 GEO 的门票。
User-agent: GPTBot # OpenAI
Allow: /
User-agent: ClaudeBot # Anthropic
Allow: /
User-agent: CCBot # Common Crawl (许多其他模型的基础)
Allow: /
User-agent: Google-Extended # Google Gemini
Allow: /
5. ALT 文本
多模态 AI 虽然能看懂图片,但 ALT 文本依然是最精准的锚点。对于图表,务必在 ALT 中描述核心结论。
alt="显示 2024 Q4 AI 搜索流量增长 300% 的折线图" 远好于 alt="图表 1"。
总结
技术可读性讲究的是传输效率。在内容质量相同的情况下,传输效率更高、解析成本更低的页面,更有可能被 AI 选中。
下一步
技术底座打牢了。如何建立信任感和权威性?