制造业官网 robots.txt 怎么写?别让 AI 爬虫进不了门
来源:鹿聚GEO · AIGEO 行业洞察 · 作者:孙先生(上海鹿聚信息科技有限公司)
AIGEO 实战笔记 · 第 1/4 篇
系列导读:robots.txt → sitemap.xml → Schema.org → llms.txt
很多制造业老板会觉得:官网明明能打开,备案也有,产品页也上了,怎么文心一言、百度问答里还是搜不到我们?
排查下来,第一个要看的文件,往往是根目录下的 robots.txt。
它是站点对爬虫的「门禁规则」。写对了,搜索引擎和 AI 抓取链路才能启动;写错了,后面 sitemap、Schema、llms.txt 做得再好也白搭。
本文是 鹿聚GEO「制造业官网 AIGEO 四层配置」系列第 1 篇,从后端视角讲清楚 robots.txt 怎么写、怎么验。
一、为什么 robots 会影响 AI 收录?
AI 引用企业信息,通常走这条链路:
页面发布 → 爬虫抓取 → 索引入库 → 搜索召回 → AI 引用
robots.txt 管的是前两步。产品目录被 Disallow、或者全站一刀切封死,AI 根本没有可索引正文,自然无法正确描述你的主营能力。
鹿聚GEO 在宁波及周边制造业项目里,这几类误配最常见:
① 全站禁爬
Disallow: / 导致所有页面不可抓取。
② 产品页被挡
/products/ 被误封,案例和资讯页却开放。
③ 静态资源误封
CSS/JS 被禁,页面无法完整渲染。
④ 缺少 Sitemap 声明
未在 robots 里写 sitemap.xml 地址。
⑤ 复制旧模板
测试环境的规则被带到生产环境。
二、制造业官网推荐写法
基础版(直接可用)
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /tmp/
Allow: /products/
Allow: /cases/
Allow: /news/
Allow: /uploads/
Allow: /assets/
Sitemap: https://你的域名.com/sitemap.xml
需要 JS/CSS 渲染时
不要把静态资源目录一并屏蔽:
User-agent: *
Disallow: /admin/
Allow: /static/
Allow: /assets/
Allow: /dist/
Sitemap: https://你的域名.com/sitemap.xml
四条原则
-
只禁后台和临时目录,不要禁产品、案例、资讯
-
显式 Allow 关键目录,减少歧义
-
必须声明 Sitemap,且地址真实可访问
-
别用 robots 做权限控制,敏感接口靠鉴权
三、Nginx 部署注意
确认 robots.txt 由 Web 服务器正确返回,不要被 SPA 路由吞掉:
location = /robots.txt {
access_log off;
log_not_found off;
}
若使用 CDN,检查是否缓存了旧版 robots。
四、3 条命令快速验收
在服务器或本机终端执行(把域名换成你的):
curl -s https://你的域名.com/robots.txt
curl -I https://你的域名.com/products/
curl -I https://你的域名.com/robots.txt
自查清单:
☐ 有没有 Disallow: /
☐ 产品、资讯目录是否误封
☐ 是否写了 Sitemap:
☐ CSS/JS 能否正常访问
☐ 返回状态码是不是 200
五、常见问题
Q:robots 允许抓取,就等于一定收录吗?
不等于。robots 只解决「能不能来」,还要配合 sitemap 和可读正文。
Q:测试环境 robots 能直接复制到生产吗?
不建议。测试环境常有全站禁爬,复制过去整站就废了。
Q:要针对不同爬虫写多条 User-agent 吗?
一般 User-agent: * 就够,有特殊需求再单独配。
六、本篇小结
robots.txt 是 AIGEO 四层配置的 第一道门。
排查「AI 搜不到」时,建议顺序:先看 robots → 再看 sitemap → 再查页面正文。
下篇预告: sitemap.xml 动态更新——解决「找得到页面」的问题。
关于鹿聚GEO
专注制造业、工业品 B2B 官网的 AI 收录与 GEO 技术治理,覆盖 robots、sitemap、Schema.org、llms.txt 配置与验收。
官网:https://www.lujugeo.cn
合作咨询:153-5545-6180(孙先生)
本文为「制造业官网 AIGEO 实战笔记」系列第 1 篇,转载请注明出处:鹿聚GEO · 上海鹿聚信息科技有限公司