网站优化之robots.txt爬虫协议的写法

约 834 字大约 3 分钟

2025-07-31

Robots.txt即爬虫协议，是搜索引擎蜘蛛进入网站第一个寻找的文件，它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

当我们网站出现错误页面，或者某些页面不想让蜘蛛爬取时，合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站，首先查找网站根目录下是否存在robots.txt文件，若存在，则按照该文件的规范抓取内容；若不存在该文件，则按照默认的规则爬取网站中所有网页。因此，下面介绍一些robots语法和常用实例。

网站设置robots.txt的好处：

禁止搜索引擎收录部分页面；引导蜘蛛爬网站地图；能够一定程度上保护网站安全；节省流量等。

Robot文件：需要告诉蜘蛛不抓取某个目录或页面就要有这个文件。

这个文件不超过48k

Robots.txt必须放在根目录

Robots规则怎么写：User-agent（只能*或者一个蜘蛛）、Allow、Disallow、

*：匹配0或多个任意字符，通配符、

$：匹配行结束符，美元符号

先写例外的，后写大部分的

例如：禁止所有蜘蛛抓取网站任何内容

User-agent: *	所有搜索引擎蜘蛛

Disallow: /  根目录，所有文件都不让访问

例如：允许所有蜘蛛抓取网站任何内容，直接不写就行

User-agent: *	所有搜索引擎蜘蛛

Allow: /  根目录，所有文件都让访问

例如：仅禁止百度的抓取任何内容

User-agent: Baiduspider	百度搜索引擎蜘蛛

Disallow: /  根目录，所有文件都不让访问

User-agent: *	这个声明让其它的抓取，可以不写

Allow: /

例如：仅允许百度的抓取任何内容

User-agent: Baiduspider	百度搜索引擎蜘蛛

Allow: /  根目录，所有文件都让访问

User-agent: *	这个声明让其它的不抓取，可以不写

Disallow: /

例如：进允许百度和谷歌的抓取内容

User-agent: Baiduspider	百度搜索引擎蜘蛛

Allow: /  根目录，所有文件都让访问

User-agent: Googlebot	谷歌搜索引擎蜘蛛

Allow: /

User-agent: *	这个声明让其它的不抓取，可以不写

Disallow: /

例如：仅允许百度，不允许360

User-agent: Baiduspider	百度搜索引擎蜘蛛

Allow: /  根目录，所有文件都让访问

User-agent: 360Spider	360搜索引擎蜘蛛

Disallow: /

User-agent: *	这个声明让其它的不抓取，可以不写

Disallow: /

例如2：不许所有蜘蛛抓取网站上所有jpg、gif、png图片

User-agent: *  

Disallow: /*.jpg$

Disallow: /*.gif$

Disallow: /*.png$

例如3：不许抓seo目录

User-agent: *

Disallow: /seo	禁止所有搜索引擎访问/seo目录（包括子目录）

Disallow: /seo/	禁止所有搜索引擎访问/seo目录

User-agent: *

Allow: /

Disallow: /.css$

Disallow: /.js$

Disallow: /.php$

Disallow: /?

Disallow: /control/

Disallow: /uploads/

Disallow: /plus/

Disallow: /public/

Disallow: /skin/

Disallow: /public_180731/

Disallow: /public_m190307/

Disallow: /gongcha/

Disallow: /public_m/

Disallow: /m_public/

Sitemap: http://m.xishupaofu.net/sitemap.xml

Sitemap: http://m.xishupaofu.net/sitemap.html

Sitemap: http://m.xishupaofu.net/sitemap.txt

更新: 2020-06-16 10:22:56
原文: <https://www.yuque.com/seoers/uyyd4f/robots>

版权所有

许可证：署名 4.0 国际 (CC-BY-4.0)