robots协议文件详解

robots.txt是什么

robots.txt，是指包含robots协议规则的指令的TXT文件，一般放置于网站根目录下，以此来告知搜索引擎蜘蛛网站的抓取规则，主要作用为禁止搜索引擎蜘蛛抓取某些内容。

如错误教程网的robts.txt地址为： https://www.cuowu.com/robots.txt

robots协议文件

robots.txt必须存在吗

某些SEO人员可能会说，网站内容让蜘蛛随便抓取，无需在服务器端放置robots.txt文件。这种说法是错误的。因为有的服务器设置有问题，如果robots.txt文件不存在，服务器会返回200状态码及一些错误信息，而不是404状态码，这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。当然这只是有这种可能性，并非一定会发生，很多没有robots.txt文件的网站状态还是挺好的。

故，就算允许搜索引擎蜘蛛随意抓取，也应该创建一个空的robots.txt文件。

robots.txt使用方法

错误君总结下robots.txt的使用方法如下：

1）位置

robots.txt放在网站根目录下。

2）robots.txt基本格式

robots文件由记录组成，记录之间以空行分开。记录格式如下：

<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加，可以简单记为：

<域>:<域值>

robots.txt文件最简单样式为：

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用，因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为：

User-agent: *

Disallow:

3）robots规则

User-agent：指定下面的规则适用于哪个蜘蛛，通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎：

User-agent: *

只适用于百度：

User-agent: Baiduspider

只适用于Google蜘蛛：

User-agent: Googlebot

Disallow：告诉蜘蛛不要去抓取某些文件或目录。

写法：每禁止一个抓取一个文件或目录，都必须另起一行，同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录，禁止抓取w目录下的33.html和11.html。

Disallow: /temp/

Disallow: /a/

Disallow: /w/33.html

Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

Allow：告诉蜘蛛应该抓取某些文件或目录。

由于不指定则是允许抓取，故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件，在允许抓取b目录下的文件，而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

$：通配符$，匹配URL结果的字符。

如禁止抓取.jpg格式的图片：

Disallow: .jpg$

如允许抓取所有.htm文件：

Allow: .htm$

*：通配符*，匹配任意字符。

通配符适用于各种复杂情况，比如URL中的不能带问号“?”

Disallow: /?*

Sitemap：告诉搜索引擎网站sitemaps的位置，是对搜索引擎蜘蛛的友好。

当然一般情况下sitemaps也是放在网站根目录，如错误教程网的sitemap位置，https://www.cuowu.com/sitemap.xml 。

Sitemap:https://www.cuowu.com/sitemap.xml

robots优化dede和WordPress

这里给出的dede和WordPress的robots文件并非是万能，还可能禁止网站一些正常内容被抓取，但也算是一个参考吧，具体情况要具体分析，一旦发现有问题，立刻去站长平台做调整。

1）WordPress的robots协议

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /feed/ 这里定义是禁止爬寻feed

Disallow: /*/feed 这里定义是禁止爬寻文章或栏目feed

Disallow: /trackback/ 这里定义是禁止爬寻trackback目录下面的目录

Disallow: /wp-admin/ 这里定义是禁止爬寻wp-admin目录下面的目录

Disallow: /wp-content/ 这里定义是禁止爬寻wp-content目录下面的目录

Disallow: /wp-includes/ 这里定义是禁止爬寻wp-includes目录下面的目录

Disallow: /xmlrpc.php 这里定义是禁止爬寻xmlrpc.php文件

Disallow: /wp- 这里定义是禁止爬寻wp-目录下面的内容

Allow: /wp-content/uploads/ 这里定义是禁止爬寻admin目录下面的目录

Sitemap: http://www.cuowu.com/sitemap.xml 这里定义是禁止爬寻admin目录下面的目录

将以上内容另存到文本文档里，命名为robots.txt上传到服务器的网站根目录下。与此同时，上面的协议应该增加上允许抓取WordPress的主题文件。

Allow: /wp-content/themes/cuowu/ 这里的cuowu为本站的主题，换成你们的主题文件夹名字即可。

2）dedecms的robots协议

User-agent: *

Disallow: /dede 管理后台目录，需要改名，具体设置后面具体讲

Disallow: /include 程序核心文件目录

Disallow: /member 会员管理目录，有些文件可以开放

Disallow: /plus 插件及辅助功能目录，有些文件可以开放，如search.php

Disallow: /templets 默认模板存放目录

Disallow: /data 系统缓存或其它可写入数据存放目录

Disallow: /uploads 上传下载文件保存目录,不想搜索引擎引用图片的话，禁止

Disallow: /images 系统默认模板图片存放目录

Disallow: /index.php 网站默认首页，静态化的话，最好禁止

Disallow: /404.html

Allow: /plus/search.php 开放禁止目录里的具体文件