1. robots.txt是什么?

robots.txt是一个位于网站根目录下的文本文件,用于指示搜索引擎爬虫如何访问网站的内容。网站管理员可以编辑这个文件,通过设置不同的规则来控制搜索引擎的爬虫是否可以访问网站的特定页面或目录。

2. robots.txt的作用

通过在robots.txt中设置规则,网站管理员可以:
- 禁止搜索引擎爬虫访问特定的页面或目录;
- 告诉搜索引擎爬虫哪些页面是允许访问的;
- 告诉搜索引擎爬虫不要访问网站的某些资源,如图片、CSS和JavaScript文件等。

3. 基本的robots.txt写法

可以使用PHP代码来生成和输出robots.txt文件。下面是一个简单的使用PHP生成和输出robots.txt文件的示例:

使用PHP生成robots.txt




首先,我们使用header()函数设置Content-Type为text/plain,让浏览器将输出内容识别为纯文本。然后,我们使用echo语句输出具体的规则。在这个示例中,我们设置了两个规则,分别是禁止访问/private/和/admin/目录下的页面。

4. 高级的robots.txt写法

除了基本的写法,我们还可以使用更多的指令来控制搜索引擎爬虫的行为。以下是一些常用的指令:

- User-agent:用于指定特定的搜索引擎爬虫。例如,"User-agent: Googlebot"表示下面的指令只适用于Google的爬虫;
- Disallow:用于指示不允许访问的页面或目录。例如,"Disallow: /private/"表示不允许访问/private/目录下的页面;
- Allow:用于指示允许访问的页面或目录。通常与Disallow指令一起使用。例如,"Disallow: /private/"后面可以加上"Allow: /private/public",表示除了/private/public目录下的页面外,其余/private/目录下的页面都不允许访问;
- Sitemap:用于指定网站的XML Sitemap文件的位置。例如,"Sitemap: http://www.example.com/sitemap.xml"表示Sitemap文件位于根目录下的sitemap.xml文件。

通过合理设置robots.txt文件的规则,网站管理员可以更好地控制搜索引擎爬虫对网站的访问,提高网站的SEO效果和用户体验。