什么是robots.txt-更流网络-建站省钱专家|深圳网站建设|深圳网站制作|深圳网站设计|深圳网页设计|深圳网页制作|深圳微网站|深圳手机APP开发

什么是robots.txt

robots.txt的

这是伟大的，当搜索引擎经常访问你的站点和索引你的内容，但是往往有些时候索引你的网上内容部分是不是你想要的。举例来说，如果你有两个版本的页面（一个用于查看在浏览器和一个用于打印），你宁愿不包括爬行的印刷版本，否则你就有可能被处以重复内容的惩罚。另外，如果你碰巧有您不想让全世界都看到您的网站敏感数据，你也喜欢，搜索引擎不索引这些页面（虽然在这种情况下，唯一可靠的办法不是索引敏感数据是离线保持一个单独的机器上）。此外，如果您想通过不包括图片，样式表和索引的javascript节省一些带宽，还需要一种方式来告诉蜘蛛远离这些项目。

告诉您的Web站点的搜索引擎，文件和文件夹，以避免一种方法是与使用机器人元标记。但是，由于并非所有的搜索引擎读取元标记，该机器人matatag可以简单地被忽视。一个更好的方式来通知搜索引擎对你的意志是使用robots.txt文件。

什么是robots.txt？

robots.txt是一个文本（而不是HTML ）文件，你把你的网站告诉搜索机器人，你会哪些页面喜欢他们不要来。 robots.txt的绝不是强制性的搜索引擎，但一般搜索引擎服从他们问什么不该做。重要的是要澄清的robots.txt是不是从防止搜索引擎抓取您的网站（即它不是一个防火墙，或者说是一种密码保护），而且你把一个robots.txt文件的事实的方式是很重要的是一样的东西把一个便条：“请不要输入”在一个上锁的门 - 例如你不能阻止窃贼进来的，但好人不会打开门，进入。这就是为什么我们说，如果你真的有仙sitive数据，实在是太天真依靠robots.txt来防止它被索引并在搜索结果中显示。

robots.txt的位置是非常重要的。它必须是在主目录中，否则用户代理（搜索引擎）将无法找到它 - 他们不搜索整个网站一个名为robots.txt的。相反，他们先看看在主目录（即http://mydomain.com/robots.txt ），如果他们没有发现它的存在，他们只是假设这个网站没有robots.txt文件，因此他们指数的一切，他们一路走来发现。所以，如果你不把robots.txt的在正确的地方，请不要感到惊讶，搜索引擎索引你的整个网站。

robots.txt的概念和结构已经发展了十多年以前，如果你有兴趣了解更多资讯，请造访http://www.robotstxt.org/或者你可以直接去漫游器排除标准，因为在这篇文章中，我们将只处理一个robots.txt文件中最重要的方面。下一步，我们将继续与结构的robots.txt文件。

的robots.txt文件结构

一个robots.txt的结构是非常简单的（和几乎没有弹性） - 这是用户代理和禁止的文件和目录不尽的名单。基本上，语法如下：

User-agent:

Disallow:

“用户代理”是搜索引擎的爬虫和禁止：列出被排除在索引中的文件和目录。除了“用户代理”和“禁止”条目中，可以包含注释行 - 只要把＃号在一行的开头：

＃所有的用户代理是不允许看到的/ temp目录。

User-agent: *

Disallow: /temp/

的robots.txt文件的陷阱

当你开始做复杂的文件 - 也就是你决定允许不同的用户代理访问到不同的目录 - 问题就可以开始，如果不特别注意robots.txt文件的陷阱。常见的错误包括拼写错误和矛盾的指令。错别字拼错用户代理，目录，缺少冒号用户代理和不允许，等以后错别字可能会非常棘手找到，但在某些情况下验证工具的帮助。

更严重的问题是逻辑错误。例如：

User-agent: *

Disallow: /temp/

User-agent: Googlebot

Disallow: /images/

Disallow: /temp/

Disallow: /cgi-bin/

上面的例子是从一个robots.txt ，让所有代理访问上的一切，除了在/ temp目录中的网站。到这里很不错，但后来有另一个纪录，指定更严格的条款为Googlebot 。当谷歌机器人开始读取robots.txt的，它会看到所有的用户代理（包括谷歌机器人本身）被允许到所有文件夹，除了/温度/ 。这足以为Googlebot知道，所以它不会读取文件到底，将索引的一切，除了/温度/ - 包括/影像/和/的cgi-bin / ，你认为你已经告诉它不要碰。你看，一个robots.txt文件的结构很简单，但还是严重的错误可以轻松完成。

工具来生成和验证robots.txt文件

铭记robots.txt文件的简单的语法，你可以随时阅读，看看是否一切正常，但它是非常容易使用一个校验器，像这样的： http://tool.motoricerca.info/robots- checker.phtml 。这些工具报告有关缺少像斜杠或冒号，而如果没有检测到妥协你的努力常见的错误。例如，如果你输入：

User agent: *

Disallow: /temp/

这是错误的，因为有“user”和“agent”之间没有斜杠。

在这种情况下，当你有一个复杂的robots.txt文件 - 也就是你到不同的用户代理发出不同的指令，或者您有目录和子目录排除一个长长的清单，手动编写的文件可以是一个真正的痛苦。但是不要担心 - 有工具，将为您生成该文件。更有什者，有可视化工具，使指向和选择哪些文件和文件夹都被排除在外。但是，即使你不喜欢买的图形工具的robots.txt生成，有在线工具来帮助你。例如，服务器端机器人发生器提供用户代理的一个下拉列表，并为您列出您不希望索引的文件的文本框。老实说，这是没有太大的帮助，除非你想设置不同的搜索引擎的具体规则，因为在任何情况下，它是由你键入的目录列表，但更胜于无。

本文出自：http://www.gengliu.com/news/e75b1b18-82d9-46e2-8da3-afe70ba6478a.htm

由深圳网站建设公司更流网络供稿，转载请注明出自，谢谢！

本文关键字：