robots.txt的
这是伟大的,当搜索引擎经常访问你的站点和索引你的内容,但是往往有些时候索引你的网上内容部分是不是你想要的。举例来说,如果你有两个版本的页面(一个用于查看在浏览器和一个用于打印) ,你宁愿不包括爬行的印刷版本,否则你就有可能被处以重复内容的惩罚。另外,如果你碰巧有您不想让全世界都看到您的网站敏感数据,你也喜欢,搜索引擎不索引这些页面(虽然在这种情况下,唯一可靠的办法不是索引敏感数据是离线保持一个单独的机器上) 。此外,如果您想通过不包括图片,样式表和索引的javascript节省一些带宽,还需要一种方式来告诉蜘蛛远离这些项目。
告诉您的Web站点的搜索引擎,文件和文件夹,以避免一种方法是与使用机器人元标记。但是,由于并非所有的搜索引擎读取元标记,该机器人matatag可以简单地被忽视。一个更好的方式来通知搜索引擎对你的意志是使用robots.txt文件。
什么是robots.txt?
robots.txt是一个文本(而不是HTML )文件,你把你的网站告诉搜索机器人,你会哪些页面喜欢他们不要来。 robots.txt的绝不是强制性的搜索引擎,但一般搜索引擎服从他们问什么不该做。重要的是要澄清的robots.txt是不是从防止搜索引擎抓取您的网站(即它不是一个防火墙,或者说是一种密码保护),而且你把一个robots.txt文件的事实的方式是很重要的是一样的东西把一个便条:“请不要输入”在一个上锁的门 - 例如你不能阻止窃贼进来的,但好人不会打开门,进入。这就是为什么我们说,如果你真的有仙sitive数据,实在是太天真依靠robots.txt来防止它被索引并在搜索结果中显示。
robots.txt的位置是非常重要的。它必须是在主目录中,否则用户代理(搜索引擎)将无法找到它 - 他们不搜索整个网站一个名为robots.txt的。相反,他们先看看在主目录(即http://mydomain.com/robots.txt ),如果他们没有发现它的存在,他们只是假设这个网站没有robots.txt文件,因此他们指数的一切,他们一路走来发现。所以,如果你不把robots.txt的在正确的地方,请不要感到惊讶,搜索引擎索引你的整个网站。
robots.txt的概念和结构已经发展了十多年以前,如果你有兴趣了解更多资讯,请造访http://www.robotstxt.org/或者你可以直接去漫游器排除标准,因为在这篇文章中,我们将只处理一个robots.txt文件中最重要的方面。下一步,我们将继续与结构的robots.txt文件。
的robots.txt文件结构
一个robots.txt的结构是非常简单的(和几乎没有弹性) - 这是用户代理和禁止的文件和目录不尽的名单。基本上,语法如下:
User-agent:
Disallow:
“用户代理”是搜索引擎的爬虫和禁止:列出被排除在索引中的文件和目录。除了“用户代理”和“禁止”条目中,可以包含注释行 - 只要把#号在一行的开头:
#所有的用户代理是不允许看到的/ temp目录。
User-agent: *
Disallow: /temp/
的robots.txt文件的陷阱
当你开始做复杂的文件 - 也就是你决定允许不同的用户代理访问到不同的目录 - 问题就可以开始,如果不特别注意robots.txt文件的陷阱。常见的错误包括拼写错误和矛盾的指令。错别字拼错用户代理,目录,缺少冒号用户代理和不允许,等以后错别字可能会非常棘手找到,但在某些情况下验证工具的帮助。
更严重的问题是逻辑错误。例如:
User-agent: *
Disallow: /temp/
User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/
上面的例子是从一个robots.txt ,让所有代理访问上的一切,除了在/ temp目录中的网站。到这里很不错,但后来有另一个纪录,指定更严格的条款为Googlebot 。当谷歌机器人开始读取robots.txt的,它会看到所有的用户代理(包括谷歌机器人本身)被允许到所有文件夹,除了/温度/ 。这足以为Googlebot知道,所以它不会读取文件到底,将索引的一切,除了/温度/ - 包括/影像/和/的cgi-bin / ,你认为你已经告诉它不要碰。你看,一个robots.txt文件的结构很简单,但还是严重的错误可以轻松完成。
工具来生成和验证robots.txt文件
铭记robots.txt文件的简单的语法,你可以随时阅读,看看是否一切正常,但它是非常容易使用一个校验器,像这样的: http://tool.motoricerca.info/robots- checker.phtml 。这些工具报告有关缺少像斜杠或冒号,而如果没有检测到妥协你的努力常见的错误。例如,如果你输入:
User agent: *
Disallow: /temp/
这是错误的,因为有“user”和“agent”之间没有斜杠。
在这种情况下,当你有一个复杂的robots.txt文件 - 也就是你到不同的用户代理发出不同的指令,或者您有目录和子目录排除一个长长的清单,手动编写的文件可以是一个真正的痛苦。但是不要担心 - 有工具,将为您生成该文件。更有什者,有可视化工具,使指向和选择哪些文件和文件夹都被排除在外。但是,即使你不喜欢买的图形工具的robots.txt生成,有在线工具来帮助你。例如,服务器端机器人发生器提供用户代理的一个下拉列表,并为您列出您不希望索引的文件的文本框。老实说,这是没有太大的帮助,除非你想设置不同的搜索引擎的具体规则,因为在任何情况下,它是由你键入的目录列表,但更胜于无。
本文出自:http://www.gengliu.com/news/e75b1b18-82d9-46e2-8da3-afe70ba6478a.htm
本文关键字: