搜索引擎爬虫程序在爬行某条URL时,如果该URL因受 robots.txt 限制,那么,爬虫程序将无法抓取此网址。

这种情况可能是由多种原因造成的。

  1. 您的 robots.txt 文件可能完全禁止 爬虫程序。
  2. 可能禁止对此网址所在目录的访问,也可能特别禁止访问此网址。

通常,这并不属于错误。您可能专门设置了一个 robots.txt 文件来阻止爬虫程序抓取此网址。如果是这种情况,则无需更正;搜索引擎将继续遵循 robots.txt文件规则,如果正常URL被误操作写入规则,请及时更正,以便爬虫下次可以正常获取URL及网页信息。

如果一个网址重定向到一个被 robots.txt 文件拦截的网址,则第一个网址会报告为被 robots.txt 拦截(即使该网址在 robots.txt 分析工具中列为”允许”)。