搜索引擎爬虫程序在爬行网页的时候,有时候会遇见一些网页URL无法爬行或者爬行受到阻碍。在对网页进行SEO优化之前,确保网页URL被顺利爬行是整个工程的基础,下面的建议或许对你非常有用:

  1. 使用诸如 Lynx 之类的文本浏览器检查您的网站,因为许多搜索引擎查看您网站的方式与 Lynx 几乎一样。如果诸如 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash 等功能造成您无法在文本浏览器中查看整个网站,则搜索引擎“蜘蛛”程序在抓取您的网站时可能会遇到问题。
  2. 如果要使用动态网页(如网址中包含 ? 字符),请注意并非每一个搜索引擎“蜘蛛”程序都能抓取动态和静态网页。这有助于缩短参数长度并减少参数数量。
  3. 如果您要将一个网页永久重定向至另一个网页,请确保返回正确的 HTTP 状态代码(301 永久重定向),避免出现重定向错误。
  4. 尽可能使用绝对链接,而不是相对链接。

经常发生的重定向错误

1、重定向错误

搜索引擎无法完全爬行网页上面的重定向。谷歌在网站站长指南中建议您确保网站上的每个网页至少可以通过一个静态文本链接打开,这样便于搜索引擎访问。以下是有关使用重定向的一些建议:

  • 最大限度地减少在网页之间追踪链接所需的重定向数量。
  • 确保您的重定向计时器设置为相对较短的时间。
  • 避免在您网页的 <head> 语句中使用元刷新。

2、重定向循环错误

搜索引擎开始爬行重定向,但多次被定向至相同的网址。请检查并确保您的重定向未指向其本身。

3、重定向网址过长

搜索引擎遇爬虫程序到了一个重定向网址,其长度超过了 RFC 2616 中建议的长度上限(255 字节)。请确保您在进行重定向时未自动向网址附加信息(如会话 ID)。同时确保搜索机器人抓取您网站时不会抓取会话 ID 和跟踪其访问网站路径的参数。

4、重定向无效

爬虫程序追踪了来自此网页的重定向,但却无法访问该网址。请确保您的重定向指向了有效的网页。

5、重定向为空

爬虫程序在此网页中找到了一个重定向,但该重定向未指向任何位置,因此 爬虫程序无法进行追踪。请确保您所有的重定向均有效且不为空。

6、Cookie 错误

由于 Cookie 要求,爬虫程序在导航网页时遇到了问题。搜索引擎在抓取使用 Cookie 导航的网站时可能会遇到问题。您可以使用文本浏览器(lynx浏览器)在您的网站中导航,看看“蜘蛛”程序是如何进行抓取的。