搜索引擎蜘蛛

这是搜索引擎的抓取程序,用来爬行并抓取网页数据,了解蜘蛛程序对网站的爬行和抓取情况,对我们展开SEO工作还是有很大的帮助的,下面介绍一款工具“HTTrack Website Copier”。

HTTrack是什么?

HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是HTTrack的爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 了SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(网站在搜索引擎中的网页快照就是被存储下来的内容)。

HTTrack Website Copier界面

HTTrack Website Copier界面

我们一般用 HTTrack Website Copier 来对网站进行检测或测试,主要是了解搜索引擎蜘蛛程序对网站链接的爬行情况的了解,有了爬行、才会有抓取、收录、排名等等过程,所以搜索引擎蜘蛛对网站的印象致关重要。

HTTrack Website Copier 如何使用?

1、给自己的项目创立一个名称(中文或英文均可)

给自己的项目创立一个名称

2、操作方式选择“下载网站”

当我们创立了名称后,点击“下一步”,在出现的窗口的操作方式项目,选择“下载网站”,再点击“添加URL”,将我们的网站地址添加进去。

操作方式选择“下载网站”

添加URL

3、进入“选项”,设定爬行和抓取规则等选项

取消使用代理
进入“代理”选项,取消使用代理进行FTP传输

设置爬行和抓取规则
进入“扫描规则”,为HTTrack程序设定爬行和抓取规则,HTTrack里面自带了一些,可以自己设置,也可以默认。

配置搜索规格

进入“搜寻”选项,为HTTrack配置一些搜索规则,在这里,取消“接受cookies”,因为搜索引擎是不接受cookies的,“URL hacks”就是统一URL,也就是我们平常说的首选域,其实HTTrack或搜索引擎蜘蛛程序可以很简单的分辨唯一的URL,我们之所以建议手动进行首 选域确定是因为带www和不带www的域名的确可以做不同内容的网站。程序还可以配置robots.txt规格。

4、设置完“选项”后,点击“下一步”。

完成HTTrack程序的最后配置

点击“完成”完成HTTrack程序的设置,程序开始对设置的网站进行爬取并抓取文件。下面是HTTrack的工作界面。

HTTrack 工作界面

观察HTTrack对网站链接的抓取情况,程序会首先爬取网站的robots.txt文件,再进入网站文件的爬行和抓取。关于程序对网站的爬行和抓取情况,你需要了解:

  • 那些链接或文件被搜索引擎优先抓取?(网站结构和布局的重要性)
  • 该程序对不同格式的URL,抓取速度是怎样的?(URL标准化
  • 那些链接或文件影响了程序的爬行?(网站的布局)
  • … (程序中的“选项”中还有其他配置,可以根据自己的爱好或兴趣实践下)

5、HTTrack程序运行结束,查看“快照”和网站日志文件

HTTrack运行结束

这里只是对HTTrack的使用做了大致的说明,很多细节大家都可以去尝试下,了解我们的网站在搜索引擎的印象中到底是什么样的,搜索引擎蜘蛛是如何爬行并抓取我们的网页的。

关于HTTrack

HTTrack官网:www.httrack.com,该程序官方有下载,且下载后可以转化语言为简体中文。

本文伪原创于国平的一篇博文,以前看见过,只是自己一直没有常识过,今天尝试了下,觉得不错,所以跟大家分享出来,原文地址为:“HTTrack 在SEO上的应用:http://www.semyj.com/archives/123” ,如果你对“HTTrack”的操作或其他问题还存在疑问,可以留言讨论!