搜索引擎蜘蛛
这是搜索引擎的抓取程序,用来爬行并抓取网页数据,了解蜘蛛程序对网站的爬行和抓取情况,对我们展开SEO工作还是有很大的帮助的,下面介绍一款工具“HTTrack Website Copier”。
HTTrack是什么?
HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是HTTrack的爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 了SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(网站在搜索引擎中的网页快照就是被存储下来的内容)。
HTTrack Website Copier界面
我们一般用 HTTrack Website Copier 来对网站进行检测或测试,主要是了解搜索引擎蜘蛛程序对网站链接的爬行情况的了解,有了爬行、才会有抓取、收录、排名等等过程,所以搜索引擎蜘蛛对网站的印象致关重要。
HTTrack Website Copier 如何使用?
1、给自己的项目创立一个名称(中文或英文均可)
2、操作方式选择“下载网站”
当我们创立了名称后,点击“下一步”,在出现的窗口的操作方式项目,选择“下载网站”,再点击“添加URL”,将我们的网站地址添加进去。
3、进入“选项”,设定爬行和抓取规则等选项

进入“扫描规则”,为HTTrack程序设定爬行和抓取规则,HTTrack里面自带了一些,可以自己设置,也可以默认。

进入“搜寻”选项,为HTTrack配置一些搜索规则,在这里,取消“接受cookies”,因为搜索引擎是不接受cookies的,“URL hacks”就是统一URL,也就是我们平常说的首选域,其实HTTrack或搜索引擎蜘蛛程序可以很简单的分辨唯一的URL,我们之所以建议手动进行首 选域确定是因为带www和不带www的域名的确可以做不同内容的网站。程序还可以配置robots.txt规格。
4、设置完“选项”后,点击“下一步”。
点击“完成”完成HTTrack程序的设置,程序开始对设置的网站进行爬取并抓取文件。下面是HTTrack的工作界面。
观察HTTrack对网站链接的抓取情况,程序会首先爬取网站的robots.txt文件,再进入网站文件的爬行和抓取。关于程序对网站的爬行和抓取情况,你需要了解:
- 那些链接或文件被搜索引擎优先抓取?(网站结构和布局的重要性)
- 该程序对不同格式的URL,抓取速度是怎样的?(URL标准化)
- 那些链接或文件影响了程序的爬行?(网站的布局)
- … (程序中的“选项”中还有其他配置,可以根据自己的爱好或兴趣实践下)
5、HTTrack程序运行结束,查看“快照”和网站日志文件
这里只是对HTTrack的使用做了大致的说明,很多细节大家都可以去尝试下,了解我们的网站在搜索引擎的印象中到底是什么样的,搜索引擎蜘蛛是如何爬行并抓取我们的网页的。
关于HTTrack
HTTrack官网:www.httrack.com,该程序官方有下载,且下载后可以转化语言为简体中文。
本文伪原创于国平的一篇博文,以前看见过,只是自己一直没有常识过,今天尝试了下,觉得不错,所以跟大家分享出来,原文地址为:“HTTrack 在SEO上的应用:http://www.semyj.com/archives/123” ,如果你对“HTTrack”的操作或其他问题还存在疑问,可以留言讨论!









"HTTrack 了解搜索引擎蜘蛛爬行和抓取"的2条 评论
我来说两句!