重复搜集,是指物理上存在的一个网页,在没有更新的前提下,被搜集程序重复访问。造成重复搜集的原因,一方面是搜集程序没有清楚记录已经访问过的URL,另一方面是由于域名与IP多重对应关系造成的。下面分情况介绍解决方法。
抓取 作者:何清勇
记录未访问、已访问URL和网页内容摘要信息
控制对一个站点并发搜集线程的数目
"如何避免网页的重复搜集"的1条 评论
我来说两句!
Leave A Reply
姓名
电邮地址(不会公开你的电邮地址)
网站
Trackbacks and Pingbacks:
"如何避免网页的重复搜集"的1条 评论
我来说两句!