重复搜集,是指物理上存在的一个网页,在没有更新的前提下,被搜集程序重复访问。造成重复搜集的原因,一方面是搜集程序没有清楚记录已经访问过的URL,另一方面是由于域名与IP多重对应关系造成的。下面分情况介绍解决方法。

  1. 记录未访问、已访问URL和网页内容摘要信息
  2. 域名与IP的对应问题