网页信息的搜集首先介绍了超文本传输协议,为搜集工作提供必要的背景知识;接着给出我们的搜索引擎教学程序TSE的系统结构,结合TSE的搜集端的源程序进行讲解,分析了一个综合性搜索引擎搜集端所应具备的绝大部分功能。

网页信息搜集是搜索引擎三个步骤(搜集、预处理、服务)的首要环节。对于内容的理解,是深入理解整个搜索引擎流程的基础,同时考虑到预处理和服务模块,会更清楚为什么在搜集这个环节需要保存原始网页库和网页结构库。