搜索引擎原理》摘录于“华夏英才基金学术文库”,主要讲述搜索引擎原理、技术与系统,是早期的一本关于“搜索引擎”的书籍,分三个部分,从搜索引擎基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。由于篇幅较长,该文章只作为综述和目录结构,平时经常在跟搜索引擎接触,感兴趣的朋友在空余时间好好了解,虽不能深入研究搜索引擎,但至少可以作为参考与借鉴。

本文以原作者(李晓明、闫宏飞、王继民)设计、实现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的,本文按照上、中、下三篇展开相关的内容。

一、搜索引擎的基本工作原理

要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应的过程以及结果产生等等。这其中,虽然我们假定读者熟悉URL,HTML,HTTP,CGI,MIME等基本概念,但在上下文中也给予了必要的介绍,力图保持行文的流畅性。这一部分内容对于需要构建小规模搜索引擎的研究人员会有直接的参考价值。

二、讨论和大规模实用搜索引擎有关的技术问题

所谓大规模在这里指至少维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格,向读者展示计算机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。这一部分的内容对构建大规模数字图书馆的技术人员也应该有帮助。

三、网络与并行分布处理技术与中文处理技术

本篇介绍挑战性更强一些的内容。一般地讲,前面所述可以称为是“通用搜索引擎”,为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语的提交和匹配响应。尽管这已经可以解决许多问题了,但对有些重要的信息需求依然显得力不从心。例如,一个人可能会关心最近半年来网上出现了哪些关于他(她)的信息,一个企业可能要关心它做了一次大规模促销活动后一个月内网上有什么反响,一个政府机构可能会关心在一项政策法规颁布后的网上舆论。面向主题和个性化的信息查询服务就是我们试图描述的一种基本途径。这一部分内容更多的和网上中文信息处理技术有关。更准确地讲,网络与并行分布处理技术与中文处理技术的结合,从而实现大规模、高性能、高质量、有针对性地网上信息查询服务。这一部分内容可能对从事中文信息处理的研究人员有启发作用。

鸣谢:雷鸣、赵江华、冯是聪、单松巍、谢正茂、彭波、张志刚、龚笔宏、孟涛、昝红英、陈葆珏、刘建国、王建勇、黄蕊等等。

搜索引擎原理目录

第一章搜索引擎的概念

WEB搜索引擎基本原理和技术

第二章、WEB搜索引擎工作原理和体系结构

第一节、基本要求

第二节、网页搜集

第三节、预处理

第四节、查询服务

第五节、体系结构

第三章、WEB信息的搜集

第一节、引言

  1. 超文本传输协议
  2. 一个小型搜索引擎系统(TSE)

第二节、网页搜集

  1. 定义URL类和Page类
  2. 与服务器建立连接
  3. 发送请求和接收数据
  4. 网页信息存储的天网格式

第三节、多道搜集程序并行工作

  1. 多线程并发工作
  2. 控制对一个站点并发搜集线程的数目

第四节、如何避免网页的重复搜集

  1. 记录未访问、已访问URL和网页内容摘要信息
  2. 域名与IP的对应问题

第五节、如何首先搜集重要的网页

第六节、搜集信息的类型

第七节、本章小结

第四章、对搜集信息的预处理

第一节、信息预处理的系统结构

第二节、索引网页库

第三节、中文自动分词

第四节、分析网页和建立倒排文件

第五节、本章小结

第五章、信息查询服务

第一节、查询服务的系统结构

第二节、检索的定义

第三节、查询服务的实现

  1. 结果集合的形成
  2. 查询结果显示

第四节、本章小结

对质量和性能的追求

第六章、可扩展搜集子系统

第一节、天网系统概述和集中式搜集系统结构

  1. 天网系统结构
  2. 集中式搜集系统

第二节、利用并行处理技术高效搜集网页的一种方案

  1. 节点间URL的划分策略
  2. 关于性能的讨论
  3. 性能测试和评价
  4. 系统的动态可配置性设计

第三节、本章小结

第七章网页净化与消重

第一节、网页净化与元数据提取

  1. 引言
  2. DocView模型
  3. 网页的表示
  4. 提取DocView模型要素的方法
  5. 模型应用及实验研究

第二节、网页消重算法

  1. 消重算法
  2. 算法评测

第八章高性能检索子系统

第一节、检索系统基本技术

  1. 系统设计与结构
  2. 索引创建
  3. 检索过程

第二节、倒排文件性能模型

  1. 引言
  2. 倒排文件的概念
  3. 倒排文件的一种性能模型
  4. 结合计算机性能指标的考虑

第三节、混合索引技术

  1. 引言
  2. 混合索引原理
  3. 混合索引实现

第四节、倒排文件缓存机制

  1. 引言
  2. 倒排文件缓存
  3. 负载特性
  4. 缓存策略的选择

第五节、本章小结

第九章用户行为的特征及缓存的应用

第一节、用户查询与点击日志

第二节、用户行为特征的统计分析

  1. 用户查询词的分布情况
  2. 雷同查询词的衰减统计
  3. 相邻N项查询词的偏差分析
  4. 用户在输出结果中的翻页情况统计
  5. 用户点击URL的分布情况
  6. 考虑与不考虑查询项时点击URL分布的对比分析
  7. 查询过程的自相似性

第三节、查询缓存的使用

  1. 基于用户行为的启示
  2. 缓存替换策略研究

第四节、用户行为与WEB信息的分布特征

  1. 基本术语
  2. 海量Web信息的特征分析

第十章相关排序与系统质量评估

第一节、传统IR的相关排序技术

第二节、链接分析与相关排序

  1. 链接分析
  2. Web查询模式下的新信息

第三节、相关排序的一种实现方案

  1. 形成网页中词项的基本权重
  2. 利用链接的结构
  3. 收集用户反馈信息
  4. 计算最终的权重

第四节、搜索引擎系统质量评估

  1. 引言
  2. 查询类别分析与查询集的构建
  3. 评估实验的建立与分析

面向主题和个性化的WEB信息服务

第十一章、中文网页自动分类技术

第一节、引言

第二节、文档自动分类算法的类型

第三节、实现中文网页自动分类的一般过程

第四节、影响分类器性能的关键因素分析

  1. 实验设置
  2. 训练样本
  3. 特征选取
  4. 分类算法
  5. 截尾算法
  6. 一个中文网页分类器的设计方案

第五节、天网目录导航服务

  1. 问题的提出
  2. 天网目录导航服务的体系结构
  3. 天网目录的运行实例

第六节、本章小结

第十二章搜索引擎个性化查询服务

第一节、基于WEB挖掘的个性化技术

  1. Web挖掘技术
  2. 典型个性化Web服务系统的比较
  3. 基于Web挖掘的个性化技术的发展

第二节、天网知名度系统

  1. 系统结构
  2. 网页与命名实体的相关度评价

第十三章面向主题的信息搜集与应用

第一节、主题信息的搜集

  1. 主题信息分布的局部性
  2. 一种主题信息搜集系统

第二节、主题信息的一种搜集与处理模型及其应用

  1. 模型设计
  2. 应用实验:以“十六大”为主题
  3. 总结与讨论