《搜索引擎原理》摘录于“华夏英才基金学术文库”,主要讲述搜索引擎原理、技术与系统,是早期的一本关于“搜索引擎”的书籍,分三个部分,从搜索引擎基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。由于篇幅较长,该文章只作为综述和目录结构,平时经常在跟搜索引擎接触,感兴趣的朋友在空余时间好好了解,虽不能深入研究搜索引擎,但至少可以作为参考与借鉴。
本文以原作者(李晓明、闫宏飞、王继民)设计、实现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的,本文按照上、中、下三篇展开相关的内容。
一、搜索引擎的基本工作原理
要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应的过程以及结果产生等等。这其中,虽然我们假定读者熟悉URL,HTML,HTTP,CGI,MIME等基本概念,但在上下文中也给予了必要的介绍,力图保持行文的流畅性。这一部分内容对于需要构建小规模搜索引擎的研究人员会有直接的参考价值。
二、讨论和大规模实用搜索引擎有关的技术问题
所谓大规模在这里指至少维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格,向读者展示计算机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。这一部分的内容对构建大规模数字图书馆的技术人员也应该有帮助。
三、网络与并行分布处理技术与中文处理技术
本篇介绍挑战性更强一些的内容。一般地讲,前面所述可以称为是“通用搜索引擎”,为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语的提交和匹配响应。尽管这已经可以解决许多问题了,但对有些重要的信息需求依然显得力不从心。例如,一个人可能会关心最近半年来网上出现了哪些关于他(她)的信息,一个企业可能要关心它做了一次大规模促销活动后一个月内网上有什么反响,一个政府机构可能会关心在一项政策法规颁布后的网上舆论。面向主题和个性化的信息查询服务就是我们试图描述的一种基本途径。这一部分内容更多的和网上中文信息处理技术有关。更准确地讲,网络与并行分布处理技术与中文处理技术的结合,从而实现大规模、高性能、高质量、有针对性地网上信息查询服务。这一部分内容可能对从事中文信息处理的研究人员有启发作用。
鸣谢:雷鸣、赵江华、冯是聪、单松巍、谢正茂、彭波、张志刚、龚笔宏、孟涛、昝红英、陈葆珏、刘建国、王建勇、黄蕊等等。
搜索引擎原理目录
第二章、WEB搜索引擎工作原理和体系结构
第一节、基本要求
第二节、网页搜集
第三节、预处理
第四节、查询服务
第五节、体系结构
第三章、WEB信息的搜集
第一节、引言
第二节、网页搜集
第三节、多道搜集程序并行工作
第四节、如何避免网页的重复搜集
第五节、如何首先搜集重要的网页
第六节、搜集信息的类型
第七节、本章小结
第四章、对搜集信息的预处理
第一节、信息预处理的系统结构
第二节、索引网页库
第三节、中文自动分词
第四节、分析网页和建立倒排文件
第五节、本章小结
第五章、信息查询服务
第一节、查询服务的系统结构
第二节、检索的定义
第三节、查询服务的实现
第四节、本章小结
第六章、可扩展搜集子系统
第一节、天网系统概述和集中式搜集系统结构
第三节、本章小结
第一节、网页净化与元数据提取
第二节、网页消重算法
第一节、检索系统基本技术
第二节、倒排文件性能模型
第三节、混合索引技术
第四节、倒排文件缓存机制
第五节、本章小结
第一节、用户查询与点击日志
第二节、用户行为特征的统计分析
第三节、查询缓存的使用
第四节、用户行为与WEB信息的分布特征
第一节、传统IR的相关排序技术
第二节、链接分析与相关排序
第三节、相关排序的一种实现方案
第四节、搜索引擎系统质量评估
- 引言
- 查询类别分析与查询集的构建
- 评估实验的建立与分析
第十一章、中文网页自动分类技术
第一节、引言
第二节、文档自动分类算法的类型
第三节、实现中文网页自动分类的一般过程
第四节、影响分类器性能的关键因素分析
第五节、天网目录导航服务
- 问题的提出
- 天网目录导航服务的体系结构
- 天网目录的运行实例
第六节、本章小结
第一节、基于WEB挖掘的个性化技术
第二节、天网知名度系统
- 系统结构
- 网页与命名实体的相关度评价
第一节、主题信息的搜集
- 主题信息分布的局部性
- 一种主题信息搜集系统
- 模型设计
- 应用实验:以“十六大”为主题
- 总结与讨论

"搜索引擎原理"的2条 评论
我来说两句!