TSE是一个适合教学用的搜索引擎,设计的目标之一是让它足够小,便于任何一个对搜索引擎感兴趣的人都可以利用自己有限的硬件资源(例如自己的台式机)搭建;让它尽量简单,让具有一般程序设计基础的爱好者可以全部理解;让它的功能相对完整,能够反映一个大规模搜索引擎的主要成分。
首先从TSE的外部表现形式来看它所能完成的工作,然后给出TSE系统结构图。搜索引擎是通过浏览器界面展现给用户的,下面是TSE的用户界面。
TSE的用户界面
在查询输入框输入查询短语并回车 (或者点击 “搜索”按钮) ,即可得到相关资料。查询时关键词之间不需要使用“and”,因为TSE会在关键词之间自动添加“and”。TSE提供符合您查询条件的全部网页。
例如:想查北大校庆,只需在搜索框中输入“北大校庆”,然后回车。
TSE的查询返回结果
为方便解释起见,我们用A,B,C标识其中的几个部分。
1) “A”表示统计栏,包括用户输入的查询词,有关查询结果和搜索时间(一般搜索响应时间不超过1秒钟)的统计数字;
2) “B”表示一条查询结果, 包括该网页网址、网页摘要(在摘要信息中,您的原始查询字词,都用红色字体表示,以便阅读)。
3) “C”表示网页快照。通过链接访问网页失效时,可以访问TSE的缓存网页;或者网络拥塞的时候,可以通过访问缓存网页避免直接访问该网页。
TSE 网页快照
图中最上部分标明此网页来自TSE的网页快照。用户输入的查询短语如果被系统分成多个关键词,用不同颜色表示,并增加链接便于点击相应关键词直接到达正文中该关键词出现的位置。正文部分取自网页原文的缓存,其中包含用户查询关键词的文字加亮显示。
TSE 系统结构
上面图1、2、3、展示了TSE的查询服务功能,为了完成上述功能,需要网页搜集和预处理两个部分的支持。
图4所示为TSE系统结构,对应于搜索引擎三段式工作流程,是图中左侧的A表示搜集部分,中间的B表示整理(即预处理)部分和右侧的C表示服务部分。
其中黄色圆柱形图表示数据产品,按照统一并且简单易懂的格式存储,除本系统使用外,可以提供给其他科研机构使用;椭圆形绿色图表示系统流程中的内部数据,由于与系统中使用的数据结构结合紧密,不适合作为数据产品提供给其他研究机构;矩形蓝色表示系统流程的程序部分(过程),是数据产品与内部数据之间的桥梁。
系统起始于A搜集,结束于C服务,整个流程可以重复进行,从而达到系统的更新。
图4中的各个数据产品,内部数据和过程在后续章节相应部分细致讲解。在TSE中不包括PageRank的计算和日志挖掘,这两个过程主要是对查询结果的排序产生作用,在实际应用中的搜索引擎是必不可少的,但是对于讲解搜索引擎的工作过程不是必需的。
后续内容讲解TSE搜集部分(对应图4的A) ;第四章讲解TSE预处理部分(对应图中的B);第五章讲解TSE服务部分(对应图中的C)。





最新评论