搜索引擎是一个网络应用软件系统,对它有如下基本要求。
能够接受用户通过浏览器提交的查询词或者短语,记作q,例如“非-典”,“伊-拉-克-战-争”,“床前明月光”等等。
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表,记作L。这个列表的每一条目至少包含三个元素(标题,网址链接,摘要)。
搜索引擎简单示意图
这里有几个问题要注意,它们对应上面的黑色文字:
“可以接受的时间”,也就是响应时间。对于在Web上面软件来说,这个时间不能太长,通常也就在“秒”这个量级。这是衡量搜索引擎可用性的一个基本指标,也是和传统信息检索系统的一个差别。更进一步的,这样的响应时间要求不仅要能满足单个用户查询,而且要能在系统设计负载的情况下满足所有的用户。也就是说,系统应该在额定吞吐率的情况下保证秒级响应时间。这其中详细的分析将在中篇第八章展开。
“匹配”,指的是网页中以某种形式包含有 q 的内容,其中最简答的、最常见的形式就是 q 在其中直接出现。不过后面我们会看到,如果一个搜索引擎就是以百分之百满足这种简单的包含关系为目标,即使实现了也并不就达到了最好的效果。
“列表”这一味着一种序(rank),在绝大多数情况下,L 是相当长的,例如超过1万个条目(这是和图书馆全文检索系统的又一个不同,那里返回的列表通常较短,例如几十个条目)。这不仅是由于Web上的信息量大,也由于搜索引擎的查询方式简单。简单,意味着抽象;抽象,意味着有更多的具体事物可能是它的体现。对于一个长长的列表,很少有用户有耐心都审视一遍(不仅是因为长,还因为大多数使用搜索引擎的用户通常都是“找到为止”,而不是“不全部找到不罢休”,加上这个列表中和一个用户关心的其实只占很少的比例)。有分析统计表明,用户平均察看返回结果不超过2页。
现代大规模高质量搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理和查询服务。
搜索引擎三段式的工作流程



"搜索引擎的基本要求"的1条 评论
我来说两句!