以上已经给出了如何得到一个检索的相关网页集合,下面的工作是计算每个网页和查询q的相关度。相关度运算依赖三个方面,它们分别是:基本权值、链接权值和用户评价权值。首先计算每一个结果网页p的基本权值WB(q,p)。 按照第一节的论述...
以上已经给出了如何得到一个检索的相关网页集合,下面的工作是计算每个网页和查询q的相关度。相关度运算依赖三个方面,它们分别是:基本权值、链接权值和用户评价权值。首先计算每一个结果网页p的基本权值WB(q,p)。 按照第一节的论述...
在搜索引擎中,当用户给出查询并得到一个返回结果列表之后,绝大多数的情况下他们都是扫描一下前面几个条目的摘要,感觉有他需要的内容,则点击对应的链接,去阅读网页全文。对来自于不同用户的同一个查询词来说,若某个链接虽然在返...
网页之间的超链接是Web的基本特点,这也是从应用上区别现在的Web和以前的Internet最突出的特征。如果说TCP/IP协议组将上百万计算机无缝连接起来了,则HTTP/HTML协议组将上百亿信息(网页)无缝连接起来了。海量网页之间的相互链接形成...
前面提到了向量空间模型,但根据我们的讨论,并不能够将它完全照搬到搜索引擎系统中来。网页信息和正文文本最重要的差别就是在网页中含有大量的HTML标签(tag)。因此,我们在天网中提出了一个改进的TF*IDF算法用于检索和相关度评价算...
一个网页是否重要,我们可以从其它网页上找出相应的线索。如果一个网页十分重要,那么会有大量的链接指向这个网页。因此,需要对一个还没有搜集的URL 地址进行被链接次数的统计,以确定该URL 获得的其它网页的评价,我们同时赋予其相...
上述链接分析可以有效的计算网页的重要程度,但是带有明显的偏向,即不重视新出现的网页。新出现的网页,尽管可能很重要,但由于时间短,被链接的次数显然不可能很高,PageRank的值就不会高。因此需要来补偿这个问题,人们注意到,除...
从开发利用的角度看,网页和普通文本的不同主要反映在两个方面:HTML标签和网页之间的超链接。 我们知道,HTML设计有丰富的标签,是网页作者用于将网页的不同部分以不同的形式呈现给用户的手段,包括文字的布局,字体、字号的变化,...
最新评论