<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>何清勇SEO博客</title>
	<atom:link href="http://scseoer.com/feed" rel="self" type="application/rss+xml" />
	<link>http://scseoer.com</link>
	<description></description>
	<lastBuildDate>Fri, 18 May 2012 08:44:23 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>SEO成功案例不能说明实质性问题</title>
		<link>http://scseoer.com/seo-anli.html</link>
		<comments>http://scseoer.com/seo-anli.html#comments</comments>
		<pubDate>Fri, 18 May 2012 08:43:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO指南]]></category>

		<guid isPermaLink="false">http://scseoer.com/?p=2654</guid>
		<description><![CDATA[很久没有写文章，也不喜欢说些废话，对与一些欲利用SEO来从搜索引擎导入免费流量的客户来讲，最好是先好好看看谷歌SEO指南或者百度SEO指南，这些都是官方给出的非常重要的信息，都是值得信任的。 官方指南中均提到用户需要了解SEO合作方所采用的SEO操作方式，以便给自己的网站带来风险，这些都是建立在你需要了解最基础的SEO知识后才能了解的，所以合作前期，必要的了解，至少对你自己来讲，是很有必要的，什么都不懂，就投入SEO，可能不会收到预想的效果。 而且很多传统行业的客户认为SEO就是纯技术的东西，只要做了就会有效果，把价格压的死死的，其实SEO与正常的网站推广是一样的，如果说用白帽方式，需要做的有许多，正规的SEO与网站运营是绝对分不开的，所以说，一些客户，网站什么都不管，就看关键词排名，这不是低成本的付费竞价，何况竞价都需要自己对网站好好管理，所以最终想利用SEO免费流量来推广信息的客户，还是先好好认识下SEO，这是对你自己负责。 对于成功案例，每个行业竞争完全不一样，如果我把SEO这个词做上了首页，不一定就能把你的行业词排到首页，无论是否是正规行业，竞争对手的操作方式决定着你的操作方式，所以在合作前期，可以咨询SEO合作方大致对行业竞争做下大致分析，作为首次了解，以便日后合作的顺利展开，合作前为了保证双方的利益，签订合同是非常有必要的。 我这人不太善于沟通，有时候很直，既然合作嘛，大家彼此了解是很有必要的，虽然目前不主要靠SEO接单来赚钱，但只要做就一定是做好，因为我不想出现失败案例，至少目前还暂时没有。]]></description>
		<wfw:commentRss>http://scseoer.com/seo-anli.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>提醒：本博客更换首选域</title>
		<link>http://scseoer.com/genghuan-shouxuanyu.html</link>
		<comments>http://scseoer.com/genghuan-shouxuanyu.html#comments</comments>
		<pubDate>Mon, 30 Apr 2012 08:37:48 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[首选域]]></category>

		<guid isPermaLink="false">http://scseoer.com/?p=2649</guid>
		<description><![CDATA[提醒：本博客更换首选域。 带 www 域名被降权，更换域名是最快的解决方式，实在不想再搞域名和备案的事情啦，博客只是个人学习资料或一些经验分享。 与博客友情链接的朋友可以更换下URL，如果懒得换，效果一样。 带 www 域名 HTTP 状态]]></description>
		<wfw:commentRss>http://scseoer.com/genghuan-shouxuanyu.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>腾讯微频道构造相关性内容</title>
		<link>http://scseoer.com/wei-pindao.html</link>
		<comments>http://scseoer.com/wei-pindao.html#comments</comments>
		<pubDate>Mon, 09 Apr 2012 14:47:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[内容相关性]]></category>
		<category><![CDATA[腾讯微博]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2638</guid>
		<description><![CDATA[在搜索引擎优化工作中，内容相关性一直都非常重要，高质量的网页内容是在相关性的基础上再提升点网页的质量，对于内容相对比较广泛的站点，针对性的进行内容相关性聚合是非常的方式。刚刚在腾讯微博中看见关于微频道的介绍，想起了谷歌搜索引擎优化指南中提到的内容要求。 关于腾讯微博的微频道 微频道是腾讯微博最新推出的产品，基于腾讯微博每天产生的海量用户内容，我们使用智能数据分析系统，再辅以人工运营，为您筛选出微博里最精华的内容。 目前我们有7个一级频道、70多个二级频道，从资讯到星座，涵盖了微博各方面的热点。每一个频道都能高效、精准、自动、实时的聚合用户发布的广播，如果看到优质的内容，建议您果断转播，果断收听，千万不要错过了！ 微博里有太多精彩好玩的内容，我们会不断挖掘，频道的数量会持续地增加。为了让用户更方便地获取内容，我们很快将会推出”收藏频道”功能；为了使更多的用户能参与微频道的建设，我们将会推出”投稿”功能，敬请期待。 腾讯微频道聚合内容要求 A、越专注于某一个细分领域，帐号越可能被收录。 比如：小王和小张都是体育迷，小王的帐号一直专注于发表与巴萨相关的广播，而小张的帐号则发表与足球、篮球、网球甚至围棋都相关的广播，有时候还会转发一些搞笑语录。相比较来说，小王被收录的可能性更大一些。 B、发表的内容越优质（主要是原创），则越可能被收录。 比如：小莉和小可都是美食达人，小莉喜欢转播各种各样的美食图片；而小可则更喜欢发一些自己做的菜的图片，还会附上很多心得。相比较来说，小可被收录的可能性更大一些。 目前腾讯微博在robots.txt文件中屏蔽了微频道中的内容。]]></description>
		<wfw:commentRss>http://scseoer.com/wei-pindao.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>腾讯微博体验版启用二级域名进行测试</title>
		<link>http://scseoer.com/1-t-qq.html</link>
		<comments>http://scseoer.com/1-t-qq.html#comments</comments>
		<pubDate>Sun, 08 Apr 2012 02:48:50 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[二级域名]]></category>
		<category><![CDATA[腾讯微博]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2631</guid>
		<description><![CDATA[腾讯微博体验版新功能 腾讯微博两年了，先前在 1.t.qq.com 进行测试，目前标准版（t.qq.com）中的新版就是体验版，对这次的升级这里暂不谈功能和界面上的变化，腾讯做的很多产品用户体验都做的很好。 在网站新界面和功能测试的时候，启用新的二级域名进行测试，并在原来版本醒目处提醒用户进入体验，待产品测试完成，再对版本进行升级，这里有个链接“1.t.qq.com/?go”，是体验版回到标准版的URL，该URL状态返回为200（并不是301哦），做了跳转处理。 腾讯微博体验版登陆 该体验版首页的LOGO没有给 1.t.qq.com 做上链接，源文件中除登陆URL跳转地址中出现了一次，其他并没有出现文字链接： &#60;input value=”46000101&#8243; type=”hidden” name=”aid” id=”aid”&#62; &#60;input value=”http://1.t.qq.com” type=”hidden” name=”u1&#8243;&#62; &#60;input value=”loginerroralert” type=hidden name=”fp”&#62; &#60;input value=”1&#8243; type=”hidden” name=”ptredirect”&#62; &#60;input value=”1&#8243; type=”hidden” name=”h”&#62; &#60;input value=”1&#8243; type=”hidden” name=”from_ui”&#62; &#60;input value=”" type=”hidden” name=”dumy”&#62; 体验版首页曾被谷歌和百度收录过，现在谷歌还存在，百度收录已经消失。 另外上次与苏斌之间的测试已经结束，博客未出现被K的现象。]]></description>
		<wfw:commentRss>http://scseoer.com/1-t-qq.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>申请友链的朋友请注意 近期博客可能被K</title>
		<link>http://scseoer.com/boke-k.html</link>
		<comments>http://scseoer.com/boke-k.html#comments</comments>
		<pubDate>Tue, 03 Apr 2012 04:35:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[敏感词]]></category>
		<category><![CDATA[网站被K]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2623</guid>
		<description><![CDATA[苏斌微博截图 出于互联网信息维护角度考虑，有些时候博客中出现一些敏感词或不应该出现的链接（你懂的），可能会导致该页面被搜索引擎从自身的索引库删除，但某一个链接而导致整站被K的情况还很少发生，除非这个链接的确太敏感了，和苏斌简单的交流了下，得到了这个链接，也加到了博客的友情链接中，测试时间为一个星期（4月1日-4月7日）。 以前博客的情况相对比较正常，从2012到来后，博客一直处于整站降权（百度）这个敏感时期，常识过一些恢复方式，至今未果，域名真是不想换了，加上博客内容应该是没有什么太过份的地方，的确对SEO行业朋友都会有或大或小的帮助，也不清楚具体那些动作能触发算法机制，恢复方式仍在不断尝试&#8230; 近期有朋友申请友链，请注意下，与本博客交换可能对自身网站的搜索流量有一定的影响&#8230;]]></description>
		<wfw:commentRss>http://scseoer.com/boke-k.html/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>谷歌水下搜索 极佳的用户体验</title>
		<link>http://scseoer.com/shuixia-sousuo.html</link>
		<comments>http://scseoer.com/shuixia-sousuo.html#comments</comments>
		<pubDate>Sun, 01 Apr 2012 08:17:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[愚人节]]></category>
		<category><![CDATA[谷歌搜索]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2616</guid>
		<description><![CDATA[谷歌搜索及相关的信息处理技术相信SEO行业内朋友都比较清楚，去年愚人节完穿越，今年进行水下搜索，产品初次使用体验非常良好。 谷歌水下搜索 打开谷歌搜索首页，可以看到搜索框下的“Google推出水下搜索。立即体验”字样，点击进入，就会出现充满重力效应的界面，水底有游弋的鱼和飘摇的海草，还有摇摇晃晃的搜索框，仿似一艘在海中行驶的小船。而搜索结果（图片）都会从天而将落入水中。 李开复推荐下面玩法：不断地搜你讨厌的人的名字，一个个都会被淹到海底！填满海洋你就赢了，如果试着去淹你不该淹的人，被404你就输了。 谷歌水下搜索体验 立即体验谷歌水下搜索：http://www.google.cn/landing/shuixia/]]></description>
		<wfw:commentRss>http://scseoer.com/shuixia-sousuo.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>一些SEO公司 还得有自己的独到见解</title>
		<link>http://scseoer.com/seo-gongsi.html</link>
		<comments>http://scseoer.com/seo-gongsi.html#comments</comments>
		<pubDate>Fri, 23 Mar 2012 14:06:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO公司]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2609</guid>
		<description><![CDATA[SEO这个新型的小行业发展也有几个年头了，很多人在圈子里混的还不错，开始组建自己的团队，一些比较优秀的早已经开始成立网络公司，这些从接单开始成长的SEOer，往往在技术和资源上都会有一定的优势，唯一需要补充的就是团队的管理和公司运营经验。 对于一些传统的网站建设相关起步的网络公司来讲，看见SEO行业的快速发展，顺其自然的也把这一服务挂到自己的网站业务介绍中了，但由于实际操作能力不强，而又不愿意花钱雇人，购置一些简单的群发软件就开始从事SEO服务的公司还不少，有些甚至利用付费推广来宣传自己的SEO服务。 付费推广的SEO公司 对于这些公司网站中关于SEO的一些介绍，往往都是直接转载（一般不留原文地址）。真想知道他们是如何回答当用户咨询问题的。 如果真想利用自身的优势向用户提供有效的SEO服务，建议还得有自己独到的见解，不然不但被行业内部瞧不起，而且你的用户最终也会选择离开。]]></description>
		<wfw:commentRss>http://scseoer.com/seo-gongsi.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>小规模SEO交流效果会更好</title>
		<link>http://scseoer.com/sichuan-seo-2.html</link>
		<comments>http://scseoer.com/sichuan-seo-2.html#comments</comments>
		<pubDate>Wed, 21 Mar 2012 09:23:43 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO交流]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2607</guid>
		<description><![CDATA[目前很多SEO人员大都是一个人在努力，平时除了与客户沟通，很少交流，在周末或平时比较闲的时候可以参加同城的SEO聚会，这样的聚会相对交流的针对性比较强，大都是关于工作和一些资源合作方面的交流。 以前在深圳参加过几次聚会，可能是那边的人员比较多，所以每次聚会参加的人数往往都是100左右，可能是个人不喜欢太过热闹的场合，每次聚会下来几乎没有什么收获，以后也很少参加类似的聚会。 上周末，四川SEOWHY俱乐部举行了第五次线下聚会，那天天气比较好，整天的蹲在家里，也想出去晒晒太阳，所以就顺便去参加了这次SEO聚会，参加的人数不多，据“文大帅”说准备的时间比较匆忙，相对于临时通知，最后到场的朋友也就10几个人。这次没有往常那样交换名片、做自我介绍的正式环节，只是大家坐下来喝点茶，随便聊聊工作的事情，也把自己的想法说出来让大家讨论。 很多朋友都做的不错，也没有前些年那样特别关注SEO，几乎都转向了实体运营，开始做起了电子商务，交流一圈下来感觉比较轻松，没有大规模聚会那样疲惫。 对于一些线下的SEO交流，个人感觉人数太多 ，往往只是关注那几个焦点，反而影响交流质量，搞的大家都很疲惫，几个十几个朋友平时空闲的时候就可以坐下来聊聊，特别是对于个人接单的SEOer来讲，这样交流的效果会比较好。]]></description>
		<wfw:commentRss>http://scseoer.com/sichuan-seo-2.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>网站抓取异常工具查询</title>
		<link>http://scseoer.com/zhuaqu-yichang.html</link>
		<comments>http://scseoer.com/zhuaqu-yichang.html#comments</comments>
		<pubDate>Wed, 14 Mar 2012 09:25:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO工具]]></category>
		<category><![CDATA[抓取异常]]></category>
		<category><![CDATA[爬虫程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2601</guid>
		<description><![CDATA[百度站点抓取异常工具查询 站点抓取异常工具说明 抓取异常数据最快每天更新一次 如果已有站点的异常数据查询不到，请隔日再查，不同站点更新日期可能不同 异常类型都有这些： 404页面： IP封禁 UA封禁 异常重定向 其他异常 站长平台站点抓取异常工具全新上线，新上线的抓取异常工具面向全部网站开放。网站管理员可登录百度站长平台直接使用，了解百度抓取过程中的异常情况，以便站长随时发现网站存在的问题。工具体验地址：http://zhanzhang.baidu.com/]]></description>
		<wfw:commentRss>http://scseoer.com/zhuaqu-yichang.html/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>博客就这样了</title>
		<link>http://scseoer.com/scseoer-blog.html</link>
		<comments>http://scseoer.com/scseoer-blog.html#comments</comments>
		<pubDate>Sat, 10 Mar 2012 02:56:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[博客]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2598</guid>
		<description><![CDATA[今天的计划完成的相对较早，面对纯html的首页，有朋友问过，体验的确不怎么样，于是找了下wordpress相关的主题（每次更换主题都是非常麻烦的事情），最后使用“welee”的汉化主题。 博客一直以来都是从用户体验为基础，以实用的分享为宗旨进行的。这次博客的降权除了从百度少点流量，其余基本没有任何影响，也不想考虑更换域名什么的了，SEO帮助栏目中有一些技术或原理性的文章，对了解搜索引擎还是很有帮助。 博客中目前友情链接几乎没有什么变化，如果你指向我的链接，在百度流量上可能会受到一些影响。 该主题会进一步完善，以后的博客内容更新保持不变，重点还是用户体验改善和一些新的实用技巧。]]></description>
		<wfw:commentRss>http://scseoer.com/scseoer-blog.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>DEDE 5.7 更新数据库archives表时出错</title>
		<link>http://scseoer.com/dede-5-7-archives.html</link>
		<comments>http://scseoer.com/dede-5-7-archives.html#comments</comments>
		<pubDate>Thu, 08 Mar 2012 14:18:48 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[DEDE]]></category>
		<category><![CDATA[数据库]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2589</guid>
		<description><![CDATA[DEDE 5.7 更新数据库archives表时出错解决方式：DEDE CMS从5.6版升级到5.7版本，出现修改文章改不了的现象，发布文章时出现，“更新数据库archives表时出错，请检查”。 解决办法：登陆系统后台–系统–SQL命令行工具，运行下面代码： ALTER TABLE `#@__archives` ADD COLUMN `voteid` int(10) NOT NULL DEFAULT 0 AFTER `mtype`; 运行后更新下缓冲即可成功解决。]]></description>
		<wfw:commentRss>http://scseoer.com/dede-5-7-archives.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>这篇文章是如何被收录的？</title>
		<link>http://scseoer.com/wenzhang-shoulu.html</link>
		<comments>http://scseoer.com/wenzhang-shoulu.html#comments</comments>
		<pubDate>Wed, 07 Mar 2012 08:09:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[爬虫程序]]></category>
		<category><![CDATA[网页手里]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2584</guid>
		<description><![CDATA[前段时间由于博客降权，由于搜索引擎对收录的抓取频率相对内页来将是比较高的，所以调整从首页开始，由于小幅改版没有任何反映，所以对首页进行了大的变动，无CSS、无JS，后台发布文章在首页无显示，对于爬虫程序经常关顾的页面，没有链接支持，收录会得到一定的影响，那么，这篇文章是如何收录的？ 大致原因： 网站地图，博客在站长平台有提交地图，可能是通过地图文件过来查询到新的页面而收录）； 搜索引擎保存的列表更新，爬虫程序为了保持比较高的运行效率，在首页爬行的时候会将URL放入待爬行列表，根据URL返回状态码来更新列表及列表中URL的内容。 其他原因。]]></description>
		<wfw:commentRss>http://scseoer.com/wenzhang-shoulu.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>博客首页大改版，无CSS，纯htm代码测试</title>
		<link>http://scseoer.com/scseoer-css-htm.html</link>
		<comments>http://scseoer.com/scseoer-css-htm.html#comments</comments>
		<pubDate>Tue, 06 Mar 2012 06:31:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[博客首页]]></category>
		<category><![CDATA[网站改版]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2582</guid>
		<description><![CDATA[博客从春节到现在，一直处于整站降权的处境，本来利用改变爬虫环境来改变下博客被降权的现状，常识过一次，未见效果。 春节前由于网站主机出现故障，整站遭到了降权，关键词全无，谷歌情况在主机恢复后得到解决，这段时间事情较多，也不能在博客上花大多心思，索引直接将SOSO的SEO通用指南放到无CSS样式的首页，今天博客首页快照回荡到3月3日，待爬虫适应后再看情况（真不想再换域名咯）。]]></description>
		<wfw:commentRss>http://scseoer.com/scseoer-css-htm.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>单页面的网页性能优化格外重要</title>
		<link>http://scseoer.com/danyemian-youhua.html</link>
		<comments>http://scseoer.com/danyemian-youhua.html#comments</comments>
		<pubDate>Fri, 02 Mar 2012 08:13:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[单页面优化]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2578</guid>
		<description><![CDATA[对于单页面做SEO的朋友，页面的性能优化显得特别重要，很多单页面均采用图片布局，这样在视觉上可以得到很好的用户体验，但打开速度太慢势必影响用户的心情，图片的无损压缩，JS、CSS等位置的调整及压缩处理都显得很重要。]]></description>
		<wfw:commentRss>http://scseoer.com/danyemian-youhua.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度收录量数据每天更新一次</title>
		<link>http://scseoer.com/baidu-shoulu-gengxin.html</link>
		<comments>http://scseoer.com/baidu-shoulu-gengxin.html#comments</comments>
		<pubDate>Thu, 01 Mar 2012 16:25:35 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[百度收录]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2575</guid>
		<description><![CDATA[2012年2月29日起，百度收录量数据每天更新一次，历史数据仍保持原态。百度收录量查询是目前最准确最权威的百度收录量数据，安装统计代码产生流量数据后，即可查看。]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-shoulu-gengxin.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Seoer 你通过“百度认证”了吗</title>
		<link>http://scseoer.com/seoer-baidurenzheng.html</link>
		<comments>http://scseoer.com/seoer-baidurenzheng.html#comments</comments>
		<pubDate>Thu, 01 Mar 2012 13:52:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[互联网营销]]></category>
		<category><![CDATA[百度认证]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2572</guid>
		<description><![CDATA[“百度认证”是百度公司于2011年启动的互联网营销职业认证培训项目，由百度营销研究院创建并运营。据不完全统计，目前国内互联网营销专业人才的需求达 到上百万规模，但从业人员的实践和知识水平良莠不齐，从业人员职业定位与发展方向模糊不清，行业中缺乏明确统一的标准知识体系和职业能力规范。为了完善和 提升互联网产业生态圈软环境与企业软能力的健康发展，百度公司启动了百度认证项目，该项目针对互联网营销领域中的工具应用与方案执行、营销策略制定与优化 分析、数据解析与整合营销等不同模块进行标准化培训及进阶式权威认证，并进一步计划构建互联网营销人才库，为行业梳理规范、输送人才。 2月29日，“百度认证”专家委员会成立暨教材开发启动会在北京召开。12位中国传播及营销领域的重量级专家和产业端顶尖实践专家出席会议，并应邀成为百度营销研究院百度认证项目的特聘专家。 百度希望通过产学一体的合作模式，在自身数据和应用共享的基础上，联合不同领域的顶级专家，开发完成一套符合中国互联网市场发展现状的职业认证标准知识体 系。据悉，目前初级百度认证课件已由百度营销研究院开发完成并通过专家评审，全套涵盖初级、中级、高级百度认证培训的标准课件及教材将于今年年中全部开发 完毕并面向社会发行。]]></description>
		<wfw:commentRss>http://scseoer.com/seoer-baidurenzheng.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>谷歌悬赏百万测试自己浏览器漏洞</title>
		<link>http://scseoer.com/guge-xuanshang.html</link>
		<comments>http://scseoer.com/guge-xuanshang.html#comments</comments>
		<pubDate>Wed, 29 Feb 2012 17:09:14 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[浏览器]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2565</guid>
		<description><![CDATA[谷歌悬赏百万测试自己浏览器漏洞，根据规则，黑客每找出一个漏洞并提供破解方案，谷歌将按级别支付奖金，但总奖金限额为100万美元。 谷歌官方：“我们赞助这个项目的目的很简单：能够借此发现全面的破解方案，对我们是个大的学习机会，”谷歌Chrome浏览器安全团队说，“我们不仅可以修复漏洞，还能通过了解系统的弱点和破解技巧……更好地为用户提供保护。”]]></description>
		<wfw:commentRss>http://scseoer.com/guge-xuanshang.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>更换模板</title>
		<link>http://scseoer.com/genghuan-muban.html</link>
		<comments>http://scseoer.com/genghuan-muban.html#comments</comments>
		<pubDate>Wed, 29 Feb 2012 09:42:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[微博客]]></category>
		<category><![CDATA[模板]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2560</guid>
		<description><![CDATA[萧涵的新模版出来很久了，其中的微博客功能很不错，升级模板尝试下，模板中很多功能和布局还需要更改，这段时间事情比较多，只能不间断的修改了，以前的博客中加入了微格式与评论者头像本地缓存，目的是为了在一定程度上改善搜索结果的用户体验与页面性能。]]></description>
		<wfw:commentRss>http://scseoer.com/genghuan-muban.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页快照内容显示不完全是咋回事</title>
		<link>http://scseoer.com/kuaizhao-zhuaqu.html</link>
		<comments>http://scseoer.com/kuaizhao-zhuaqu.html#comments</comments>
		<pubDate>Sat, 18 Feb 2012 02:45:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[爬虫程序]]></category>
		<category><![CDATA[网页快照]]></category>
		<category><![CDATA[网页抓取]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2555</guid>
		<description><![CDATA[很多时候，一些朋友喜欢关注自己的网页快照及快照内容，对于网站快照中内容没有显示完全，自己会担心是否是搜索引擎的爬虫程序对网页没有抓取完全导致的，到底是不是这样，为了准确的找到答案，我们可以借助网站日志文件来准确找到答案。 2012-02-16 10:59:13 GET / &#8211; 123.125.71.94 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) &#8211; 200 0 10401 上面是apache服务器软件下网站的一段首页日志，日志中记录了详细的抓取信息，在日志末尾，有200 0 10401这么一段，200是抓取成功的意思，最后的10401就是抓取的网页字节数，那么，这个数字是否和你的真实网页体积一致呢。 如果你还不清楚如何查询网页体积大小，可以借助查询网页是否开启Gzip压缩来间接得到。 www.scseoer.com 的Gzip压缩信息 日志中记录的10401与体积查询10088相差不大，可能是查询工具的误差值。那么，如果得到这样的结果，就算该网页的快照内容没有显示完整，我们也可以忽略不计，因为爬虫抓取的数据的确没有错误。 爬虫程序的抓取范围 对于爬虫程序来讲，限制一定范围的抓取数据会在一定程度上提高程序的运行效率，就百度搜索引擎来讲，站长俱乐部中有介绍，爬虫对页面的链接信息抓取是很大的。如果你使用过类似HTTrack的抓取工具，可以大致了解爬虫的抓取过程，也就是说对链接信息的抓取应该是没有问题的。 解决抓取不完整的方法 如果你经过上面的方式查询结果显示，的确没有抓取完全，可能是网页体积实在很大，导致部分内容没有抓取成 功，那么，可以对该网页做Gzip压缩处理，也可以先解决网页本身的体积问题，比如图片的无损压缩，JS、CSS等文件的压缩及优化处理，最后再做 Gzip压缩，这样就会慢慢减小页面体积，让爬虫程序抓取网页的全部内容。]]></description>
		<wfw:commentRss>http://scseoer.com/kuaizhao-zhuaqu.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>关于SEO 百度其实是欢迎的</title>
		<link>http://scseoer.com/baimao-seo.html</link>
		<comments>http://scseoer.com/baimao-seo.html#comments</comments>
		<pubDate>Thu, 16 Feb 2012 15:41:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[百度SEO]]></category>
		<category><![CDATA[网页价值]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2553</guid>
		<description><![CDATA[一个搜索结果出现的提示信息，让SEO行业一些从业者都不知所措，包括一些有经验的SEO人员，正如百度的搜索引擎优化指南讲到： 搜索引擎与SEO行为间是一种良性的共生关系，比如很多优质的网站是用Flash或者Ajax做的，搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后，可以通过对网站的合理优化，使这些优质资源更好的发挥其检索效果，改善用户的搜索体验。 一个搜索引擎最基础的工作是抓取网页，向有需求的用户进行展示，而抓取更毒相对优质的网页更能体现一个搜索引擎的专业度，特别是对于全球行中文搜索引擎的百度来讲，这一点毋容置疑。 正规的SEO操作有助于改善网站质量，提高爬虫程序运行效率。 通常情况下，一些传统企业的网站采用flash、JS等爬虫程序无法很好识别的技术构建，美丽的外表下透露出很多问题，但如果对这些网站进行合理的SEO优化操作，会更加容易让搜索引擎程序找到他，便于收录以及参与到关键词排名当中去。 另外，一些网站使用使用的代码用于臃肿，SEO人员对网站代码进行很好的优化，可以让爬虫程序抓取更多有用的信息。 正规SEO操作可以让用户看见更多优质的信息。 假如没有SEO，那样搜索引擎的搜索结果中出现的信息很可能被一些大型网站的内页全部占据，原因大家都懂，因为别人提供的内容的确是用户真正需要的，百度在处理原创性上，同样还是以用户体验为标准，一个小网站的原创内容到了大站上面，大站的排名就比小站高的多，因为大站的用户够多，出现在大站相比之下会让更多有需求的用户收益，而且大站在处理网页结构、内容组织等基础质量上可能会远远胜过小站。可能大站在页面还加入了和分享功能，让那篇高质量的文章影响到更多有需求的用户。 百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。 上面出现的提示，重点是在警示一些采用不正当的SEO人员，非正常的SEO方式，不但会让搜索引擎对网页的识别带来影响，就算通过这种方式得到了关键词排名，最终也会损害普通用户的浏览体验。 把自己置身于SEO这个行业之外（我们大部分可能都处于这个角色），如果你通过搜素关键词，在搜素引擎搜索结果前面都很难找到信息，那么，你那个时候肯定会抱怨这个搜索引擎太垃圾，很多时候我在查找关键词的时候，宁可去点击那些付费广告。 百度作为一个搜索引擎，不光是为了商业利益，面对更多的用户的反馈，很多次出现一些不良信息的搜索结果，用户不爽是肯定是搜索引擎而不是网页本身，这个时候如果你是这个搜索引擎的负责人，你该怎么办？又能怎么办？这个时候还不来点“人工干预”，不晓得后面用户又会说些什么。 大家都现实点，好好向自己的用户提供些有价值的内容吧，正如站长俱乐部置顶帖说道：提醒大家考核搜索引擎优化的效果，不要只关注流量，更应关注转化率。这才是一个网站存在的真正价值。]]></description>
		<wfw:commentRss>http://scseoer.com/baimao-seo.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>百度提示：非正当SEO手法可能对网站带来风险</title>
		<link>http://scseoer.com/seo-tixing.html</link>
		<comments>http://scseoer.com/seo-tixing.html#comments</comments>
		<pubDate>Wed, 15 Feb 2012 08:23:50 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO作弊]]></category>
		<category><![CDATA[百度SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2540</guid>
		<description><![CDATA[百度搜索SEO结果变化 百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。 随着SEO行业不断发展，SEO人员不断增多，各种作弊方式越来越多，这也是导致百度出现该提示的主要原因。 从提示不难发现，一些不正当SEO手法（黑帽SEO）将越来越受到排斥，无论是百度搜索引擎自身，还是面对的SEO客户，都将警惕SEO手法给自身网站带来的危害，后面提醒站长对网站进行SEO优化操作的时候请参阅百度SEO指南（2.0版），也让一些正规做网站SEO优化的人员稍稍感到欣慰，毕竟SEO和网站优化之间并不存在任何冲突，正规的SEO优化方式，只会给网站带来更加优质的流量，帮助网站实现流量转换。 了解“常见的SEO作弊行为”，避免给网站造成风险。 从另一个侧边，也反应出了百度搜索引擎自身在处理作弊行为也存在很多的弊端，除了加强自身的技术优势外，也开始让SEO行业客户开始注意自己网站的SEO优化方式是否存在不正当行为。 搜索结果（你懂的）： “SEO”关键词的付费推广：付费用户都是正规操作，而且技术很厉害，但既然这样为什么还付费推广呢，可能只有百度知道吧； 百度提醒信息：可以在特定关键词搜索结果下添加或修改信息； 百度搜索引擎优化指南：将官方的搜索引擎优化指南自然排名置顶。 目前“SEO”关键词搜索结果似乎恢复正常（2012-02-15 18：50）]]></description>
		<wfw:commentRss>http://scseoer.com/seo-tixing.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>简单实现“百度SEO建议”100分</title>
		<link>http://scseoer.com/seojianyi-100.html</link>
		<comments>http://scseoer.com/seojianyi-100.html#comments</comments>
		<pubDate>Mon, 13 Feb 2012 14:30:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO建议]]></category>
		<category><![CDATA[百度统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2534</guid>
		<description><![CDATA[自从百度统计工具推出SEO建议功能后，不少SEO爱好者都利用该工具对自己的网站进行了简单的SEO基础检测，该工具检测的项目有限，对网站的URL和页面内容进行了检测，如果你通过该工具检测结构未达到满分，可以通过以下方式得到满分100。 URL检测 URL长度：百度建议url的最长长度不超过255byte。 处理方式：一般URL的长度不宜过长，首先过长的URL不便于用户记忆，另外从爬虫的角度看（非必要），也不便于从URL理解网页内容。如果你的URL是经过伪静态处理，那么，这点一般都没有什么问题。 静态页参数：在静态页面上使用动态参数，会造成spider多次和重复抓取。 处理方式：静态页面的动态参数过多可能会导致爬虫陷入死循环，这样会影响爬虫对网页的抓取，影响网站的收录量，同上面URL处理一样，一般经过伪静态都可以得到解决，根据网站程序的实际情况，自定义URL最好，即可以使URL看起来更容易理解网页，也便于用户对URL的记忆。 比如： http://www.scseoer.com/ruan-404.html ruan-404.html：该网页描述了软404相关介绍和注意事项。 页面内容 Meta信息完善程度：缺少keywords和description的meta标签，这可能会对您网页的展现和排序产生一定影响。 一个完善的网页应该包含keywords和description标签，keywords属于该网页的关键词标签，早期的搜索引擎曾依靠这个标签来初步判断该网页的关键词，同理，description标签是网页的描述标签，一个网页的大致描述内容，一般都是直接写在这个标签里面，截至目前为止，搜索引擎仍然直接调用大部分网页的description标签作为搜索结果的网页描述内容（不超过200个字符）。 www.scseoer.com 的metal标签信息 处理方式：根据自己的网站程序情况，很多程序都加入的SEO功能，每个网页都可以通过后台自定义keywords和description标签，部分无法通过后台实现的程序可以通过修改网页模板或程序文件来实现，这需要对网站程序有所了解，如果不是很了解的朋友，建议咨询网站程序提供商以寻求帮助，解决问题。 图片Alt信息：存在没有alt信息的img标签，加入这项信息可使您网页上的图片更容易被用户检索到。 由于搜索引擎本身的技术缺陷，对于网页中插入的图片，暂时还不能识别其具体体现的意义，借助图片的alt标签，搜索引擎能大致识别该图片所表达的意义，所以如果在网页中插入图片，可以在img标签中为该图片写上alt标签，并在标签中切实写明该图片所表达的内容。 图片的ALT标签 处理方式：为图片加上alt标签，并在标签中写上图片表达的意义（切勿堆砌关键词）。 Frame信息：存在frame/frameset/iframe标签，rame会导致百度spider的抓取困难，百度建议您尽量不要使用。 frame信息简单的讲就是网页中调用其他网页的一种框架形式，百度在搜索引擎优化指南中明确提到，网页中尽量不使用frame框架结构，因为frame/frameset/iframe标签中的信息可能会被直接忽略。 处理方式：删除网页中使用的frame/frameset/iframe标签（可以讲frame/frameset/iframe标签中内容写入JS文件，在网页中调用这个JS文件）。 Flash文字信息：flash缺少文字描述，加入描述的flash文件可以让百度更好的了解您提供的网页。 Flash是由macromedia公司推出的交互式矢量图和 Web 动画的标准，设计人员和开发人员可使用它来创建演示文稿、应用程序和其它允许用户交互的内容。Flash可以包含简单的动画、视频内容、复杂演示文稿和应用程序以及介于它们之间的任何内容。 在网站建设的前些年，很多网站都采用FLASH，因为FLASH界面美观，互动性相对普通的文字要强的多，但是可惜的是，搜素引擎的爬虫程序可不像普通用户那样欣赏FLASH，FLASH对搜索引擎来讲，就如果一张白纸（谷歌目前已经可以识别简单FLASH内容），所以如果网页中如果使用FLASH，可以为FLASH文件加入一些文件描述，或者不使用全屏FLASH，在FLASH周围加入一些文件或者图片布局，这样即可以让网页更加丰富，也解决搜索引擎理解FLASH难的问题。 处理方式：在引用FLASH的&#60;object&#62;标签中加入文件描述，或者在FLASH周围做一些文字或图片布局。 通过以上方式获得的SEO建议得分 对于目前百度统计推出的SEO建议，如果你刚刚接触SEO，可以利用该工具慢慢接触SEO，这些也是一些简单的网页SEO处理方式，有一点是可以肯定的，百度统计推出的SEO建议功能只会对你的网页起到积极作用。]]></description>
		<wfw:commentRss>http://scseoer.com/seojianyi-100.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>谷歌网页布局算法调整</title>
		<link>http://scseoer.com/wangye-buju.html</link>
		<comments>http://scseoer.com/wangye-buju.html#comments</comments>
		<pubDate>Sun, 12 Feb 2012 06:00:14 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户体验]]></category>
		<category><![CDATA[谷歌算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2531</guid>
		<description><![CDATA[谷歌一直以来都致力于帮助站长在搜索结果中找到更多优质网站，最近谷歌对算法做出了新的调整，旨在改进网页布局以及用户在点击搜索结果后能够看到的网页内容的数量。 的确，无论是在百度还是谷歌的搜索结果中，有时候会遇见这样的问题，点击搜索结果后很难找到实际的网页内容，这样的网页对用户体验方面考虑的可能实在太少。至少用户希望点击后就能直接看到内容，而不是不停地下拉滚动条，冒出一条接一条的广告。因此，那些没有提供首屏内容的网站可能会受到谷歌本次算法调整的影响。点击一家网站后，如果您第一眼看到的网页上没有大量的直观首屏内容，或者广告占据了很大的网页版面，这很难称得上良好的用户体验。因此，此类网站的搜索排名也不会很高。 对于许多网站而言，在首屏投放广告是一种极为常见的做法；这些广告通常能够收到良好的效果，帮助广告主通过在线内容获利。这次算法调整不会影响到那些以适当的方式在首屏投放广告的网站，但会影响到在主页过度投放广告、以至于用户很难在网页上找到实际内容的网站。此外，改进后的新算法还会影响此类网站：首屏上仅有少量可见内容，或实际内容始终隐藏在茫茫广告之中。 谷歌这次的网页布局算法调整，只有不到1%的搜索结果会受到实质性影响。也就是说，在每100次搜索中，普通用户会在不到一次的搜索中注意到搜索结果有所变化。如果您认为您的网站受到了页面布局算法调整的影响，请思量在您的网页使用首屏的方法，以及您网页上的内容是否不够醒目，或很难被用户迅速发现。您可以使用谷歌的Browser Size工具以及其他工具，查看您的网站在不同分辨率下的显示结果。 如果您决定更新网页布局，谷歌的网页布局算法将在重新抓取时自动反映出布局上的变化，并处理足够多的网页，以评估此变化。这一过程所需要的时间取决于多种因素，包括网站上的网页数量、以及Googlebot抓取网站内容的效率。对于普通网站而言，Googlebot可能需要几周的时间抓取并处理足够的网页，以反映网站的网页布局变化。 总而言之，谷歌建议广告主继续专注于为用户提供最佳的网络体验，而不要执着于具体的算法调整。本次调整只是今年计划推出的总计500项改进中的一项。 转自谷歌中文网站站长博客]]></description>
		<wfw:commentRss>http://scseoer.com/wangye-buju.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>网页质量提升成SEO最大难点</title>
		<link>http://scseoer.com/wangye-zhiliang.html</link>
		<comments>http://scseoer.com/wangye-zhiliang.html#comments</comments>
		<pubDate>Sat, 28 Jan 2012 03:15:32 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页数据]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2494</guid>
		<description><![CDATA[无论你是否对网站进行优化操作，网页本身质量的提升始终是最基础的，无论是搜索引擎的爬虫程序还是普通用户，也无论是通过搜索引擎还是其他推广方式，首先是先进入你的网站，网页页面质量判断是第一印象，接着才会是用户评价及内容推荐，所以网页本身的质量是最基础，也是最重要的工作，目前也将SEO工作的最大难点。 百度设立19项创新研究方向 百度校园大规模机器学习与数据挖掘主题研究项目总共收到了来自全国各大高校及学术机构的数十份研究方案，经过百度公司由资深技术专家构成的专家委员对所有方案进行的认真，仔细的讨论及评审后，评选出具有创新性的19项研究方案： 百度评选出具有创新性的19项研究方案（来源：百度爱好者） 据悉，百度公司将与获得创新性研究方案的研究团队建立合作项目并提供一定的合作资金用于研究项目的开展。另外，百度公司还将邀请创新性研究方案的案团队派遣研究生作为 “ 访问研究员 ” 造访百度公司进行为期 6 个月的研究工作，百度公司将为其指定资深技术专家作为导师，提供研究方面的专业指导，并提供研究所需的适当数据和计算资源。 百度创新性的19项研究方案文字提取： 主动学习结合半监督学习在大规模网页/网站分类中的应用研究 基于Web数据的结构化语义关系挖掘 基于海量文本的主题自动分割技术研究 基于主题模型事件-情感互动关系研究及事件演化分析 基于协同过滤的文档话题提取与建模 大规模社会网络环境下的情感挖掘研究 高性能信息推荐算法设计 基于规则与机器学习融合的用户搜索行为建模极其原型系统 社交商务中基于用户评价的广告模型研究 融合规则和机器学习的双语术语对自动抽取研究 基于协同过滤的广告关键词推荐算法 针对大规模稀疏、强临时性数据的个性化推荐系统算法设计 海量特征设计：一种适合于Naive Bayes的大规模在线特征选择及组合方法 面向复杂互联网数据的安全半监督学习和主动学习方法的研究 图像和文本数据的多标记学习研究 大规模网络文本复制件检测系统研究 基于用户领域只是和网络数据动力分析研究 Web页面的分面分类模型与算法 海量数据主题建模的快速学习算法研究与应用 从上面的19项研究方向可以看出，很多研究是百度搜索引擎一直在做的，投资这些创新研究无疑是提升机器工作性能和改善自身搜索的用户体验，对于网页质量的要求也越来越高，对于SEO这个特殊行业来讲，站内SEO优化逐渐成为重点及难点。 谷歌在网站站长指南中明确提到了如何提升页面质量，而且提供了一些非常实用的工具，例如Lynx、Page Speed、robots.txt检测工具等等，对于网页质量上的提升还是不错的，也提到了一些平常在工作中应该注意的一些问题，如隐藏文字及链接、欺骗性重定向、重复性网页等，当搜索引擎判断页面存在这些情况，在页面质量得分上会降低很多，SEO人员在平时工作中应该特别注意。]]></description>
		<wfw:commentRss>http://scseoer.com/wangye-zhiliang.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>新手学习SEO可选择权威SEO教材作为入门</title>
		<link>http://scseoer.com/xinshou-seo-jiaocai.html</link>
		<comments>http://scseoer.com/xinshou-seo-jiaocai.html#comments</comments>
		<pubDate>Fri, 13 Jan 2012 04:52:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO学习]]></category>
		<category><![CDATA[SEO资料]]></category>
		<category><![CDATA[百度SEO]]></category>
		<category><![CDATA[谷歌SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2483</guid>
		<description><![CDATA[随着互联网越来越普及，加上很多网络营销观念的深入，不少企业或个人已经开始注重网络推广，对于有网站的企业来讲，可能早已经认识到搜索引擎排名的重要性，从09年至今，不少企业应该开始尝试并组建自己的SEO团队，SEO行业发展势头良好，学习SEO的人也越来越多，作为前期的SEO学习者来讲，选择SEO资料或相关教材非常关键。 对于前期学习SEO，对SEO的第一印象和认识是非常关键的，这会影响到以后学习的进度和操作方式，甚至可能包括整个优化思维，目前互联网有关SEO的资料多如牛毛，每家每户对SEO都可能是不一样的诠释，加上搜索引擎算法更新比较快，对于前期的SEO学习，看的太少可能觉得了解的不够全面，看的太多又可能变得更加迷茫，所以，选择入门教材很关键。 SEO基础教材推荐 谷歌SEO优化教材 对于谷歌搜索引擎，谷歌的网站站长帮助文件和搜索引擎优化指南可以是最佳的选择，谷歌的网站管理员工具也是SEO必备工具，谷歌数据分析工具也是目前一些从事数据分析人员的良好选择。 谷歌网站站长帮助文件 如何制作方便谷歌处理的网站 关于网站地图 搜索结果相关 谷歌搜索引擎优化指南 SEO基础知识介绍 如何改善网页结构 如果优化网页内容 有效处理爬虫 移动电话优化 推广与分析 谷歌网站管理工具 查看和测试爬虫权限 内部链接构成 首选域及抓取速度设置 配置网址参数 与网站有关的搜索查询 指向你网站的链接信息 爬虫自动判断的网站关键词 内部链接及订阅用户 恶意软件检测 抓取错误及信息统计 体验谷歌爬虫抓取 HTML建议 作者信息统计 自定义搜索 快照及时预览 网站的性能统计数据以及其他相关实用工具 站长帮助文件包含很多篇文章，顺着那些链接一个一个看下去，你会了解很多目前在职SEO专业人员可能都不清楚的信息，而且那些优化建议可以直接放心使用，权威度可以不用担心，从基础的页面标题设计、网页结构及内容，到最后的使用技巧，如果再配上谷歌网站管理员工具，看看爬虫程序是如何抓取你的网站、在抓取过程中发现的错误以及修改建议，那么，一些常见的SEO问题你都可以得到解决，至少你应该知道应该做那些，怎么做才是最佳的优化方式，怎么做操作才会最终给自己带来利益以及避免一些常见的SEO作弊。 有任何疑问可以反馈到谷歌管理员论坛，有谷歌官方负责解答。 百度SEO优化教材 对于目前中文搜索引擎的老大，百度也陆续推出了一些非常实用的SEO资料，相对全面的当属百度搜索引擎优化指南（2.0），另外百度推出统计工具和其分享工具也比较实用，百度有一个非官方的站长俱乐部，里面有百度工程师解决各种SEO相关疑问。 百度搜索引擎优化指南 域名注册 空间服务商选择须知 网站建设注意事项 如何做到良好收录 站长工具介绍 如何做好关键词排序基础 如何更好在搜索结果展示 网站运营的核心价值及注意事项 如果避免作弊而误受惩罚 常见SEO问题 百度统计工具 使用百度统计工具中的SEO建议和网站速度测试可以在一定程度上提升网页质量得分，对网页性能的优化起到一定的辅助作用。 百度分享工具 提供网页地址收藏、分享及发送的WEB2.0按钮工具，借助百度分享按钮，网站的浏览者可以方便的分享内容到人人网、开心网、QQ空间、新浪微博等一系列SNS站点。根据百度官方介绍，使用百度分享工具的网页可能会影响到搜索结果，而根据目前百度的搜索结果展示，的确如此。 有任何疑问可以反馈到百度站长俱乐部，有百度相关工程师负责解答。 作为刚刚学习SEO的新手，上面的资料足以让你全面了解SEO整个过程以及一些注意事项，而且这些教材权威度是很高的，不但可以在一定程度上提升自己的学习兴趣，更重要的是在整个学习过程会少走很多弯路，最重要的一点，他们都是完全免费的。]]></description>
		<wfw:commentRss>http://scseoer.com/xinshou-seo-jiaocai.html/feed</wfw:commentRss>
		<slash:comments>22</slash:comments>
		</item>
		<item>
		<title>百度快照出现“喜欢”图标的原因分析</title>
		<link>http://scseoer.com/baidukuaizhao-xihuan.html</link>
		<comments>http://scseoer.com/baidukuaizhao-xihuan.html#comments</comments>
		<pubDate>Wed, 11 Jan 2012 12:55:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2476</guid>
		<description><![CDATA[昨天晚上在百度中搜索关键词的时候，偶然发现百度某些搜索结果后的百度快照后多了一个小拇指，鼠标放上去显示XX人喜欢，在百度搜索“SEO”的结果截图。 百度快照后的喜欢图标 百度搜索引擎在自身搜索结果中做添加或引用的数据一直都没有什么变化，除了前期对自身开放平台中的数据进行测试外，很少会引用网页内一些比较有用的标签数据，上次开放平台的那个图标是可以点击的，而目前只是显示数据。 对于这次百度搜索结果的快照后面的“喜欢”图标，网站猜测的朋友也很多，大致为浏览器或安装相关软件问题，也有朋友猜测是调用百度收藏中的数据，还有朋友想可能是对于一些高权重网站的优先展示，就如果搜索结果中展示优秀网站的ICO图标一样。 对百度快照后“喜欢”图标的猜测 对于这次搜索结果的变化，查看了一些网站的内部发现，只要显示了“喜欢”按钮的，网站中都使用了“百度分享”工具，难道百度会调用分享工具中的分享次数，用这个分享次数表示有多少人喜欢该网站？ 如果仔细观察过的朋友可能清楚，“百度分享”网页在搜索结果中同样显“喜欢”图标，而且是2万人喜欢。 百度分享显示喜欢图标 快照后面显示喜欢的次数是2万，而该工具实际分享次数是30089次（2012-01-11），所以直接显示分享次数这个猜测不太准确，如果使用过百度分享工具并且有做过数据分析的朋友可能比较清楚，百度分享工具的数据分析中有“热门分享”和“流量回流”的数据显示，百度可能是在自身搜索结果中展示“流量回流”的数量，以此表示有多少人喜欢该网站。 如果直接显示分享次数，那么这样不会得到相对准确的数据，但如果显示流量回流的数据，那么，得到的数据会更加准确些，也可以在一定程度上表示该网站的受欢迎程度。 目前搜索结果中好像只会在独立域名的快照后面显示，更加准确的应该是在具体内容或使用“百度分享”的网站快照后面出现才对。 对于搜索结果优化，即有利于提高搜索引擎自身页面的用户体验度，对于网站管理或优化人员来讲，也会让他们更专注与网页自身质量的提高。 热衷与谷歌SEO优化的童鞋可以参考搜索结果中微格式的应用 说明：上面猜测只是个人想法，而且目前也在测试（个人博客在搜索结果中目前还没有显示）。 2012-01-15更新 测试结果：百度搜索结果调用“百度分享”中的分享次数。 53人喜欢何清勇SEO博客 搜索结果中的数据显示是阶段性而不是实时的，所以有了上文中提到的“可能不会直接调用分享此时而调用流量回流数量”。 “喜欢”数据对搜索结果的影响 这次百度搜索结果的变化，应该是百度引擎对网站内容社会化因素的一些比价明显的提示，在页面质量和用户评价上给众多SEO人员提出了建议，目前对搜索结果的影响还不是很明显，前期应该还是测试阶段，但总体方面应该可以确定：网页应注重内容质量和用户评价度。 目前很多SEO人员讨论是否会影响到关键词排名，趋势是可以肯定的，反正我是信了。]]></description>
		<wfw:commentRss>http://scseoer.com/baidukuaizhao-xihuan.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>网络爬虫工作原理及分布式网络爬虫体系结构设计</title>
		<link>http://scseoer.com/wangluopachong.html</link>
		<comments>http://scseoer.com/wangluopachong.html#comments</comments>
		<pubDate>Tue, 10 Jan 2012 15:56:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网络爬虫]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2500</guid>
		<description><![CDATA[一篇关于网络爬虫程序的一些原理及体系结构纯技术文章，一些地方可能不会看的很明白，对于SEO行业，经常和搜索引擎及其爬虫程序打交道，仔细浏览下，一些不清楚而自己又很想了解的地方，可以借助搜索来需找相关解释，对工作还是有帮助的（个人认为值得注意的地方已加红显示）。文章相对较长，可以转换成PDF格式文档阅读（太懒的童鞋可以在文章结尾自行下载）。 网络爬虫工作原理 1、聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止，另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题： 对抓取目标的描述或定义； 对网页或数据的分析与过滤； 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 2、抓取目标描述 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为： 预先给定的初始抓取种子样本； 预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等； 通过用户行为确定的抓取目标样例，分为：用户浏览过程中显示标注的抓取样本；通过用户日志挖掘得到访问模式及相关样本。 其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。 基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。 另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。 3、网页搜索策略 网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。 3.1、广度优先搜索策略 广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页， 一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。 3.2 最佳优先搜索策略 最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法。 因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明，这样的闭环调整可以将无关网页数量降低30%~90%。 4、网页分析算法 网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。 4.1、基于网络拓扑的分析算法 基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。 4.1.1、网页粒度的分析算法 PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。 PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针 对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。 基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。部分文献提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链接。 4.1.2、网站粒度的分析算法 网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算，SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接作一定程度抽象，并在一定的模型下计算链接的权重。 网站划分情况分为按域名划分和按IP地址划分两种。一些文献讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站 点划分，构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，结合 SiteRank分布式计算得到DocRank。利用分布式的SiteRank计算，不仅大大降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank 造假难以对SiteRank进行欺骗。 4.1.3、网页块粒度的分析算法 在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但是，在PageRank和HITS算法中，没有对这些链接作区分，因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Block level) 进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block)，然后对这些网页块建立page to block和block to page的链接矩阵， 分别记为Z和X。于是，在 page to [...]]]></description>
		<wfw:commentRss>http://scseoer.com/wangluopachong.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>你真的了解你的网站程序么？</title>
		<link>http://scseoer.com/wangzhan-chengxu.html</link>
		<comments>http://scseoer.com/wangzhan-chengxu.html#comments</comments>
		<pubDate>Tue, 10 Jan 2012 12:17:02 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网站安全]]></category>
		<category><![CDATA[网站程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2472</guid>
		<description><![CDATA[如果你对自己网站的程序不了解，可以参考下这篇文章，程序高手千里狼与你分享程序安全问题给网站发展带来的隐患。 知己知彼方能百战百胜，在这里，知己就是了解我们自己的网站，作为一个站长来讲，连自己的网站程序都做不到足够的了解，那么怎么去知彼呢？怎么去超越竞争对手呢？所以，你真的了解自己的网站程序么？ 可能有的同学会说，当然了解了，我的网站是用的 dedecms 做的，再加上一个 ecshop 做商城，又加了一个 dx 做论坛，还有一个 wordpress 做博客，然后用 ucenter 整合用户，这几个个程序结合起来是多么完美啊，这难道还能说，我对我的网站程序不了解么？ 相信 seowhy 的同学们的网站绝大多数都是这种结构，由一种或者几种程序组合起来使用的，表面上看起来很漂亮，很好，其实，用一句话可以概括下：金玉其外败絮其中，为什么这么说？ 首先，先明确一点，我所说的只是针对想正式做站，正规发展的同学们，而不是短期做流量赚钱的网站，这种网站不在讨论范围之内，但是我相信，任何一个同学，都想拥有一个属于自己的正式的网站，每天几万几十万的访问量，这个我觉得是所有站长们心中的一个梦想，如果你也是这么想的，你也有这个理想，那么请继续往下看。 所谓的金玉其外败絮其中，我主要指的是两点： 1、对程序的熟悉程度，以及全盘统筹操纵程序 在以上的几个程序中，每一个程序的功能都相当相当的强大，拥有很多很多的功能，但是一般我们用到的只是其中的一小部分功能，比如：dedecms 中我们用到的是新闻文章的功能，ecshop 中我们用的是发布产品，在线购买的功能，dx 中我们用的是论坛的功能，wordpress 中我们用的是博客的功能，其实这几个程序，每一个都可以做成一个门户站，只是我们对程序不了解，只是知道这几个程序的特征所在，比如：知道 ecshop 是做商城的，那好，我做商城的模块，就上个ecshop。这样下来，全站用了几个程序的组合，看似很强大，其实隐患很多。 最简单的一个问题，就能问倒众位同学们：假如有一天你的网站突然出问题了，最简单的问题：你的论坛的验证码突然不显示了？你会怎么办？博客的验证码也不显示了你会怎么办？别的程序也出现了这样那样的小错误，你会怎么去解决？四处救火么？知道去哪里救火么？很显然，绝大多数人，都不知道应该怎么处理。 所以一个站用的程序太多了，因为你对每个程序都不熟悉，只用到其中一些很少的功能。一旦出问题，就傻眼了，这个时候，你不是在操纵程序，而是程序在操纵你了。 除非你或者你的技术人员对每个程序都很了解，当有问题发生的时候，能够第一时间反应过来应该去哪里解决问题，并且有快速解决问题的能力。但是我相信绝大多数同学们，都没有这样的经验独立解决问题或者没有这样的专才去帮助你去处理。 所以在做站之后，大家还是尽量的多花一些时间，去好好的研究下你的网站程序，尽量对它的全盘功能做到一个很透彻的了解，这样才能做到有备无患，不会当出了问题的时候，而手足无措。 2、多程序组合中各个程序的升级和二次开发带来的隐患 每一个站长都有自己认为完美的 idea ，也都想实现出来，给你的用户看并且使用。但是，现在的程序都是开发的一些比较通用的功能，不会去考虑到一些小众群体的需求，所以这个时候，你需要做二次开发了。 这个时候，你可以找到一个开发人员去实现你的想法了，ok，过了一段时间之后，你的功能开发好了，上线投入使用了，你很高兴。可是你忽略了一件事。二次开发都改动了哪里的程序？改动过程序本身的程序文件么？改动过数据库的结构么？二次开发的程序有没有留下一些后门程序？你的程序以后升级怎么办？还是彻底不打算再升级了？ 看看，是不是很可怕，没想到做一个二次开发，居然涉及到这么多的问题吧？ 这不是我在危言耸听，我看到过很多这样的例子了。 下面给大家说一下我看到的一些实例： 1、自动删除程序：会在程序里埋下一个隐患程序，知道这个程序的人，会通过在浏览器上发起一个url的请求，去激发一个程序，这个程序的作用就是删除你全站的文件和数据库，神挡杀神，佛挡杀佛，可怕不？ 这是我亲眼看到过的程序，并且帮几个客户去除掉。 2、自动获取用户数据程序：在程序里放一段获取网站的用户的程序，当有用户注册的时候，会自动的把用户的信息（用户名，密码，email，手机号码等信息）发到一个指定的 url 去接收，然后那个 url 程序会保存下来，至于做什么，我想你懂的。 3、自动获取订单数据：在商城程序里或者订单系统里埋下伏笔，当有客户在线下订单的时候，会把客户的数据截获一份，发到自己的邮箱，从而盗单，这个也很常见了。 4、自动获取网站的域名信息：这个程序属于没什么伤害性的了，就是搜集一下有什么网站在使用它的程序，对网站本身没有什么破坏性，但是，我想，还是事先说明一下，比较好吧？ 5、木马程序：会植入一个木马程序，所谓的木马程序，其实就是一个 php 的程序文件，这个文件，可以登陆上去，可以操纵你的文件，服务器等数据，也很危险。 6、程序开发上的 bug：我见过好多商业程序，就是卖钱的程序，便宜的有几百块的订单程序，贵的有上万块的地方门户程序，团购程序，还见过1,2000的插件程序，这些程序写的都不完善，都存在这样那样的问题，可能你今天买了之后，在这个空间上可以装上运行起来，但是换了一个空间后，就运行不起来了。质量很令人担忧。 7、二次开发的隐患：现在做二次开发的程序员，先不谈程序员本人的水平如何，我们只谈对这几个程序的代码熟悉程度。 比如： 要开发一个功能，能第一时间反应到去哪个文件去做哪个功能 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-chengxu.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>Robots.txt中的Crawl-delay参数</title>
		<link>http://scseoer.com/robots-crawl-delay.html</link>
		<comments>http://scseoer.com/robots-crawl-delay.html#comments</comments>
		<pubDate>Sun, 08 Jan 2012 08:21:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[流量限制]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2467</guid>
		<description><![CDATA[robots.txt 大致介绍： robots.txt 是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 由于每个网站的实际配置和要求不一样，很多主机对流量的限制相对比较严格，一个网站的流量限制不止是普通用户浏览产生，搜索引擎的爬虫程序也会消耗很多流量，特别是抓取比较大的文件（比如视频或者图片）的时候，会让流量飙升，加上主机对流量的限制，进而可能会影响到普通用户浏览网页，所以我们可以通过 robots.tst 文件来限制搜索引擎的爬虫程序来抓取这些文件，另外爬虫程序的高频率访问也可能会导致同样的结果，下面是搜索引擎对此建议一些网站管理员可以在 robots.txt 中使用 Crawl-delay 参数来限制爬虫程序对网页的抓取频率。 Crawl-delay 参数 搜索引擎从整个因特网上抓取数以百亿计的网页，对于网络抓取搜索引擎采取大量系统，因此，一些网站的网络服务器会从不同的抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合，来限制任何来自单一网络服务器的活动。所谓单一网络服务器，是由IP地址判断的。因此，如果您的服务器主机拥有多个IP，它的活动则会处于更高的级别。 在robots.txt 里，可以通过参数对搜索引擎的抓取程序设定一个较低的抓取请求频率。您可以加入 Crawl-delay: xx 指示，其中，“XX”是指在爬虫程序两次进入站点时，以秒为单位的最低延时。如果爬虫的抓取频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如1或10。 例如，您想设定一个2秒的延时，语句如下： User-agent: Slurp Crawl-delay: 2 搜索引擎对 Crawl-delay 的支持情况 yahoo 对 Crawl-delay 的反应：如果你有分析网站日志文件的习惯，你会发现以前的 yahoo 每天抓取网页的频率是最高的，其次是谷歌和百度，上面的 Crawl-delay 也是从 yahoo 的站长帮助文件中了解到的，所以 yahoo 对这个参数是支持的。 2011年10月28日后 yahoo 对网页抓取频率极具下降甚至很少抓取 — 本博客日志数据。 百度对 Crawl-delay 的反应：限制百度爬虫抓取时间和频率限制，可以在 robots 中的 crawl-delay 中设置，这个参数是 baidu spider 对网站访问频率的重要参考信息之一，但 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/robots-crawl-delay.html/feed</wfw:commentRss>
		<slash:comments>23</slash:comments>
		</item>
		<item>
		<title>Google SEO信息年终总结 &#8211; 潘德成博客</title>
		<link>http://scseoer.com/2011-google-seo.html</link>
		<comments>http://scseoer.com/2011-google-seo.html#comments</comments>
		<pubDate>Mon, 02 Jan 2012 14:47:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[谷歌SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2458</guid>
		<description><![CDATA[2011年马上就要结束了，这里总结一下Google关于SEO方面的资讯（潘德成博客）。谷歌每年对其搜索算法作出超过500次的修改，由于大多数修改只会影响极少部分的搜索结果，所以很少有人察觉。这里也是从一些较为靠谱的新闻资讯来揣摩Google算法的修改方向，来指导SEO工作。 1月20日 有站长在 Google webmaster help 论坛中说自己的网站被降级。Google JohnMu 回复称，网站含有大量空白 HTML 页面被 Google bot 判定为大量重复内容而导致网站降权。结论：网站含有大量重复内容会被降权，空白 HTML 页面也不行。 2月26日 google 上线代号“Panda”的新算法，向内容工厂开 炮，新算法影响12%的搜索结果。该算法主要是降低那些有着低质量内容、靠抄袭活命、提供垃圾信息的内容工场网站的排名。Google 还强调受影响的网站和来自于前一段发布的 Personal Blacklist Chrome 扩展所汇报的垃圾站的重合率达到84%，就是说广大用户们确实帮助 Google 做出了改进。 7月1日 Google 下狠招清理垃圾站。Google Matt Cutts 号称由于 co.cc 这个域名下的垃圾站太多，Google 决定直接不予索引任何改域名下的网站。Google 的 JohnMu 也说过：“如果我们发现一个免费主机上有太多的低质量的垃圾站或钓鱼站，我们有权不索引该主机下所有的网站。”结论：再一次强调了邻居的重要性。 10月20日 Matt Cutts 透露1%的搜索结果因网站速度受到影响。Google 如何判定网页速度在视频中也有提到，大概在1000个网站里会有1个网站会因为速度太慢而影响到自己最终的排名。 Matt Cutts 视频原地址 10月26日 Matt Cutts 在视频中再次重申 SEO 不算 Spam。Google 认为 SEO（搜索引擎优化）是一种合法的方式来帮助人们通过搜索引擎找到他们需要的内容，黑帽SEO [...]]]></description>
		<wfw:commentRss>http://scseoer.com/2011-google-seo.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>关于带与不带www域名快照及排名问题的纠结</title>
		<link>http://scseoer.com/about-www.html</link>
		<comments>http://scseoer.com/about-www.html#comments</comments>
		<pubDate>Mon, 02 Jan 2012 08:10:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[301重定向]]></category>
		<category><![CDATA[网站排名]]></category>
		<category><![CDATA[网页快照]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2454</guid>
		<description><![CDATA[对于带www与不带www的URL，常见为的例子：“scseoer.com”与“www.scseoer.com”。这两条不用的URL对应的页面都是本博客首页，无论那条URL拥有排名，流量都会流入博客。 如果你注意了URL标准化，那么，当用户进行首页的时候，浏览器的地址显示的地址应该是你规定的标准化地址，本博客为“www.scseoer.com”，查询“scseoer.com”的返回码应该是301，“www.scseoer.com”的返回状态码是200，当然如果你还有首页的其他URL（比如网站的默认首页），也应该进行标准化处理，将他们进行301重定向到自定的标准化URL，回到文章讨论重点：带与不带www域名快照及排名问题的纠结。 快照日期 理论上讲，不带www的是顶级域名，对于的应该是网站的首页，但从一般的用户习惯上考虑，网站首页一般都是带www的域名，所以我们常见的处理方式是将带www的二级域名进行301重定向到带www的顶级域名上面，从而达到符合常规用户的行为习惯。 从搜索引擎的角度上讲，这两条URL是完全不同的URL，由于每个网站采用的标准化URL不一样，采用最传统的方式进行索引，这样可能导致两条URL都会有不同的快照时间（百度快照）。 对于网站的SEO人员来讲，既然进行了URL标准化操作，搜索引擎就应该显示标准化后的URL（就像谷歌那样），但对于百度搜索引擎，对301操作还不感冒，很多时候多条URL都会出现的搜索结果中。虽然官方已经说明支持301，如果响应时间段似网站权重而定，但目前的一些高权重网站依然如此。我们想要看见的结果既然已经超过了我们力所能及的范围，所以至于那条URL的快照最新，就没有再纠结的必要了。 关键词排名 接上来的快照日期，很多时候关键词排名也是一样，无论是那条URL排名比较靠前，用户点击后都会进入我们的网站，确保地址栏出现我们标准化的URL，而且URL响应的状态码都正确，这样就不用再纠结那条URL才是我们真正想要的排名了。 另外需要说明的一点是，一些网站带www域名降权的事情时有发生，一些比较有经验的SEO人员将www的域名301到不带www上面，这样可能会让不带www的域名权重恢复一部分，如果你的域名不是很有利用价值，可以考虑更换新的域名。 百度对301的响应的官方建议：百度对301可以正确判断并进行权重转移，虽然响应周期较长，但对于域名更换，还是推荐进行301重定向操作。]]></description>
		<wfw:commentRss>http://scseoer.com/about-www.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>你注意过网站的联系方式了吗</title>
		<link>http://scseoer.com/lianxi-fangshi.html</link>
		<comments>http://scseoer.com/lianxi-fangshi.html#comments</comments>
		<pubDate>Wed, 21 Dec 2011 14:06:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[联系方式]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2405</guid>
		<description><![CDATA[对于你网站的任何一位浏览者，都很有可能是你的潜在客户，在这些用户浏览网页信息的时候，如果他对你的产品或服务很感兴趣，往往在做出最终决策前需要先联系进行议价，或咨询产品的详细信息、公司的具体状况，甚至会亲自到企业参观调研。因此，您在网站上提供清晰有效的联系方式非常重要。 网站提供联系入口 一般来说，以下三种较为传统的联系方式是必备的： 1、电话号码 作为网站上最基本、也是最必不可少的联系方式，也是绝大部分潜在客户首选的咨询方式。除公司座机电话外，还可以提供手机号码、400/800免费电话等。特别是通过电话进行销售的企业，更宜于提供400/800免费电话，这种免费或资费较低的联系方式能有效吸引潜在客户进行电话咨询，同时，正规的400/800电话可以提升潜在客户对您企业的信任度。 2、电子邮箱 对于大陆市场的潜在客户来将，邮箱的回复率较低、回复速度也相对海外客户慢，对邮箱的使用相对较少。但对海外市场的一些潜在客户来说，采用邮箱沟通的方式往往比较多，另外以网站域名为后缀的企业专有的邮箱更有助于体现企业的专业程度。 3、公司地址 详细、规范的公司地址可以增强网站的真实性，也有助于潜在客户判断您的企业规模和是否正规等，因此请尽量避免使用私人住宅地址作为公司地址。如果您的产品或服务需要客户上门消费，如现场培训等，客户所在地与您的距离远近、交通是否便利等，也将大大影响客户的购买决策。除用文字描述地址外，最好通过地图表示企业位置，并提供不同交通方式的出行路线。 此外，各种更具互动性的沟通工具也非常流行，如在线留言、在线订单、在线客服等，在潜在客户与网站的沟通中发挥着越来越重要的桥梁作用。目前有很多客户在使用这类专业的沟通工具，建议您根据实际需要在网站上安装或提供。 在线留言：分为开放式的和封闭式的，应用均较为广泛，且各有所长。对于开放式在线留言，潜在客户可以看到网站访客以往的留言以及您的回复情况，有利于调动他们的参与积极性，增强对您的信任感，但这要建立在您及时管理留言的基础上，而且开放式的留言形式也容易被竞争对手所利用；对于封闭式留言，潜在客户单方向向网站发送信息，可能无法及时得到反馈，参与的积极性可能有所下降，但由于私密性较强，可以防御竞争对手，也赢得了广泛的好评。 在线订单：对于电子商务网站（即可以通过在线购物和支付完成全部交易流程的网站），务必确保在线订单对于您的潜在客户来说易于使用，且订单流程畅通无阻，不然您很可能把与您一步之遥的潜在客户拒之门外。如果您提供的产品或服务不适于在线购买，也可以尝试在网站上通过会员注册、学员报名、咨询挂号、购买意向单等各种形式来挽留更多的潜在客户，一般来说，与在线留言相比，在线订单的功能更为强大，可以收集更多的关于潜在客户购买的标准化信息，如感兴趣的课程或产品型号、客户的支出预算和联系方式等。 在线客服：也称在线即时通讯工具。相对于电话、传真和电子邮件等传统方式，在线客服具有沟通便利、应用灵活、效率高、功能强大等特点，正在为越来越多的用户所认识和接受，是除电话外客户极为青睐的联系方式。选择专业在在线客户系统，充分发挥在线客服的作用，为您创造更大的效益。 如何更大发挥专业客户系统的作用 在线客服泛指基于网页的即时通讯工具。借助于在线客服，潜在客户无需安装任何软件，就可以在浏览器窗口与您的客服/业务人员进行直接交流，咨询洽谈。 此外在线客服还可能具备一些强大的附加功能，如客户名片管理，流量统计等。市面上有各种免费或收费的在线客服可以供您选择使用。 如果您的网站上已经安装了在线客服，您可以参考以下建议，以充分发挥它的作用，为您带来更多的转化： 在线客服安装在网页显著位置，易于识别，并随浏览页面的上下移动而浮动，同时避免遮挡网页正文内容。 标注客服人员的在线状况，比如在线客服人数、每位客服人员的忙闲状态等。 在聊天窗口中注明公司名称、经营范围和联系方式，并使用客服人员的职务、办公头衔或姓名来当作昵称，既可以方便潜在客户称呼，又能够提升网站的专业水平。 谨慎使用主动弹出的邀请窗口，否则可能会让潜在客户误认为是广告信息而随手关闭，甚至产生反感心理，建议您根据潜在客户的需要谨慎使用。 在线客服人员反应快速，尽量在10秒内回复潜在客户的提问，且礼貌热情，熟悉产品知识，能根据潜在客户的实际情况提出合理建议，以促成潜在客户的转化。 提供联系方式的时候应该注意 为了让潜在客户能够更加便捷地找到您，在提供联系方式时，您可以参考以下做法： 在网站的每个网页上都以加粗、标红等方式显示电话等主要联系方式，这样潜在客户无论“身在何处”，都能在第一时间与您联系。需要注意的是，如果您把联系方式放置在图片、Flash中显示，或以动态、闪烁的文字出现，那么很可能被一部分潜在客户忽视，因为用户对网络越熟悉，就越容易自动过滤一切形似广告的内容。 联系方式最好位于页面左侧、底端和顶端。一般来讲，潜在客户更习惯在页面左侧和底端位置寻找联系方式，对于长页面，您可以将联系方式放在页面顶端。此外，采用单独页面（比如导航栏中的“联系我们”）来呈现联系方式也较为符合潜在客户的使用习惯。 提供多个电话备选，并保证电话畅通，不将手机作为唯一的联系方式。提供多个座机电话、手机、400/800电话等备选的联系方式可以有效地规避单一电话占线或出现故障的尴尬，以免您错失商机，但使用手机作为唯一的联系方式可能会使您的潜在客户怀疑网站的正规性。 在网页上注明电话接听人所在的部门和称呼，及电话咨询的时间段，方便潜在客户与您进行及时、高效的沟通。 对于一般企业网站来将，网站流量可以本身就不多，为了提高流量转化率，除了注重网页用户体验的同时，还应多关注一些页面细节要素。 到这篇文章为之，企业网站优化中一些因素介绍的差不多了，希望对目前一些客户有一定的参考价值。]]></description>
		<wfw:commentRss>http://scseoer.com/lianxi-fangshi.html/feed</wfw:commentRss>
		<slash:comments>49</slash:comments>
		</item>
		<item>
		<title>企业网站价格信息展示与公司介绍页面</title>
		<link>http://scseoer.com/gongsi-jiage.html</link>
		<comments>http://scseoer.com/gongsi-jiage.html#comments</comments>
		<pubDate>Sun, 18 Dec 2011 07:57:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[着陆页面]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2402</guid>
		<description><![CDATA[对于企业网站来将，价格信息作为产品信息的重要构成元素，是不少潜在客户进入网站后首要关注的焦点。价格信息的提供减少了潜在客户在做决策时所面对的不确定性，有助于提升潜在客户与您后续咨询洽谈、进行合作的意愿。 价格信息展示 在网站上提供价格信息时，以下几点需要提醒您注意： 突出优惠或促销信息。如果您正在开展优惠或促销活动，要在页面显著位置予以宣传，并说明参与办法，从而提高优惠或促销活动的影响力。特别是如果您在关键字的标题描述标有“促销”、“优惠”之类的字样，请务必在目标网页的显著位置明示产品价格和促销活动的详情，以使潜在客户在第一时间看到。 价格信息可作为单独的导航栏目提供，方便潜在客户方便、快捷地找到，或吸引其注意，价格最好以表格形式呈现，直观清晰，一目了然。 价格信息根据实际情况持续更新。如产品价格波动较为频繁，对您来说实时更新的成本过高，或真实成交的价格还有进一步商讨、调整的空间，您可以在页面的显著位置予以说明。如涉及运费，也需要详细的说明条款，避免引起潜在客户的误解。 如果您的潜在客户是企业或组织，不便直接公示价格，或需要依潜在客户的需求情况来制定解决方案，那么您可以强调产品的性能和质量，并至少在网站上提供电话、邮箱等快捷方便的询价方式。 除产品展示外，一些企业网站的公司介绍也是备受潜在客户关注的，它可以帮助潜在客户判断企业规模和实力如何，是否正规合法，产品/服务是否有信誉保障。特别是对于B2B交易来说，出于风险和长期合作可能性方面的考虑，公司资质可以超越产品信息，成为潜在客户做出购买决策时最为看重的因素。 公司介绍页面 如您的公司介绍遵循以下原则，会更容易得到潜在客户的依赖： 位置显而易见，最好出现在您的网站首页上，或可以通过导航栏中的“关于我们”或“公司介绍”栏目的链接到达； 叙述简明扼要，让潜在客户在最短时间内了解您的网站和企业是做什么的，同时介绍语言要保持简洁中肯，过于浮夸的成分很容易被经验丰富的潜在客户识别，其效果可能适得其反； 提供资历证明，如具有法律效力的经营许可证、所获专利荣誉，翔实丰富的成功案例、合作伙伴列表等，便于潜在客户了解您企业的正规合法性和信誉保障，加深他们对您的信任感。在提供各类电子版的资历证明时，您还需要保证图片质量，否则模糊不清的图片也可能会让潜在客户形成负面印象； 内容全面、及时更新。您可以介绍的内容包括但不限于：所处地域、经营范围、发展历程、生产能力、团队规模、组织架构等，必要时您还可以提供厂房、办公间或领导人的清晰照片，都有助于增强您的企业在潜在客户心目的真实感。 请保证以上信息符合最新的情况，及时更新有关您企业的新闻动态并注明更新时间，否则会给潜在客户认为您的网站疏于维护，不重视网络营销或缺乏专业性。]]></description>
		<wfw:commentRss>http://scseoer.com/gongsi-jiage.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>产品介绍页面应如何展示</title>
		<link>http://scseoer.com/product-page.html</link>
		<comments>http://scseoer.com/product-page.html#comments</comments>
		<pubDate>Wed, 14 Dec 2011 13:33:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[产品介绍]]></category>
		<category><![CDATA[购买欲望]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2393</guid>
		<description><![CDATA[对于企业网站，对产品/服务信息的详细说明是潜在客户最为关注的信息，也最能体现企业的专业程度和可信度，将对潜在客户最终的购买决策发挥至关重要的作用。 根据研究，产品展示如达到以下标准，将更能吸引潜在客户的注意力，激发其咨询、购买的欲望： 产品介绍充足、详尽 对潜在客户来说，产品介绍提供得越详细越好，越能帮助他们了解产品。潜在客户希望了解的信息可能包括：产品规格、价格优惠、包装大小、功能用途、指标参数、售前售后服务条款（资料/试用品的提供、专业技术咨询、货运条件、维修费用、维修成本）等。 这些信息建议您尽量以条理清晰的文字或表格来描述，而非以扫描或复制的图片格式的产品说明书来代替，因为后者一般都模糊不清，难以辨认，且可能与网站整体风格不符。对于非常复杂的产品，还可以考虑提供产品说明的文档下载。在提供电子资料下载时，要留意文件格式是否常见，避免潜在客户下载文件后无法正常打开。如有必要，可提供相应的文件打开工具的下载，方便潜在客户安装浏览。 相对于B2C，由于B2B产品/服务更为复杂，且往往涉及到较为高深的专业性知识，因而详尽的产品介绍更是必不可少的。在同等条件下，信息提供更为完备的供应商更容易抢得先机，成为潜在客户优先考虑的联系对象。 产品图片清晰、具体 清晰、具体的产品图片将带给潜在客户有力的视觉冲击，有助于进一步刺激潜在客户对产品的购买欲望。特别是如能提供从多个不同角度/场景中拍摄的产品图片，将大大增加潜在客户对您的信任度。除产品本身的图片外，工作原理、生产加工流程等信息也都可以用简明的图示来表示，便于客户理解。 信息及时更新 及时更新产品信息、价格和促销活动能够帮助客户获得最有效的信息，如某产品在现阶段已不再提供，或尚未提供，请务必把它的介绍页面从网站上移除，以免浪费潜在客户的时间和精力。 为每个产品设置单独介绍页面 不管您的产品较为简单还是比较复杂，潜在客户都希望您能对每个产品使用单独的页面进行详细描述，并通过产品列表页与各产品的详细介绍页面链接。产品列表页或产品目录的提供也有助于潜在客户查找其所感兴趣的产品。 产品命名规范、易懂 特别是对于机械、化工、电子等产品，标准件要按通用标准规范命名，非标准件的命名则需要反映产品功能和特性，便于潜在客户查找和辨识。 罗列产品常见问题，给出权威答案 以展示企业专业性和实力水平，节约答疑的人力成本，并加深潜在客户对您的信任感。]]></description>
		<wfw:commentRss>http://scseoer.com/product-page.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>网站被降权了怎么办</title>
		<link>http://scseoer.com/wangzhan-jiangquan.html</link>
		<comments>http://scseoer.com/wangzhan-jiangquan.html#comments</comments>
		<pubDate>Tue, 13 Dec 2011 10:12:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[百度降权]]></category>
		<category><![CDATA[网站降权]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2384</guid>
		<description><![CDATA[做SEO不容易，经常面对各种不可预估的问题，网站被K与降权是特别让人头疼的问题，目前很多SEO论坛上关于网站被降权的求助帖非常多，这些咨询人员心态往往都很急，因为这问题的确很严重，所以帖子中经常会插入“在线等答案”、“坐等解决”、“急、急、急”等等词语，如果对网站的一些SEO操作和网站日志有分析过，那么找到问题根源的速度可能会快点，试问一些根本没有接触过你网站的SEO人员，如何快速给出你需要的答案，而且要达到解决问题的最终目的。 对于网站降权问题，个人博客遇见过三次这样的情况： 谷歌K掉博客首页 百度K掉博客首页 最近一次的整站降权 最近一次是由于博客下存在论坛而没有进行专项备案，由于年底清网，所以主机商为主机开了CDN，博客IP发生改变且速度受到严重影响，知道了网站为什么降权的原因然后针对性处理，现在权重在慢慢恢复。 网站的每个网页可能随时都在发生变化，遇见问题需要保持冷静的心态，透明现象看本质，针对性解决降权问题。 网站被降权的表现 网站被降权的直接表现就是关键词排名下降，分为目标关键词和长尾关键词排名，如果你喜欢经常关注网站的流量统计数据，一般给网站带来的长尾大致都可以预估，而且统计数据中流量来源考前的长尾一般很少发生减少的情况，随意各种不同长尾关键词相关文章页面的更新，会有更对新的长尾关键词加入。 如果你发现个别关键词消失，可以检查特定页面的变化情况（特别是采用伪静态技术处理的网页）。 检查页面是否有新的链接加入； 该链接页面收录情况如何； 是否包含敏感词汇等。 如果大部分都消失或者带来的流量极具下降，你可能遇见网站整站降权了（有时候首页权重很高，可能关键词排名不会发生变化），这时候很可能是主机受到影响，因为引起整个网站变化多发生在主机上面，分析网站日志。 主机IP是否发生变化； 响应速度是否正常； 网站配置文件是否发生改变； 近期是否蜘蛛爬行受到了影响； 爬虫程序在抓取网页时的返回码情况如何等等。 另外一点是首页目标关键词排名下降，这是很多网站降权的表现，因为这些网站的SEO人员几乎只关注网站首页，这个上面特定的内页降权解决是一样的，但首页还有特殊情况： 随着首页更新的不断增加，而且关键词密度越来越高； 对首页建立大量外部链接，站内优化中也采用很对关键词指向首页，造成首页优化过度； 首页友情链接中网站出现问题，造成连带惩罚； 如何你对某一个网站做的链接太多，而这些链接质量又不高，那么可以用一些手动的高质量链接来均衡，内容也是同样的道理，如果网站经常不被搜索爬虫关注，那么可能去一些网站权重正常的网站进行投稿，为网站带来一些自然的优质链接资源。 关键词排名下降是很多网站被降权的常见表现，这种问题解决起来也非常棘手，可能就连网站SEO优化人员都不清楚问题到底出在什么地方，因为网站的每个网页可能是随时在发生变化的，加上每个进行SEO相关操作，这些紧密的工作导致无法预估网站中网页的大致变化趋势。 平时工作比较忙，可能根本没有时间去分析网站日志中的爬虫数据的变化。网站流量统计也只是只看总流量趋势。 参考更多降权表现 网站被降权了该怎么办 对于平时SEO工作中网站被降权的问题，下面有几个大致的解决思路提供参考： 确保网站内容对爬虫来说是优质的 在还没有达到网站关键词排名良好的情况下，你单靠每天重复的SEO操作是很难让潜在用户找到你的网站，这时候你的网站内容首页需要满足爬虫的口味，过了才应该是用户，当然如果你一直就关注网站高质量内容的建立的话那就更好。如果你使用一些非常规的内容建立方式，需要注意内容的伪原创处理。 其实内容要达到用户和蜘蛛程序两者兼备还是需要难度的，这两点需要自己去权衡，相对与爬虫来讲，普通用户是非常智能的，要让用户为你的网页进行投票，那么就必须把用户放在第一位。 如果有优质的内容，可以投稿到一些权威的行业相关网站，这样也会给网页带来一些高质量的链接投票。 有了优质内容，网站中没有蜘蛛陷阱，建立良好的蜘蛛通道，这样网站收录问题自然也就得到了解决。 确保网站链接到正常的网页 无论是首页还是内页，都会向外部网页或网站的其他网页建立链接，首页被K的时候我们会去检测友情链接，网站内部的网页并不是所有都是优秀的，那么，内页出现问题的时候为什么就不能去检测下内页所链接的网页情况呢，比如有时候内页中很早就出现了死链接，而自己确一直都没有进行检测过。 确保网站主机正常运行 网站主机的正常运行是重中之重，就算就没有做网站SEO优化，那么，你建立网站的目的至少需要有用户来浏览，这些用户肯定不希望你网站三天两头出现问题。如果加上SEO这个因素，当主机出现问题，你的忠实用户可能会慢慢等待网站正常，但爬虫程序确没有这么好的耐心。 主机IP的更换对网站其实带来的影响主要因素不是取决于IP的更换，更重要的是更换后的主机质量怎么样，如果从低质量的主机换到快速稳定的主机上面，肯定是对网站发展有很大帮助的。]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-jiangquan.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>关键词与目标网页正确对应</title>
		<link>http://scseoer.com/guanjianci-mubiaowangye.html</link>
		<comments>http://scseoer.com/guanjianci-mubiaowangye.html#comments</comments>
		<pubDate>Mon, 12 Dec 2011 15:32:26 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[目标网页]]></category>
		<category><![CDATA[网页质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2370</guid>
		<description><![CDATA[无论是SEO中的关键词优化，还是一些付费推广，也包括一些PPC广告投放，目标网页（着陆页面）是潜在客户点击搜索结果（推广链接）后进入的第一个页面，也是潜在客户对您网站形成第一印象的页面，其重要性不言而喻。目标网页是否提供了与潜在客户的搜索词直接相关的内容、其呈现方式如何，潜在客户都将在几秒钟内做出判断，从而决定去留。 要通过目标网页有效地吸引并留住潜在客户，需要注意以下几点： 1、在目标网页的显著位置直接包含关键字 您的潜在客户需要了解与搜索关键字相关的信息，希望您的网站直观地告诉他：您是否提供这一产品，具体产品情况如何。如果潜在客户第一眼就在网页的醒目位置看到了搜索关键字，他们将迅速地得出结论，已经找到了相关的网页，可以继续浏览您的网站。因而请务必在目标网页的首屏中包含（即无须翻屏就可以看到）触发点击的关键字，且以文本形式出现，以灵敏捕捉潜在客户的视线。特别是如果您在关键字的标题描述标有“促销”、“优惠”之类的字样，请务必在显著位置明示产品价格和促销活动的详情，否则可能会使潜在客户产生被欺骗感而转身离开。 2、指向关键字单独相关介绍的页面 产品信息是潜在客户最关心的，如果没能在目标网页中看到，他们就会马上点击产品介绍页面，这种情况下您的目标网页反而给潜在客户的信息浏览增加了障碍。无论是与网站首页、公司介绍页面还是与产品目录页面相比，他们都更希望直接进入产品展示页面，特别是没有实质内容的Flash页面，是最不受欢迎的。潜在客户不喜欢被迫接受无关信息，不希望无谓地浪费时间，他们如果认为有必要，就会主动点击产品页面之外的其它页面做进一步的了解。 特别是一些传统企业在进行PPC图片广告位投放的时候，很多都采用直接链接到主页，如果主页有一样的图片链接信息，这样会让用户多点击一次，如果不包含或在显著位置没有包含关键词或图片信息，这样会流失很多潜在用户，不但浪费了你的投入成本，而且还会影响到你对推广效果的判断。 在做到上述两点的情况下，保证网页载入速度更有助于网页转换率的提升，另外，在一些搜索引擎的付费推广中，好的目标网页不仅可以吸引并留住潜在客户，还有助于提升关键字的质量度，从而进一步影响您的出价和排名情况。]]></description>
		<wfw:commentRss>http://scseoer.com/guanjianci-mubiaowangye.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>你注意网站的使用体验了吗</title>
		<link>http://scseoer.com/wangzhan-shiyongtiyan.html</link>
		<comments>http://scseoer.com/wangzhan-shiyongtiyan.html#comments</comments>
		<pubDate>Sat, 10 Dec 2011 05:01:51 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页布局]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2366</guid>
		<description><![CDATA[如果把网站想像成一家实际的商场，那么网站SEO优化或付费推广做的就是把顾客带入商场，顾客对商场形成的第一印象，如店面是否整洁、风格是否适宜，以及四处打量后的感受，如物品陈列是否有序，查找是否方便等，都属于使用体验的范畴，决定着顾客是否愿意驻足欣赏商场内的商品，并向店员咨询感兴趣的商品。 什么是网站的使用体验 潜在客户的浏览体验 潜在客户的浏览体验，可称之为“好看的”要素，就影响使用体验的网页要素而言，版面结构、色彩搭配、文字排版、图片等都会影响到潜在客户对网站的印象。 潜在客户的交互体验 潜在客户的交互体验，可称之为“好用的”要素，导航设计、站内搜索等都会影响到潜在客户查找信息的过程是否顺利、愉悦。 潜在客户的浏览体验 浏览体验更注重网站的外观，而交互体验更注重网站的功能、流程等，这两方面要素相互作用，最终对潜在客户继续浏览的意愿共同产生影响。 在潜在客户看来，界面是否美观、使用是否方便等影响使用体验的因素还体现了您的企业形象和企业实力，以及您对潜在客户的重视程度。有关研究表明，潜在客户对网站的评价在很大程度上会受到视觉影响：如果您的网站看起来比较专业，潜在客户对您的信任度就会增加。同时，如果您的网站使用起来得心应手，潜在客户就会愿意停留更长时间，认真关注您网站上提供的产品/服务信息，也就意味着更有可能与您达成交易。 如欲了解潜在客户在您的网站上的使用体验如何，潜在客户是否喜欢、信任你的网站，您可以通过简易可行的用户测试（无需专业人员和设备，短短几十分钟即可），并在必要的情况下咨询专业的网站设计人员。 如何让网站变得更好看 优秀的界面设计可以让潜在客户心情愉悦，有利于彰显企业形象和企业实力，以及企业对潜在客户的重视程度，进而增强潜在客户对网站的信任度和浏览意愿。反之，如第一印象不佳，可能会使您的潜在客户兴趣索然，很快离开页面。如果您发现网站流量较为可观，但访客停留时间都较短，有可能是在这个环节出现了问题。 影响潜在客户第一印象和浏览体验的网站要素包括版面结构、文字排版、多媒体元素、色彩搭配等，您可以从以下几个方面对自己的网站做出评估： 版面结构 1、正如一页报纸的内容要分成不同的版块，您也要对网页内容如文本、图片等进行分块，并合理安排页面布局。如布局过于紧凑，容易给用户造成紧张、不舒适的感觉；如布局过于疏散，会使用户注意力分散，都会影响潜在客户的浏览体验。同一网站内各页面的布局最好较为接近，便于潜在客户在最短时间内到达重要信息所在的区域。特别是，我们建议您充分利用页面中部靠上的位置，因为这是聚焦用户注意力的黄金地带，最好放置对用户来说最为重要的内容，而非登陆框或企业宣传的图片等。 2、页面长度不宜过长。一般来讲，翻屏1次以内（页面长度即不超出屏幕高度两倍）的网页是最容易阅读的，如过长会让潜在客户认为信息过于庞杂，充斥着无用信息，较易感觉疲劳而失去耐心。您可以在较长的页面内提供索引或在页面底部放置“返回顶部”的链接，方便潜在客户浏览。 文字排版 1、选择合适的字体大小。目前主流的电脑显示器分辨率为1024*768像素，网页字体可以设定在12px-16px之间，具体要依您的网页情况而定，以潜在客户浏览舒适为标准。 2、字体颜色保持一致，重要内容可通过加粗而非改变字体和颜色的方式予以标记，一般情况下尽量不使用过于花哨的颜色、非常规字体和闪烁文字，以免破坏界面整体美感，影响用户的正常阅读。 3、通读网站内容，检查并修正文字上的纰漏和错误，特别是网页显著位置上的简单的中英文拼写错误，很容易致使潜在客户对您的专业程度的质疑，如将Flash页面的跳过按钮上的文字拼写为“SLIP”或“SKIP INTRO”等（应为“SKIP”，且应该使用中文的“进入网站”）。 4、采用规范的子标题、列表或小段落等来对内容进行排版，条理清晰，简明扼要，否则夹杂在一堆闲杂信息中的重要信息很容易被潜在客户错过。 多媒体元素 1、一般而言，图片等多媒体比文字形式更能在第一时间吸引潜在客户。特别是对于旅游景点、鲜花礼品、装饰装修等展示类的产品和服务，图片形式具有文字所不能替代的表现力和感染力，可以加强潜在客户的认知和记忆，激发其购买欲望。此外，质量优良的图片还有助于增强潜在客户的真实感和对您的信任度。 2、图片等多媒体绝非多多益善，特别是以下两类请慎用： a、Flah、浮窗、动态图片等元素可能会干扰用户视线，引起反感情绪，或者被用户当作广告而直接“过滤”掉，太多、太大的多媒体元素还会延长网页的加载时间。 b、低质量图片，包括图像模糊不清，出现严重变形，图片与您的产品/服务以及网页内容完全不相关，或并非您网站的原创图片等各种情况，可能会让潜在客户认为您的网站不够专业，或对您企业的实力水平有所怀疑，产生适得其反的效果。 色彩搭配 1、网站色彩既要符合推广的产品或服务的特点，又要符合潜在客户的使用习惯和心理预期。如，婚庆公司选用红色玫瑰等设计元素体现喜庆的特色，电子产品公司选用高科技元素体现尖端技术的特色。 2、色彩搭配协调，且网站整体色彩风格保持一致，体现在各个页面以及图片、文字和背景之间，否则会给潜在客户造成突兀感。有很多网站提供免费的在线配色方案，可以供您参照使用。 3、尽量不使用过于复杂的背景图片，以免破坏界面美观，同时影响打开速度。 最后，您可能还需要考虑网页兼容性问题，同一网页在不同浏览器上的显示效果也有所不同，在一种浏览器上看起来不错的界面，在另一种浏览器上看来可能非常糟糕。建议您尽量采用通用的字体和设计，确保不同浏览器下的显示效果都较为美观。 如何让网站变得更好用 潜在客户访问您的网站是为了获取与您的企业、产品、服务有关的信息，并在咨询的基础上与您达成交易，以满足他们在工作和生活中的各种需求。获取这些信息的过程是否方便、顺利，也就是网站是否好用，在一定程度上决定了潜在客户将如何评价您的网站。对于好用的网站来说，以下两方面因素非常重要： 导航设计 顾客在商场购买商品时，借助于商场的指示牌可以更容易找到所需的商品。正如指示牌所起的作用，清晰的导航栏会帮助您的潜在客户更容易找到所需信息。 导航栏也就是网站上的一排链接按钮，一般位于网页顶端或左侧区域，起着概要介绍和链接网站各个页面的作用。导航栏的一般表现形式为：首页&#62;一级栏目&#62;二级栏目&#62;三级栏目&#62;内容页面。另一种常见的做法是，在各栏目的主菜单下设置一个辅助菜单（面包屑结构），来说明当前网页在整个网站中的位置。 参考以下原则，您的导航栏可以更好地发挥“导航”作用： 1、导航栏位置醒目，易于发现和点击。 2、在每个网页的固定位置上放置同样的导航栏，以方便潜在客户随时定位自身位置，自如地在网站上浏览。按照多数用户的习惯，导航栏一般放置在网页的顶端或左侧。如使用随页面浮动的导航栏，也请保持在不同页面的同一方位。 3、各栏目标题命名简短、明确。导航栏的文字标题要一目了然，能够让人在最短时间内领会到各栏目的主要内容。最保险的做法是采用诸如“首页”、“联系我们”“产品介绍”等约定俗成的名称作为栏目标题。 4、各栏目分类清晰，避免重复交叉，网站中的同类内容最好划分到同一栏目中，以免给潜在客户造成困惑；重要的基本信息最好单独列出，如“公司介绍”栏目，以减少潜在客户获取所需信息的点击次数。 5、避免错误或者空白链接。潜在客户点击链接后如进入错误页面或空白页面，将极大地破坏他们对导航栏，甚至整个网站的信任。 6、每个网页都有明显的指向首页的链接，常见的做法是将网站名称或网站标志（LOGO）放在导航栏左端或页面左上角，作为返回首页的链接，以便潜在客户在“迷路”的时候可以随时回到网站首页。 站内搜索 您的潜在客户往往习惯于通过搜索来查找信息，站内搜索将成为他们的有力助手。如果您的网站网页数量众多，内容丰富，潜在客户不能通过导航栏在短时间内获取所需信息，那提供站内搜索将是十分必要的。 站内搜索及其搜索结果的形式多样，原则上应符合以下两条： 1、位于导航栏附近的显著位置，并在不同页面的固定位置出现。 2、覆盖企业网站内的全部内容。 如果您的产品种类较多，站内搜索最好能提供产品间的比较功能，且搜索结果能够按照关键指标（如产品价格、关注度等）进行排序。特别提请您注意的是，一旦提供，请务必保证站内搜索能正常工作，否则将会对使用体验造成较大的伤害。 此外，可以点击的链接是否以可识别的方式作出明显标记，点击链接时是新打开窗口还是在原来的窗口中展示，进入网站或打开链接时是否有令人反感的弹出窗口，也都会对潜在客户的使用体验产生不同程度的影响。好用的网站一定会在每个细节上都充分考虑潜在客户的使用习惯和感受，其中的一些细节，您通过对自己网站进行简单的试用就可以发现。]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-shiyongtiyan.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>保证网站打开速度</title>
		<link>http://scseoer.com/wangzhan-dakai-sudu.html</link>
		<comments>http://scseoer.com/wangzhan-dakai-sudu.html#comments</comments>
		<pubDate>Wed, 07 Dec 2011 14:32:39 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[浏览器]]></category>
		<category><![CDATA[网站速度]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2361</guid>
		<description><![CDATA[一个网站打开速度直接影响用户浏览，特别是对于营销性网站来讲，网站打开速度慢将直接影响你的销售效果，一个高质量内容的网站，保证网站打开速度有助于用户快速浏览相关信息，存进网站流量转化率的提升。 网站打开速度概述 用户浏览器与网站服务器之间交互过程 以上图示简单地显示了用户浏览器与您的网站服务器之间发生交互的过程，从用户点击搜索结果到看到目标网页内容，其发生了为数不等的以上过程（数量取决于您网站的设计），我们所指的网页打开速度也就是这些过程所耗费的时间之和。 根据研究，网页打开速度最好保持在5秒内，不超过10秒。互联网上有很多现成的、免费的测速工具或测速网站，在使用之前，您需要了解该工具所测量的速度的具体含义，它可能是以下三种之一或几种的组合： 网络本身的速度，一般用PING值衡量，即用户发出一个简单的请求至服务器，由服务器返回的过程用时，其中服务器处理请求和返回结果的时间极短，可忽略不计。 页面响应时间，从用户浏览器发出请求到您的网站服务器第一次返回响应结果的过程用时。 页面加载时间，即您的网页元素（可能包括HTML、CSS、图片、FLASH、JavaScript等）从服务器完全加载到用户浏览器所用的时间，受您的网页大小、代码设计和用户浏览器等各方面因素影响。 页面响应时间与页面加载时间之和即潜在客户访问您的网站时所感受到的打开速度。目前在火狐（Firefox浏览器中应用较为广泛的测速工具有YSLOW（测量打开速度，即页面响应时间和页面加载时间之和）和Lori（Life-of-request info，分别测量页面响应时间和打开速度），目前二者均未提供中文版使用。 需要注意的是，对于同一个网站，处在不同地域、不同网络的人的打开速度是不同的，是否处于网络使用的高峰时段也会对 结果产生很大影响，如有可能，可以邀请当地人员在不同时段协助进行多次测试，从而更科学地衡量您的网站打开速度。如测试结果不在理想范围内，您可能需要采取相应措施来提高网站打开速度，提升您的推广效果。 网站打开速度的重要性 随着国内网络环境的发展和成熟，网络用户对网站打开速度的容忍度在不断降低，愿意等待网页打开的时间一般只有短短几秒钟。如果等待时间超过10秒，用户就会变得不耐烦，开始查看其它搜索结果，如果超过30秒，绝大部分用户都会失去耐心，直接关闭网页。再进一步考虑竞争因素，客户一般面临着宽裕的选择余地，可以在多个商家之间做出选择，如果您网站的每个页面的打开速度都相对较慢，可能会把潜在客户推向您的竞争对手，致使您错失商机。 根据对大量客户网站测试的结果，有4成网站可以在5秒内打开，7成网站可以在10秒内打开，您可以参照这个范围来设定您自己的标准。关于如何测量网站的打开速度以及提高网站打开速度的方法，您可以咨询专业技术人员，或参考相关问题的链接。 除了打开速度，以下方面也非常重要，决定了您的潜在客户能否顺利打开您的网站： Flash页面。Flash页面泛指由Flash或JavaScript构成的、未显示网页内容的页面。如果您的关键字指向的是Flash页面，很可能会把潜在客户拒之门外：潜在客户可能不希望安装显示或运行Flash所需的插件，或者找不到进入/返回网站其它页面的链接，而放弃浏览您的网站。 浏览器兼容性。以IE为内核的浏览器在国内市场上占据主导地位，但也有部分用户更偏好使用火狐（Firefox）等非IE内核的浏览器，您的网页如果无法在这类浏览器中正常打开，或者虽然能打开但出现严重变形、不便阅读，也可能使潜在客户关掉您的网页，同时可能影响他们对您企业实力和专业程度的判断。 病毒或木马。潜在客户在打开你的网站的时候看见包含病毒或木马的警告页面（您可能也有过类似的经历），一旦发生这种情况，潜在客户别无选择，只能离开正在浏览的网页，并对您企业的印象大打折扣。 以上几方面的问题都可能导致潜在客户在您网站上的停留时间较短，建议您持续关注网站的打开情况，充分评估打开速度、Flash页面和浏览器兼容性问题的影响面及影响。 如何提高网站打开速度 理想的网站打开速度（不超过10秒，建议在5秒内）是您的潜在客户阅读网站信息，进行业务咨询的前提条件，提高网页打开速度的方法很多，您可以从考虑以下几方面的可行性开始： 避免重定向。您可以将重定向简单地理解为网页的自动跳转。服务器自动重新定向到新的URL的这一过程会浪费一定的时间，延缓网页打开速度。 删减Flash页面。Flash页面泛指由Flash或JavaScript构成的、未显示网页内容的页面，无论是从网页打开速度还是用户体验角度看，Flash页面都是不受用户欢迎的。如果确定要使用Flash页面，建议您在该页面的显著位置放置明显的跳过按钮，为时间紧张的潜在客户提供进入网站的快速通道。 精简网页元素，为网页“减肥”。您可以使用网页另存、浏览器的插件工具来查看网页大小。一般来说，网页本身所占的空间越小，打开速度就会越快。避免使用尺寸较大的Flash、图片（及图片友情链接）、视频音频等，或尽量以文字来代替以上元素都有助于减少网页大小。 优化网页设计。将网页内容进行合理分块并使用多个表格，尽量使用静态的HTML页面（而非ASP、PHP、JSP等动态页面），不使用过于复杂的网页背景和导航栏设计，如无特殊需要不使用过于复杂的CSS或JavaScript特效，将适当提升网页的打开速度。 合理放置统计代码。如果您的网站启用了计数器以统计网站的访问流量，建议您将统计代码直接放置在页面代码的最下方，这样，如计数器出现故障不能正常访问，不会因而拖延整个网站的打开速度。 提供进度显示。如果网页打开速度确实较慢，或者下载文件必须耗用较长时间，最好为潜在客户提供进度显示，以帮助潜在客户了解进度状态，引导他们建立时间预期，不会误认为打不开或时间过长而关闭网页。 以上仅列出了解决打开速度过慢的一些常用手段，你可以考虑使用免费的Page Speed工具对网页性能进行检测，以便你解决一些更深层次的网页细节问题。当然，还有一个可能的重要原因是，您的网站是由速度缓慢的服务器托管的，也即服务器处理用户发出的请求的时间过长，在这种情况下，请考虑升级、更换服务器，或联系您的网站托管服务提供商。]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-dakai-sudu.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>网站优化是一定要做的吗</title>
		<link>http://scseoer.com/zuo-wangzhan-youhua.html</link>
		<comments>http://scseoer.com/zuo-wangzhan-youhua.html#comments</comments>
		<pubDate>Tue, 06 Dec 2011 05:19:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[转换率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2359</guid>
		<description><![CDATA[我的网站看上去已经够好了，还需要做优化吗？作为初次尝试网站推广的新客户，您可能会认为：我缺乏对网站建设方面的基本常识，网站优化对我来说可能太专业了，我该从何下手？ 对于这些问题，一个最简单的方法就是邀请您身边的朋友（对电脑和网络有基本了解的人选即可）对您的网站进行实地测试，您可以在一旁观察这位“用户”的使用过程，认真聆听他对于您网站的意见。这一过程可以从搜索您的关键词开始，到“用户”初步做出购买决策，即决定选择哪一个商家为止，以涵盖影响您的推广转化效果的各个环节，并尽量真实地模拟潜在客户的视角。 当然，如果您可以从真正的客户那里得到对网站的反馈，就更理想了。此外，如果您所在的行业面临着激烈的竞争，也就意味着潜在客户将面临更多的选择，建议您同时进行对竞争对手的网站测试，借鉴其中的有益成分。 无需专业设备和人员，短短几十分钟时间，也许您就会发现您的网站还有哪些可以改进的余地，或做出是否有必要对网站进行优化的判断。 最后需要提醒您注意以下几点： 网站优化是一个持续的过程，逆水行舟不进则退，在搜索引擎营销领域，要应对激烈的行业竞争，改进网站质量是不可忽视的一环。 实施网站优化需要付出时间、人力和财力等方面的成本，您可能需要全面衡量利弊得失，再做出是否优化的决定。 如需优化，请务必确保在原网站可以正常访问的前提下进行，避免因网站改版而影响到目前的网站正常运行。 一些已经在做付费推广的用户，网站优化会让流量转化更加明显，对于一些进行SEO优化的网站，如果目前的流量尚佳而转化率很低，同样可以尝试对网站进行优化，使其更符合用户体验。]]></description>
		<wfw:commentRss>http://scseoer.com/zuo-wangzhan-youhua.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>好网站需要满足这4点</title>
		<link>http://scseoer.com/haowangzhan.html</link>
		<comments>http://scseoer.com/haowangzhan.html#comments</comments>
		<pubDate>Sun, 04 Dec 2011 16:52:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[网页质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2352</guid>
		<description><![CDATA[用户行为路径图解 上面这张图片显示了一个企业网站的潜在客户从访问搜索引擎、通过关键词搜索、浏览您的网站到与您达成交易的一系列行为路径，这一过程中涉及到几个重要环节，比如，用户搜索的关键字能否准确定位您的潜在客户，搜索结果中的描述内容能否潜在客户进行点击（关键词的选择与搜索结果优化），您可以邀请专业的SEO人员或一些顾问团队可以协助您进行优化，但以下4点需要通过您的网站上实现，这4点也将对您的网站推广效果产生很大的影响，包括： 1、潜在客户能否顺利打开目标网页？ 网页能完整呈现在潜在客户的面前，您才有可能充分展现企业实力，将搜索引擎带来的流量转化为业务咨询和订单。如果您发现关键词排名很好或者付费推广中的数据点击量较为可观，但与您统计的网站流量不完全一致，其中一个可能的原因就在于网页打开速度过于缓慢。 2、网站能否吸引潜在客户进一步停留？ 界面美观、使用方便都意味着良好的用户使用体验，将有助于您树立专业的企业形象，增强潜在客户对您的信任度，吸引他们在网站上停留更长时间，认真关注您网站上提供的产品/服务信息。如果您发现网站流量较为可观，但访客停留时间都较短，有可能是在网站用户体验这个环节出现了问题。 3、网站是否提供了潜在客户所关心的信息？ 产品/服务信息、企业介绍等都是您的潜在客户最为关注的内容，也是您区别于竞争对手的核心优势，值得您精心打造。如果您发现访客停留时间较为理想，但业务咨询量较少，那么可能是网页内容环节引起的，你可以对网页中关键词所对应的页面进行针对性优化（着陆页面优化）。 4、网站提供的联系方式能否让潜在客户在第一时间联系到您？ 随着各种沟通工具的日渐盛行，在网站上仅依靠留下电话号码恐怕无法满足潜在客户的需求。更多、更好的联系入口能帮您留住更多有意向的潜在客户，同时也有助于您更明显地体会到搜索引擎营销的效果。 以上4个环节构成了潜在客户在您网站上的完整路径，好的企业网站往往在每个环节都达到了较高的水准。当然，您的网站好不好，主要还是取决于您的潜在客户如何评判。建议您根据自身所在行业和潜在客户的特点（如所处地域、用户受教程度育、网络熟悉程度）等，特别是参照竞争对手的情况，从简单可行的方面入手来提高您的网站质量，进而逐步完善网站质量，提升优化效果。]]></description>
		<wfw:commentRss>http://scseoer.com/haowangzhan.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>认真看完这篇文章</title>
		<link>http://scseoer.com/renzhen.html</link>
		<comments>http://scseoer.com/renzhen.html#comments</comments>
		<pubDate>Fri, 02 Dec 2011 08:23:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2347</guid>
		<description><![CDATA[写这个SEO博客快两年时间了，100%的原创文章还是很少，但博客中90%的文章还是值得一看的，几乎每篇文章都会在绝对不改变原文大意的基础上经过了伪原创处理。 SEO这个行业的节奏可能相对较快，一段时间不接触，不去了解，可能觉得有点跟不上脚步，前几天写了一篇“SEO行业做付费推广”的文章，这篇主要是由于我在百度搜索“SEO优化”这个词发现搜索结果中有不少做付费推广的结果，文章开始是用实际事例来说明SEO行业与付费推广的关系，后面给出了自己的看法。 SEO与付费推广不冲突，传统企业可以尝试两者并用，但SEO行业自身不应该选择付费推广，或者说在推广后台不应该设置SEO相关词语，这样被同行发现势必让同行对这些机构的信任度产生怀疑，这里面不乏有一些所谓的SEO培训结构。 我博客的浏览用户70%以上都是SEO同行，男性居多，但在那篇文章中给的评论让我无法理解： 评论截图 我希望感谢他们在阅读之余可以花时间说出自己的一些想法，也知道这些都是一些真实的评论，但根据评论反映出的问题让我很担心，因为他们没有理解到我写文章的真实目的，那是一篇非常普通的文章，不是涉及到什么技术或者操作。 我和很多写博客的作者一样，虽然在认真组织博客内容，但都希望评论比文章更有阅读质量，用户付出了时间去阅读一些他们可能感兴趣的资料，其目的是用时间去换取经验，都想从中能得到一些帮助或获取一些知识，跑马观花式的阅读方式肯定是不会有什么收获的。 以前在写“新手如何学习SEO”的时候就提到SEO学习一定要借助权威资料和只相信自己，因为不想一些新手朋友把一些SEO博客文章当作范文来阅读（与技术性尝试分开），这些都是一个经验或主观意识的表达，可以用来增加认识或经验，但每个人的优势和每个网站的实际情况是不一样的，最好是自己去尝试一些理论或经验，那样得到的积累才属于自己，而权威资料却不一样，它会非常客观的介绍和建议，就算带有主观建议，搜索引擎和用户还是占绝大部分。 雅虎外链查询工具关闭了，提供另外一个外链查询地址，仅供参考：www.opensiteexplorer.org]]></description>
		<wfw:commentRss>http://scseoer.com/renzhen.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>网站优化有什么好处</title>
		<link>http://scseoer.com/wangzhan-youhua-haochu.html</link>
		<comments>http://scseoer.com/wangzhan-youhua-haochu.html#comments</comments>
		<pubDate>Thu, 01 Dec 2011 14:51:53 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[点击量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2342</guid>
		<description><![CDATA[在进行网站推广过程中，您是否曾经遇到过以下问题，或者被这些疑问所困扰？ 每天的网站点击量还可以，有客户来电咨询但不多 安装了流量监控工具，发现大部分访客在网站上的停留时间都很短 认识一些实力相当的同行，知道大家提的词和排名都差不多，但他们的推广效果似乎更好 对已经建好的网站不满意，但说不清哪里不好，也不知道做到什么程度才叫好 作为企业推广的利器，搜索引擎推广为您的网站带来了可观的访问量。每一次搜索点击都代表着一位有意向的网络用户，他们希望通过您的网站获取感兴趣的产品/服务的信息，并在比较、评估后做出购买决策。如何充分利用搜索引擎带来的流量，在众多的竞争网站中脱颖而出？从有意向的网络用户到咨询购买的潜在客户，基于用户的网站优化将成为您的有力助手。通过持续的网站优化，您可以： 提升推广效果，将您的企业实力展示在更多的潜在客户面前，帮助他们了解产品和服务信息，激发他们进行业务咨询，并在沟通、洽谈的基础上与您达成交易 发挥竞争优势，无论您是行业翘楚还是后起之秀，都可以通过您的网站来突出您的特色优势，打动您的潜在客户，赢得更多商机 加强客户积累，如果您的网站让用户感觉轻松愉悦、得心应手，就会给他们留下深刻的印象，更有可能吸引用户再次访问，有利于潜在客户的积累 彰显企业形象，网站以最直观、最便捷的方式展示企业形象，是企业全景的缩略图，您可以通过网站来塑造并强化企业 在客户/潜在客户心目中专业、可信的形象 为了帮助您达成以上目标，我们在大量用户测试和研究的基础上，为您推出一系列网站优化指南。这些指南主要来自于对用户案例的观察、记录和总结，也有来自于网络营销专家的经验和建议，供您在制作、优化网站时参考。具体的优化方式，请您结合网站实际情况审慎决定。]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-youhua-haochu.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>SEO行业做付费推广合适吗</title>
		<link>http://scseoer.com/seo-fufei-tuiguang.html</link>
		<comments>http://scseoer.com/seo-fufei-tuiguang.html#comments</comments>
		<pubDate>Thu, 01 Dec 2011 05:05:52 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[付费推广]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2336</guid>
		<description><![CDATA[SEO是网络营销中相对比较有优势的一种推广方式，无论是产品还是服务，都可以通过SEO来优化对应的关键词，让这些关键词在搜索引擎的搜索结果中获得不错的排名，进而让在需找这些关键词的用户主动找到你，有人很形象的做了一个比喻。 SEO就类似与在搜索引擎的搜索结果中给自己做广告，而且这种广告是自然的。 随着SEO概念和这种优化观念的深入，很多企业已经逐渐认识到它的重要性，这也使得SEO慢慢逐渐形成一个小的行业，一些传统的网站建设公司也开始进入SEO优化行业，为众多传统企业提供服务，在服务于客户的同时，自身服务其实本身就是一种产品，这种产品也脱离不了推广，包括竞价推广。 SEO采用付费方式推广服务(截图) 从常规角度看，对自身企业产品或服务进行推广是完全有道理的，而且很多传统企业采用类似的方式进行推广也是应该得到推荐的（SEO与付费推广并不产生冲突，只会相对补充）。 但SEO由于自身的特殊性，本身的价值是通过想客户提供搜索引擎优化服务，如果自身都采用付费推广的方式进行，这样势必让一些需要这种服务的用户有所怀疑，作为行业中同行来讲，有点让人觉得这是在欺骗新客户。 如果把SEO当作一个行业来看，这样的行为也不会得到行业内同行的尊重。原因非常简单，因为我们都需要为用户着想，特别是一些对SEO概念相对模糊的新用户。]]></description>
		<wfw:commentRss>http://scseoer.com/seo-fufei-tuiguang.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>近期DEDE程序漏洞解决</title>
		<link>http://scseoer.com/dede-loudong.html</link>
		<comments>http://scseoer.com/dede-loudong.html#comments</comments>
		<pubDate>Tue, 29 Nov 2011 09:33:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[CMS技巧]]></category>
		<category><![CDATA[DEDE程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2327</guid>
		<description><![CDATA[近段时间，有客户反映网站出现异常，整个网站都被挂了黑链，导致网站前台界面变形，于是看了另外几个DEDE CMS程序制作的网站，也是一样，部分网站已经被主机商关闭。 “存在漏洞：该主机网站使用存在漏洞的旧版dedecms程序，并且正在发包，须升级至最新版本或打全补丁。” 解决方式也比较简单： 首先清理下“/plus/”、“include”文件中的陌生文件； 根据目前的DEDE程序版本及时打上补丁； 依次升级DEDE程序为最新版； 进入模版文件，清理模板文件中的黑链，重新生成整站网页。 个人对DEDE程序安全不是很熟悉哈，及时关注程序官方信息，做好防范。 最新程序及补丁下载：http://bbs.dedecms.com/331304.html 关于使用DEDE程序的提醒：如果您使用了DedeCMS程序，因目前DedeCMS暂未发布补丁修复,请立即按如下流程处理： 在dedecms的后台更新补丁,尽可能升级为最新版本。 data、templets、uploads、install这几个目录用控制面板的“目录保护”功能，禁止执行权限。 如果只是使用文章系统并没有使用会员功能，则强推推荐：关闭会员功能、关闭新会员注册、直接删除member目录或改名。 用dedecms后台的“系统”中的文件校验和病毒扫描功能 查杀病毒木马。 检查有无/data/cache/t.php 、/data/cache/x.php和/plus/index.php 这些木马文件,有的话则应立即删除。 请及时关注dedecms的最新补丁，如果官方出新补丁，则应立即更新。]]></description>
		<wfw:commentRss>http://scseoer.com/dede-loudong.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>百度是否遵守robots.txt协议</title>
		<link>http://scseoer.com/baidu-robots-txt.html</link>
		<comments>http://scseoer.com/baidu-robots-txt.html#comments</comments>
		<pubDate>Thu, 24 Nov 2011 17:10:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[百度蜘蛛]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2320</guid>
		<description><![CDATA[— 此文由“SEO外链”投稿 百度不认识robot.txt，robot.txt协议成幻影！ 最近，我在网上看到一篇报道，关于百度开始收录淘宝，淘宝客即将被终结。这篇文章我看了后，给我的反应就是：百度一直都没遵循robot.txt协议。下面我以图为证： 百度不遵守robots.txt协议图例 截止我投稿，相关收录量达到368000个，这到底是为什么呢？ 我记得两个月前，我用自己的第一个域名 www.houbook.com 做了自己的心情日志博客，我明明写了robot.txt屏蔽蜘蛛程序了的，但是，我检查发现，蜘蛛爬行了我的网站，而且还收录了文章，奇怪了，网上的朋友不是说，写了robot.txt禁止蜘蛛爬行就行了嘛，为什么我的心情日志被收录了呢？ 前两天，我在自己的另一个博客写了一篇文章，robots.txt 都禁止了，可是蜘蛛还是爬！ 这篇文章也引起网友们的疑问，百度蜘蛛是怎么啦，这么一副“穷酸相”，真是可笑，中国这么大的龙头企业，居然 robot.txt 都不认识，看来，大家不要在网上写心情日志了，还是写在日记本上吧，否则百度给你曝光，成为第二个“日志门”哦！ 博主建议：希望大家在阅读文章的时候，认真看完整篇文章，切勿断章取义！]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-robots-txt.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>SOSO发布通用SEO优化指南</title>
		<link>http://scseoer.com/soso-seo.html</link>
		<comments>http://scseoer.com/soso-seo.html#comments</comments>
		<pubDate>Sat, 19 Nov 2011 04:22:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[SEO指南]]></category>
		<category><![CDATA[soso]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2297</guid>
		<description><![CDATA[SOSO发薪计划鼓励用户进行搜索，SOSO首页改版吸引更多用户搜搜，加上强大的用户基础，这让更多用户开始关注 SOSO并使用它来搜素自己关注的信息，作为搜索引擎优化爱好者，无疑对其搜索结排序更加关注，那么，对SOSO的SEO，我们应该做些什么，原因很简单，因为用户关注度高，就很有可能给我们的网站带来更多的有效流量（很多网站的SOSO关键词搜索流量来源已经开始提升）。下面是SOSO官方发布的一份通用SEO指南，适合与目前主流的谷歌与百度SEO，文章底部还有SOSO的网站地图格式与提交URL删除请求。 前言 搜索引擎优化，即SEO（Search Engine Optimization），指为了提升网站/网页在搜索引擎搜索结果中的收录数量和排序位置，为了从搜索引擎中获取更多免费流量、高质量用户，针对搜索引擎的检索特点、排序规律，合理调整优化网站设计和建设方法，使其符合搜索引擎的检索规则的网站建设、网站运营行为。除此之外，SEO工作还有利于搜索引擎快速收录新页面，提高收录覆盖率的效果。 SEO是网络营销的重要手段，通过了解搜索引擎工作原理和用户需求，在尊重搜索引擎用户价值的前提下，对网站进行合理优化，可以获取更多的用户、流量和品牌。SEO具有成本低、易操作、有益于用户体验等特点，是网站自我营销时必须重视的一个环节。 搜索引擎简介和SEO基础 搜索引擎及其用户价值 搜索引擎，是对互联网的数据信息进行收集、整理，并提供检索查询服务的系统。搜索引擎擅长理解用户搜索需求、对海量数据抓取、信息甄别和打分、快速查询等工作。 搜索引擎根据用户的检索查询要求，对数据信息进行打分排序，并按照顺序输出呈现，帮助用户方便、快速、准确、全面地找到所需信息，这是搜索引擎最重要的用户价值。 一切SEO工作，都应以遵循搜索引擎工作原理和用户价值为前提。 白帽SEO和黑帽SEO 白帽SEO，指通过合理优化网站，提升用户体验，与搜索引擎良好交互，真实反映网站质量和权威性的搜索引擎优化方法。 黑帽SEO，以搜索引擎禁止的方法影响搜索引擎排序(作弊)，与用户价值和搜索体验相背离，以短期利益为主要目标的搜索引擎优化方法。搜索引擎会维护互联网网站的公正排序，给用户提供正确合理的搜索结果，而黑帽SEO的做法与此相违背。 搜索引擎在不断通过技术革新、策略优化来识别作弊行为。任何利用搜索引擎的策略缺陷漏洞，利用恶意手段获取与网页质量不符的排名，引起用搜索结果质量和用户搜索体验下降的行为都可能被搜索引擎识别为作弊行为。对待作弊行为，轻则被搜索引擎剥夺作弊权重，重则可能整个网站被搜索引擎拒绝收录。 搜索引擎工作流程图 搜索引擎工作流程图 对外，面向用户和整个互联网内容；对内，分为抓取、索引、检索几个重要模块。 搜索引擎爬虫 搜索引擎的爬虫程序（也叫Spider、蜘蛛、爬虫机器人），是搜索引擎收集信息、数据的工具。爬虫程序不断发现和下载互联网网页，这个过程是互联网网页进入搜索引擎内部必须经历的一关。 爬虫程序擅长：分配下载资源，海量并发下载，读取文字（特别是网页文本），分析站点地图并依此指引抓取页面。相反爬虫程序不擅长：读取图片、flash、JS、Ajax、frame，深层次、持续性抓取，读取有权限控制的页面，发现孤岛页面。 针对爬虫程序的SEO工作应该根据其特点针对性进行。 搜索引擎爬行轨迹示意图 搜索结果排序 搜索引擎通过理解用户搜索词、对数据进行检索，可以得到诸多可能的搜索结果。对这些结果的排序要靠成百上千的相关性策略实现。 相关性排序的目的是将结果按照对用户价值的高低排列，整个排序过程会参考网站、页面的相关度、质量、时新性、权威性等诸多因素综合考察。 SEO工作很大一部分跟搜索引擎相关性策略有关，简单来讲即通过SEO来告诉搜索引擎：哪些页面更有价值，哪些页面跟搜索词更相关，而应该被排序到更靠前的位置。 网站建立 域名注册 域名是网站的重要品牌印象。域名注册时应选择简单、易记、方便输入、贴近网站名称、能反映网站内容的域名。如fanli.qq.com、www.paipai.com。 域名一旦选定，不应随意变更；同一网站拥有多个域名应确定主要域名，并设置其他域名向主要域名跳转（301重定向）。 服务部署和网站上线 网站需要部署上线才能被用户访问。租用/购买安全可靠、高速稳定的服务器部署网站，是用户访问体验的有效保障，同时会影响搜索引擎爬虫的爬取。网站部署上线并进行域名解析后，即面向用户开发访问，同时也意味着向搜索引擎爬虫开放。 让搜索引擎发现网站 新建立的网站是互联网中的孤岛，搜索引擎也很难发现和收录它。在网站建立之初，可以将网站推荐给搜索引擎或者引导爬取收录。 向搜索引擎提交网站域名或入口。如向SOSO的提交新网站，http://www.soso.com/help/usb/urlsubmit.shtml； 建立外链，如创建友情链接、向导航网站申请收录等； 网站建立之初可重点经营内容列表页，在不影响用户体验的前提下，方便搜索引擎爬虫一次发现更多链接。 内容建设 树型扁平网状结构 层级分明的树型扁平网状结构是较理想的网站部署结构，每个页面与其父子页面有链接关联，可以帮助用户快速定位到感兴趣的频道、正文，也有利于搜索引擎理解网站结构层次和更好的爬取内容。 扁平的树型网状结构 明确区分出，网站首页、列表页/索引页/频道页、内容页，根据各个页面所在层级用链接相连，无孤岛页面； 层级、各层级分支内容不要过多，便于搜索引擎爬虫爬取； 内容和质量相似的页面组织在同一层级/目录中，便于搜索引擎进行聚合挖掘； 越重要的内容，越应放置于高层级位置，或在高层级页面中有链接直接可达； 在页面中建立导航链接、面包屑，便于用户和爬虫理解网站结构和在不同层级内容间跳转； 站点中新的内容应该尽量在深度较浅的列表页或首页发布入口，便于被搜索引擎爬虫快速发现。 腾讯网新闻频道，头条新闻放置于醒目位置 页面标题 页面标题是页面内容的重要标识，准确简洁的标题有助于用户快速识别页面内容。页面标题会被搜索引擎展现在搜索结果列表中，是用户通过搜索进入网站页面的重要入口。 标题内容在页面代码中被&#60;title&#62;标签包围，会被展现在搜索结果页、浏览器标题、页面标签、任务栏等位置，是用户识别/区分页面的重要依据； 标题内容是页面的最佳概括，应当主题明确，突出重点，内容不宜过长； 每个页面都应该拥有标题内容，避免不写标题，或无意义标题（如“无标题文档”、“网站建设中”）； [...]]]></description>
		<wfw:commentRss>http://scseoer.com/soso-seo.html/feed</wfw:commentRss>
		<slash:comments>31</slash:comments>
		</item>
		<item>
		<title>follow5 关闭（资金和政策双重压力）</title>
		<link>http://scseoer.com/follow5-guanbi.html</link>
		<comments>http://scseoer.com/follow5-guanbi.html#comments</comments>
		<pubDate>Thu, 17 Nov 2011 07:41:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[follow5]]></category>
		<category><![CDATA[微博]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2284</guid>
		<description><![CDATA[Follow5是2010年最受关注的微博客网站，不同于twitter及其他微博，F5致力于让分享更简单、更轻松、更自由。我们可以通过手机/MSN/QQ/Gtalk/飞信等十几种方式分享你的见闻和感受，并将它同步到其它所有微博客及社交站点。 Follow5是专注于分享的微博，致力于使分享变得更轻松、更方便、更自由。把此时此刻，你正在做什么、想什么、看到什么记录下来，分享给其他人。并且在微博下面显示follow5，Follow5于2009年8月6日正式开放注册。遗憾的是Follow5于2011年11月14日正式停止运营或将永久关闭。 follow5界面截图 1400天，三次大的版本更迭，数百万的投入，换来的结果是已经开发的新版follow5没有与用户见面就已经夭折&#8230;&#8230; follow5为什么关闭 11月14日消息，独立微博Follow5今日正式发布公告，宣布永久关闭，并发布视频向广大网友告别。此前不久，Follow5宣布在30天内将Follow5所有服务暂停运营，所有提供数据可供用户下载。 Follow5.Com运营经理慕鑫腾讯微博发布关闭信息 Follow5.Com运营经理慕鑫在腾讯微博发布告别视频，说：“时至年尾，已进深秋，冰冷的季节让被维护更显苍凉，虽有千百万个不愿与不舍，小5仍不得不与大家道别，感谢大家陪同小5走过这836天，你们热情与陪伴是我们继续坚持信念和动力！相信经过寒冷残酷的冬天，定会是春暖花开，一片美好。” 视频中回顾Follow5.Com成立以来点点滴滴，并初次涉及两次融资的经历：称2010年5月到7月，Follows5尝试首次融资，但投资人普遍对这一模式不太感兴趣，这使得Follows5首次融资失败，团队将部分力量投入大连这座外包城市里一个技术团队最普遍从事的外包业务继续前行。 2011年3月，Follow5.Com找到一家非常有诚意的VC，与其谈判同时，考虑到Follows5版本一家很久没更新，结合老用户意见及新注册用户建议，团队在5月到8月对Follows5进行再次改版。Follows5计划在投资到位后再推一个新版本，但天有不测风云，在把全部技术力量投入到新版本开发5个月后，国内微博监管形势急转直下，从国外访问Follows5，陆续出现问题。 视频中表露，面对资金和政策双重压力，Follows5没有太多选择。“我们本以为可以像多数站点一样安静的离开，但在关站消息发布后，大家留言及那些熟悉的身影又重新回来改版，让我无法平静，于是用数个晚上的时间搜集素材，仓促准备了这个视频，以为纪念。” 据悉，Follow5于09年8月6日开放注册，网站定位于专注于分享的微博，因为支持强大的同步功能，曾可以同步到：twitter、嘀咕、饭否、开心、人人/校内、腾讯微博、新浪微博、同学、豆瓣、Plurk（噗浪）、FriendFeed、139说客等网站而深受一些微博控的喜欢并走红。 Follow5团队的四位创始人都来自国内东软集团，此前，Follow5创始人于鲲鹏表示，国内微博客市场大浪淘沙，上有政策风险，下有盈利压力，中间还要应对门户微博高举高打局势，Follow5坚持到最后也不一定会成为胜利者，但如果有一家胜利者，希望自己能够入选。 follow5目前的站点描述 相信：经过寒冷残酷的冬天，定会是春暖花开，一片美好！ 点击这里下载您在follow5上的分享 联系邮箱：help@follow5.com follow5团队部分成员（来自视频截图） follow5告别视频 时至年尾，已进深秋 冰冷的季节让被维护更显苍凉 虽有千百万个不愿与不舍 小5仍不得不与大家道别 感谢大家陪同小5走过这836天 你们的热情与陪伴是我们继续坚持的信念和动力！ 相信：经过寒冷残酷的冬天，定会是春暖花开，一片美好！]]></description>
		<wfw:commentRss>http://scseoer.com/follow5-guanbi.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>社交网络PK搜索引擎</title>
		<link>http://scseoer.com/weibo-pk-search-engine.html</link>
		<comments>http://scseoer.com/weibo-pk-search-engine.html#comments</comments>
		<pubDate>Thu, 17 Nov 2011 07:02:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[微博]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2281</guid>
		<description><![CDATA[还记得博客中一篇关于“网民规模与搜索引擎使用率”中提到： “截至2011年6月底，中国网民规模达到4.85亿，较2010年底增加2770万人，增幅6.1%，截至2011年6月底，搜索引擎用户规模达到3.86 亿，较2010年底增长1153 万人，半年搜索引擎使用增长率3.1%，搜索引擎使用率79.6%。” 对于社交网络，目前国内比较有影响力的是新浪微博和腾讯微博，在国外来讲，则是Twitter、Facebook；对于搜索引擎，全球性的谷歌与国内的中文百度稳居榜首。 社交网络与搜索引擎用户关注度 “根据国外统计数据显示，第三季度全球互联网用户在Facebook上停留的时间，超过了谷歌，达到414亿分钟。这是社交网络首次在停留时间上超越搜索引擎。”昨天，来自某国际金融机构分析师报告中的几句话，出现在国内一些网站的科技和财经板块之中，转载率很低，跟进的评论也寥寥无几。不过，这位分析师的结论在微博中被频频转载：使用时长超过搜索引擎，标志着以“社交网络”为核心的新一代互联网服务正在壮大，并且已经融入主流生活模式。 无论是模式还是内容，遭遇手机和微博结合的“自媒体”一再积压，个人网络计算机和门户网站，渐渐在使用率和停留时长上处于下风，正在迅速“被传统”。几天前，盛大文学高层“‘传统互联网’将慢慢萎缩”的言论，在业界引发争论。在“对垒”报纸杂志、广播电视等“传统媒体”的同时，网络媒体的“代际更迭”和“内战”已经悄然开始。 微营销绕过传统互联网 你浏览器的主页是什么，是谷歌、百度等搜索引擎吗？很多人已经习惯通过搜索引擎寻找网站。要上淘宝网，很多人就会先打开百度，实名搜索关键词“淘宝”，然后借助搜索结果登录淘宝网。不用记那串“http”、“www”开头，“.com”结尾的网站域名，是搜索引擎带给用户最大的“实惠”。用户通过搜索引擎找门户网站的习惯，让搜索引擎分享了门户网站的点击率。而搜索引擎也利用搜索结果排行，甚至根据用户使用位置推送附近商家的方式，找到了互联网的盈利模式（SEO优化与百度竞价）。 不过随着Twitter、Facebook渐成气候，特别是微博的出现，搜索引擎、门户网站推出的不少互联网应用，被社交网络一一整合。搜索框里输入一个“新”字，就冒出“新浪微博”，当分散用户搜索的目标高度一致时，搜索引擎从门户网站那里“分享”到的关注度，被迅速转移集中到特定社交网站上。国内仅新浪微博一家，2009年8月内测至今，注册用户已经突破2.5亿，每天发布微博量超过9000万条。 可以让数亿人认识你的网络社区“围观”模式，让很多网民通过“加关注”实现了内容订制。巨大的人群也引发了资本的高度关注。不久前发布的《微博引领的中国社会化商业发展与变革》白皮书透露，企业正在学习“自媒体”运营。同时归纳了企业正在利用社交网络进行品牌建设、客户管理、营销优化等7种互联网应用。一大批企业把“微营销”写进年度策划，“社交网络”正在被当成“社交商业网络”。 企业通过微博发布消息的模式，不再需要新闻发布会，直接和受众“面对面”。微博营销抛开的不仅是报纸、广播、电视等“传统媒体”，连网站等“传统互联网”平台也被绕过。战胜了门户网站的搜索引擎，在与社交网络的注意力争夺战中，因为替他人做嫁衣的角色也难逃“被传统”的命运。 微博“噪音”趋向同质化 对于社交网络而言，新而酷的“科技属性”并不能掩盖它和传统媒体相似的实质（都是内容平台）。而作为内容平台，同质化不仅会降低平台的信息量和价值，还会因为无效信息而产生“噪音”。 过亿的用户、每天近1亿条微博的更新量，社交网络往往会用一些“天文数字”形容这个新兴产业的蛋糕有多么巨大。但是其中有多少信息是有用的，又有多少信息被需要的人看到，目前都没有明确的答案。产业“推手”们喜欢引用“蜂群行为特征”类比用户，比如蜂群的集体记忆比个体长很多，所以新一代互联网使用的人数越多，用户特征就会越明显，对技术、应用的发展推动速度也会更快。 蜂群理论出自《连线》杂志创始人凯文·凯利的《失控》一书，这位“出版达人”站在自媒体这边，鼓吹“网页已死”的同时，也说过另一句名言“内容不会被复制取代”。这句话更像是对所谓“新一代互联网”产业的警醒。 看看国内目前手机网络应用的前三位就不难理解凯文的话。排行最先的“折扣族”、“搜族”、“游戏族”3种应用，占总量的65%，其中原创内容几乎可以忽略。感觉应用量很大的手机微博，比重其实不到10%。而微博因为转发和私信带来的内容复制，已经成为信息垃圾的最大制造者之一。新浪微博客服有一条原创微博：“经常收到垃圾信息不堪其扰吗？除了举报之外，还可以设置权限，一步到位解决垃圾私信问题。”这条微博高居热门排行榜，很有几分黑色幽默。 在金融分析师发现第三季度Facebook的用户时长超过谷歌的同一天，土豆网宣布第三季度同比扭亏，股票开盘大涨6.8%；搜狐也发布消息称通过视频版权分销，实现未映先盈利。所谓的传统互联网企业，正在探索盈利模式，有不少还赚到了钱。而目前代表国内新一代互联网的知名微博，却依旧带着“beta（测试）版”的图标“试运行”。 关于微博营销 微博营销是刚刚推出的一个网络营销方式，因为随着微博的火热，既催生了有关的营销方式，就是微博营销。每一个人都可以在新浪，网易等等注册一个微博，然后利用更新自己的微型博客。每天的更新的内容就可以跟大家交流，或者有大家所感兴趣的话题，这样就可以达到营销的目的，这样的方式就是新兴推出的微博营销。]]></description>
		<wfw:commentRss>http://scseoer.com/weibo-pk-search-engine.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>站内SEO优化常见问题解答</title>
		<link>http://scseoer.com/zhannei-seo-youhua.html</link>
		<comments>http://scseoer.com/zhannei-seo-youhua.html#comments</comments>
		<pubDate>Sat, 12 Nov 2011 16:28:56 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[体验]]></category>
		<category><![CDATA[内页]]></category>
		<category><![CDATA[更新]]></category>
		<category><![CDATA[问答]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2254</guid>
		<description><![CDATA[对于SEO的站内优化，需要更多的是实践经验和权威资料参考，经常分析网站日志是个好习惯，既然你想在搜索引擎获取流量，对搜索引擎蜘蛛程序的基本了解和一些数据还是有必要去了解的。谷歌和百度SEO指南是很好的参考资料，而且百度SEO指南2.0比以前的版本多了很多实用和更具体的说明，谷歌网站站长帮助中心里面的很多文章也值得我们认真反复的阅读。下面是一些SEO人员提出的一些关于站内优化的常见问题，可以参考下，以免以后在工作中遇见类似的问题。 1、百度权重值是怎么来的，一些网站会对网站的权重赋予一个值，特别是百度，这些查询结果到底准备吗？ 那个只是个参考数据。一个网站中拥有指数关键词的排名。 站在SEO角度上讲，如果一个网站内多条URL在有指数的关键词都有不错的排名，其实也可以说成是权重，一些网站中百度权重=百度排名，还是有一定的道理的。 2、site和domain找不到首页，但是能正常收录，算是被K吗？域名昨天唯一的动作换了空间，但是收录和外链都还在增加。 应该是原空间无法访问导致，搜素引擎对域名对应的IP都有记录，如果更换IP或者换空间，最好保持原空间还保持可以正常访问。 开通新的空间，并将网站完整的迁移到新空间，并保持流畅访问 将域名的服务器指向更新为新空间的ip 保证旧空间能持续访问一段时间 关注新空间的访问日志，等Baiduspider的抓取完全迁移到新空间后，停止旧空间的服务。 3、最近我们公司正在制作一个专题页面，是以一个2级域名的形式写了一个专题网出来，现在在底部想增加一些权重页，例如：关于我们、联系我们，这些可以调用一级域名的权重页面出来吗？就是在主站底部的权重页。还是需要重新写一个页面出来（主站和这个2级域名下面的网站是在不同服务器的）？ 在前期内容相对较少的情况下，建议使用单页面或者目录形式制作，等内容多了，再转向二级域名，利用301将目录权重传递给二级域名。 专题页面一般是网站内部URL和专门的专题目录，然后在整个网站挂上专题页面的链接，获取内部权重值。由于专题页面都是特别制作的，所以在关键词布局上也比较讲究，专题页面相对相关性会比较强，页面停留时间也会相较长，然后利用推广团队外部推广，获取高权重值。 在百度看来，二级域名和新站一样，获得父级URL权重值为0。另外你所说的权重页是指关于我们等一些全站链接，你应该是在这些所谓的权重页上给专题页面做链接，怎么变成专题页面给权重页做链接了，专题可以适当控制下到处链接数量（包括内部链接）。 4、网站开了60个二级域名，每个二级域名都有独立的ip和空间，这样做是不是对关键词优化好一些，还有网站的内容不是很多，所以打算把二级域名上的链接都连向主站，减少内容的使用率和空间。还有现在网站有300个关键词，要不这300个关键词分给这60个二级域名如何分呢？ 将二级域名转换成二级目录，再将二级域名 301 到对应的二级目录。 其实和百度关于二级域名和目录的建议是反过来的。 5、我在 robots 里面用 Disallow: /forum.php?mod=forumdisplay* 这个屏蔽了，但是还是一样检测到有不断爬行，是不是我没弄对？我也在robots里面加了 Disallow: /*?* 但是为什么这个带?号的地址还是一样爬行？ Disallow: /forum.php?mod=forumdisplay&#38;fid= 如果一些URL你不想被爬行，可以使用nofollow。关于使用robots.txt屏蔽后还有爬行的情况：并不是你写了搜索引擎的爬虫程序就会来爬行你的robots.txt规则并更新，这需要一定的过程，一般根据对自身网站的爬行频率来定的，参考数据72小时。 6、如何查询搜索引擎蜘蛛程序有没有来爬行过网站？ 你可以将你的网站日志（咨询空间上网站日志放置位置）从服务器下载到本地，解压（一般是压缩包）并打开，搜索对应的蜘蛛程序名称。 雅虎蜘蛛：Yahoo!+Slurp 百度蜘蛛：BaiDuSpider 谷歌蜘蛛：Googlebot 7、网站标题不写后缀利于优化吗，例如： &#60;title&#62;SEO论坛？ &#8211; SEO杂谈&#60;/title&#62; 去掉- SEO杂谈 变成SEO论坛？ 整个网站都这样？效果怎样啊？ 对于网页标题的写法，百度SEO指南中有提到，可以包含网站名字，对于知名品牌来讲，用户更原意点击自己熟悉的标题，但对于小型企业来讲，可以不写。 8、网站内容建设方面，写原创文章应该注意写什么？有没有什么技巧？ 对用户有用的任何信息，都可以作为高质量内容放在网上，对于技巧，可以在每天文章增加相关文化和推荐内容来增加页面的阅读质量。 9、网页中有多个相同内容的URL被收录，如何解决？ 对于相同内容，不同URL地址的网页，选择一个标准URL，将其他的URL进行301重定向到标准URL上面。 10、这段时间用站长工具的搜索蜘蛛模拟器检测我的网站，提示   “远程服务器返回错误: (403) 已禁止。”，是不是我网站被攻击了还是怎么了？我们有设置关闭搜索引擎抓取呀，而且这段时间，百度的收录也一直没增加还在减少。 如果普通用户可以正常访问，那可能是服务器设置问题，屏蔽了指定IP段访问导致的。可以尝试用多个工具查询下该URL的HTTP状态码。 对于站内SEO问题，涉及到的角度很多，这些问题是平常在SEO交流中提到的问题，如果在站内SEO优化有其他问题，可以回复，尽量做到详细解答。]]></description>
		<wfw:commentRss>http://scseoer.com/zhannei-seo-youhua.html/feed</wfw:commentRss>
		<slash:comments>30</slash:comments>
		</item>
		<item>
		<title>关键词的价值是什么？</title>
		<link>http://scseoer.com/keywords-value.html</link>
		<comments>http://scseoer.com/keywords-value.html#comments</comments>
		<pubDate>Wed, 09 Nov 2011 14:25:47 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[品牌]]></category>
		<category><![CDATA[转换率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2237</guid>
		<description><![CDATA[你可能非常清楚的知道你的用户在搜索什么，但是，在得到这个结论之前你必须做过全面的关键词分析，否则你不会真正的了解你的用户每天都在搜索什么词语，当然你或许知道其中的一部分，但如果你丢失一些有价值的关键词，对你的竞争对手来讲，可能都是机会。 可能你对你的行业非常的了解，在你所在的行业可能你就是专家，但你的用户可能确不是这样。我们选择关键词的目的是确保网页内容被集中在有价值的关键词上面，所以这样选择你可能并不会有什么损失。 关键词价值体现在将你的内容展示在合适的用户面前，或者说真正需要的用户展示的正确（相关性）的内容，搜索引擎营销的两个基本目的是树立品牌以及提高网站转化率，这在关键词的选择上就会有基本的实现，这也是关键词的价值体现。 树立品牌 在树立品牌前要提到品牌认知，你不可否认，很多用户可能从来没有听说过你的公司，这其中可能就包括你的目标客户，或许还有一部分用户现在没有需求，除了搜索引擎营销，其他营销工作者也同样认为，提高公司的知名度是接触新客户的第一步，所以目前一些广告投入者可能不仅仅直接获取订单，他们可能是为了品牌认知在努力。 品牌认知是上世纪80年代，大卫·艾克提出的概念，同时也推出了多个品牌建设的方法和理念。其中，在行业内被广泛认同的是品牌建设的四段里程，即：品牌知名－品牌认知－品牌联想－品牌忠诚。品牌认知度是品牌资产的重要组成部分，它是衡量消费者对品牌内涵及价值的认识和理解度的标准。品牌认知是公司竞争力的一种体现，有时会成为一种核心竞争力，特别是在大众消费品市场，各家竞争对手提供的产品和服务的品质差别不大，这时消费者会倾向于根据品牌的熟悉程度来决定购买行为。 不可否认，很多广告投入商投放广告的目的是为了销售产品，但是一些用户在看见广告的用户当时并没有购买意向，广告投放者知道在广告位中展示他们的品牌名称，或者还会加入一些非常诱人的广告语，用户会记住这些信息，而且当他有购买意向的时候，他可能会想起。 用户可能不知道你提供的具体服务和产品，除非他在关键词的搜索结果中就可以很直观的看见，很多用户在搜索引擎搜素关键词的时候，可能他们并不是想购买这些产品或服务，他们只是简单的浏览搜索结果，而且他们喜欢看见一些大型品牌的网站排列在搜索结果列表的前面，同样，他们同理也会相信目前拥有高排名的网站就是这方面的专业公司。 这些用户可能还处于学习阶段（用户的搜索行为分析），他们可能下一步就会开始进入浏览阶段，而且最终可能会购买你的产品，这时候学习阶段用户引导是非常重要的，因为对你来说可能是个发现新客户的好机会。 当用户还处于学习阶段的时候，大量的长尾关键词流量对你来说可能非常重要，如果你目前不是知名企业，请尽量在更多长尾关键词的搜索结果中展示你的网页信息，这样可以建立品牌认知，因为用户更喜欢点击他熟悉的网页信息，目标关键词也是一样。 目前越来越多的用户将注意力转移到了互联网，包括一些日常消费需求，或许你的用户对你的用户知道你的公司名称，但缺不知道公司的网址是什么，而且还有可能由于下面原因进一步产生搜索行为： 他们知道品牌或产品名称，不知道官方网站是什么； 他们或许不知道你的公司名称，甚至连产品和品牌都不知道，但他们非常熟悉你的广告宣传语； 他们或许除了需要产品外，其他的什么都不知道。 一些平面广告做的很好的企业，引起了用户注意，这样会促使更多人来寻找你的网站，而且他们都是通过搜索来完成的，所以一些公司的线下推广和线上展示需要同时进行，速度还得跟上。一些线下推广活动开始的时候，一般情况是没有任何准备的，一些在过去显得非常冷门的关键词，可能会突然变得非常热门，但是你手中必须有相应的网页内容来抓住这些来自不易的流量。 不光是大公司是这样，小型企业一样如此，或许你正在宣传一个推广口号，另外你还有可能存在产品促销信息，这些都是你的公司新闻，要确保网站内容中出现这些内容，并且想需要他们的用户前排展示。这些会给你的营销活动带来更多的正面信息，在这个过程中，你正在努力实现品牌认知这一目的。 提高网站转换率 如果用户不能找到你的信息，那么，他也不可能从你这里购买，无论是从找产品到找公司，还是从找公司再寻找产品，这两者都只是一种网站转换。 关键词的价值是让合理的流量引导到网站上面，注意这里是合理的，如果预算充足，还会有更多合理流量进入。搜索引擎营销的好处之一是“拉”，而不是传统营销方式的“推”，用户通过搜索告诉我们他们敢兴趣的信息，而传统营销往往而硬推。 如果你对用户敢兴趣的内容了解的越深刻，向处于不同搜索阶段的用户提供的信息越详细，那么，转换率就会越高。]]></description>
		<wfw:commentRss>http://scseoer.com/keywords-value.html/feed</wfw:commentRss>
		<slash:comments>34</slash:comments>
		</item>
		<item>
		<title>网页中的404错误/404 not found</title>
		<link>http://scseoer.com/404-not-found.html</link>
		<comments>http://scseoer.com/404-not-found.html#comments</comments>
		<pubDate>Sun, 06 Nov 2011 17:20:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[404]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2226</guid>
		<description><![CDATA[很多时候在浏览网页的时候，会突然出现网页404错误提示“404 Not Found”，这些大都是由于网页本身的URL地址本身错误或URL已经改变而没有及时更新造成的，这里不排除其他造成原因（浏览器或网络环境影响）。 关于404错误，在百度搜索的时候，发现百度知道里面的一个很有趣的问题： 问：一上网就显示Error 404 &#8211; Not found The document you requested is not found. 一上网就显示 Error 404 &#8211; Not found The document you requested is not found。有人和我说下载个游览器重启一下，问题是不能上网啊，迅雷也不能用，纠结啊，那位高手帮帮忙啊。 答案：1、建议把电脑程序重做 这样后再换内存条 （不建议）；2、或重买个主机(极力推荐） 百度问答中关于404错误的问答截图 为什么会出现404错误 404是一种HTTP状态码，HTTP 404 状态码的出现意味着链接指向的网页不存在，即原始网页的URL失效，这种情况经常会发生，特别是对于大型网站来讲，很难避免，比如说：网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误、编辑或程序工作人员疏忽等，导致原来的URL地址无法访问；当Web 服务器接到类似请求时，会返回一个404 状态码，告诉浏览器要请求的资源并不存在。导致这个错误的原因一般来说，有： 网站本身问题导致： 网页URL本身已经发生变化，而前台页面没有及时更新； 网页本身或网页文件位置发生改变，而没有及时在后台更新； 外部链接拼写出错； 网站内容管理员或程序管理员在处理URL上没有考虑周全，比如一些地方如果加入了链接属性导致URL不能正常访问。 用户网络环境导致： 无法在所请求的端口上访问该网页URL地址。 Web服务扩展锁定策略阻止本请求。 MIME映射策略阻止本请求。 404错误如何处理 网站管理员： 对于网页内容比较少的小型网站管理员来讲，可以用死链接检测工具“xenu.exe”来对网页死链接进行检测，发现并及时处理错误链接信息； 对于内容较多的大中型网站管理员，使用上面的死链接检测工具可能会消耗很多时间，可以关注每天网站日志文件中的用户状态码情况，发现并及时解决404错误问题。 制作友好的404错误页面，提醒用户访问出错信息，引导用户进行首页或目录查找，提供站内查找功能或网站管理员联系方式。 对于SEO人员（搜索引擎优化工作者）来讲，建议参考“404错误是否会对网站造成影响”一文获取更多信息。 普通用户： [...]]]></description>
		<wfw:commentRss>http://scseoer.com/404-not-found.html/feed</wfw:commentRss>
		<slash:comments>24</slash:comments>
		</item>
		<item>
		<title>谨慎使用robots.txt文件 做健康网站</title>
		<link>http://scseoer.com/robots-txt-jiankang-wangzhan.html</link>
		<comments>http://scseoer.com/robots-txt-jiankang-wangzhan.html#comments</comments>
		<pubDate>Wed, 02 Nov 2011 14:08:22 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[工具]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2208</guid>
		<description><![CDATA[这是今天更新的第二篇文章，“HEAD头字段总结”是个人在查看博客网站日志中遇见一些关于HEAD字段信息不清楚，查询后分享了部分内容，刚刚在阅读谷歌网站站长博客中看见“健康的网站让工作更高效、更轻松”，由此想到了某些SEO人员在使用robots.txt文件的时候可能会造成“网站不健康提示”，所以说说自己的建议，避免此类现象出现。 在robots.txt文件中，搜索引擎允许网站管理员将一些目录或者文件进行屏蔽，但有时候如果滥用robots.txt文件，可能会屏蔽一些重要内容，这样谷歌就会提示网站处于非健康状态，而对于没有任何提示的百度，这些信息你将无法看见，以至于作出一些错误的判断，影响SEO的正常工作，先看下谷歌的这篇文章。 我们一直听网站站长说他们需要合理规划时间。有些站长要管理几十或几百个客户，而有些站长则需要运营他们自己的业务，在管理财务和库存之余，可能只剩一个小时来维护网站。为了帮助您区分轻重缓急，更好的分配自己的精力，网站站长工具引入了“网站健康”理念，重新设计了网站站长工具主页，以突出网站存在的问题，帮助您轻松查看需要关注的地方。同时，您无需一一打开管理的网站站长工具中的报告来完成这项任务。 以下是新主页的图片示例： 谷歌网站管理员工具新首页 您可以看到，网站存在的健康问题会显示在列表的顶部。（您可以根据自己的意愿随时切换并按字母顺序列出自己的网站），要查看我们在网站上检测到的具体问题，请点击网站的健康图标 或网站旁边的“查看网站健康”链接。 如果您目前网站站长工具账户（无论是验证或是未验证的）内的网站总数在100以内（包含100），新版主页就可以投入使用了。我们正在努力使其在不久的将来可应用于所有帐户。如果您管理着100多个网站，您可以在每个网站控制台的顶部查看网站的健康信息。 现在，我们对您网站的健康检查主要强调三个方面： 我们在网站上是否检测到了恶意软件？ 是否有任何重要网页通过网址删除工具被删除? 是否有任何重要的网页被屏蔽，以至于不能被robots.txt抓取？ 点击以上任意一项，您就可以获取我们在您网站上检查到的更多详细信息。如果网站旁边没有出现网站健康图标和“查看网站健康”链接，这就意味着我们没有在该网站上检测到任何此类问题（恭喜了！）。 关于“重要网页”的说明：如您所知，通过访问网站配置 &#62; 抓取工具的权限 &#62; 删除网址，您可以获取一个完整的被删除URL的列表；通过访问故障诊断 &#62; 抓取错误 &#62; 受 robots.txt 限制，您可以查看因robots.txt屏蔽而无法抓取的所有URL。不过，因为网站站长通常会有意地屏蔽或删除内容，所以，如果我们认为您可能无意地屏蔽或删除了某个页面，我们只是想向您提示一个潜在的网站健康问题，这也是为什么我们只关注“重要网页”。现在我们只通过网页的点击次数（您可以在网络上的网站 &#62; 搜索查询进行查看）以确定重要性，以后随着我们网站健康检查的更新，我们可能会加入其他因素。 显然，导致一个网站“不健康”的原因不仅仅是恶意软件，删除的网址，以及屏蔽的网址；在未来，我们希望能够扩展检查的范围来确定一个网站是否健康。虽然没有什么可以替代您自己对所有网站的最佳判断和了解，我们还是希望这些变革能够帮助您轻松快速的发现您网站存在的主要问题，并且无需深入研究所有的数据和报告。 在您解决我们标出的一个网站健康问题之后，我们的警告通常需要过几天后才能从网站站长工具帐户中消失，因为我们需要重新对网站进行检测，才能看到您所做的更改并通过我们的网络搜索和网站站长工具管道处理这一信息。如果经过一周左右之后，您还会看到这一网站的健康警告，那么这个问题可能没有得到解决。欢迎来我们的网站管理员帮助论坛寻求帮助以追踪问题所在，欢迎告诉我们您的想法！ 通过上面的阅读，你可能觉得你屏蔽的文件或者目录的确不需要向搜索引擎展示，那么，你可以针对性的进行操作，如果屏蔽的目录（特别是用户可见的目录内容）过多，可能会收到影响，另外，你还可以借助nofollow来对网站内部链接进行控制，目前谷歌和百度都支持这个标签属性。]]></description>
		<wfw:commentRss>http://scseoer.com/robots-txt-jiankang-wangzhan.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>HEAD头字段总结</title>
		<link>http://scseoer.com/head-ziduan.html</link>
		<comments>http://scseoer.com/head-ziduan.html#comments</comments>
		<pubDate>Wed, 02 Nov 2011 10:14:04 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[web服务器]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[数据请求]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2198</guid>
		<description><![CDATA[Http除了Get和Post方法外，还有Head方法，Head获取http头信息，其中的Content-Length就是文件的大小，而作为网页中的图片文件，百度图片搜索引擎蜘蛛程序常常以Head方法探测文件HEAD头信息（2011年10月网站日志数据，谷歌采用GET方式获取），例如： 2011-10-30 18:06:37 HEAD /wp-content/uploads/2011/07/baidu-caishenkezhan.jpg &#8211; 123.125.71.26 HTTP/1.1 Baiduspider-image+(+http://www.baidu.com/search/spider.htm) &#8211; 200 0 0 该图片的HEAD头返回信息如下： 返回状态码：200 网页返回HEAD信息如下 Date: Wed, 02 Nov 2011 12:27:25 GMT Server: Apache/2.2.15 (Unix) mod_ssl/2.2.15 OpenSSL/0.9.8n mod_fcgid/2.3.6 Last-Modified: Fri, 02 Sep 2011 00:32:02 GMT ETag: “22caecb-57cc-4abea7d6f8480&#8243; Accept-Ranges: bytes Content-Length: 22476 Cache-Control: max-age=2592000 Keep-Alive: timeout=5, max=100 Connection: Keep-Alive Content-Type: image/jpeg HEAD头字段注释 Date（发送请求时间） Server（WEB 服务器表明自己是什么软件及版本等信息） [...]]]></description>
		<wfw:commentRss>http://scseoer.com/head-ziduan.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>大中、小型企业如何选择SEM计划范围</title>
		<link>http://scseoer.com/sem-fanwei.html</link>
		<comments>http://scseoer.com/sem-fanwei.html#comments</comments>
		<pubDate>Mon, 31 Oct 2011 15:44:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[SEM计划]]></category>
		<category><![CDATA[企业规模]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2180</guid>
		<description><![CDATA[SEM，是搜索引擎营销（Search Engine Marketing）的缩写，我们经常所的 SEO 实际上就为 SEM 服务的，因为每个公司面对的实际情况是不一样的，大型公司和小型企业在搜索引擎营销（下面简称SEM）上面，通常面对的挑战是不一样的，你可能属于中型企业，但是如果你如果多了解下您的竞争对手，这对于帮助分析你自身的情况是很有帮助的。如果你已经了解“搜索引擎为什么这么重要”了，而且你非常喜欢SEM营销计划，那么，可以根据自己的实际情况，来选择您最佳的SEM计划。 大型公司往往组织结构比较健全，而小型企业在SEM上更具有优势，比起其他营销方式来讲，SEM更像是一个平等的竞技场。 公司规模与SEM息息相关 灵活性：小型企业比大型公司在SEM更具优势，一开始就可以自发进行SEM计划，而大型公司往往会每年都会有计划的进行各种既定的营销计划，及时尝试SEM营销，也会花上很长的时间来决定，而很多大型公司往往不原意去尝试一些小的新鲜事务，小型企业经常喜欢抓住一些新的机遇，而且在看见SEM营销对自己的业务产生有利影响时，更原意加大这方面的投入。 大型企业就算计划尝试SEM营销，往往反映要比小企业慢的多，对于SEM营销计划来讲，改变网站是必然的，而你的动作越快，SEM营销的成功就会来的越快。 知名度：对于小型企业来讲，在知名度上并不占优势，而大型企业在公众影响方面有巨大的优势，比如用户在搜索产品和服务时，都希望在搜索关键词上加上他们的名字，而且对于知名网站来将，获取外部链接也相对容易的多，小企业为了链接，可能会让工作人员非常努力的去寻找甚至花费大量资金投入，而大型公司网站则可以不用开口就可以得到。 比如大型公司的任何一款小产品的发布，都会引起新闻报道，加之消费者、供应商、经销商参与推广，这些高质量，高权重的外链就会来源不断，在SEO来看，这些会其到很大的促进作用。 资源优势：对于任何项营销活动来讲，大型企业的投资预算可能会比小型企业要多的多，对于SEM来讲，他们会聘请专业的技术团队，花费大量资源建立的网站。但这些花费有时候可能反而会阻碍自己。小公司在寻找外部SEM团队更加迅速，或者从专业的SEO顾问那里获取更好的SEO建议，这些建议比某些公司从来没有SEM经验的内部人员要好的多。 对于一些大型企业花费大量资金搭建的网站，搜索引擎的蜘蛛程序可能并不是那么喜欢，因为里面用到太多的技术，一个多年前端开发的技术人员精心设计的网页，可能还不比如一个简单的开源程序由于与SEO，因为搜索引擎更喜欢简单，清晰的设计，专业的网页设计人员可能将心思都花在如果让用户感觉美观，而 忽略了搜索引擎的蜘蛛程序。 了解企业的组织风格 还记得在大学企业管理中学过企业组织结构的先关知识，这里的组织风格与它大致相同，当您确定SEM范围时，考虑下SEM团队是如何运作的。 功能性组织：目前大多数企业组织结构可能都属于功能性的，功能性组织往往是产品数量很少，而且彼此相似，销售的同样的客户，他们的团队是按功能进行划分，比如生产和销售，可能还有专业的网络营销团队，对于这种组织来讲，SEM的最大困难是说服功能性团队之间相互配合，在传统销售时代，这些团队可能是一个个指令来负责传递，但是既然决定了SEM营销计划，就需要将他们都运作起来，这对SEM计划的顺利进行，有很大的帮助作用，而且对功能性组织来将，一场SEM培训可能包含每个团队成员，这样不仅可以节约大量的培训费用，还让他们在心理上做好了新计划的思想准备，有助于SEM计划顺利开展。 产品导向性组织：一些中型企业可能集中了很多职能部门，部分中都有生成和销售人员，他们各自负责自己部门的产品营销，不同产品可能都会用不同的网站展示，而且网站内容和构架都不相同，因为他们的产品可能面对不同的客户群体，如果产品或用户群体之间还存在某些联系，运用一套SEM计划，将这些产品和用户相互穿插，对于实施一个公司范围内容的SEM计划来讲，就会越容易成功。 对于产品和用户群体都相对独立的公司来讲，可能需要更高的协调工作，因为你可能需要将各个部门的网站管理人员都召集起来，向他们说明SEM计划将会如何改变他们的工作，可能需要很多团队对新的标准和工作程序达成一致。但对于单个产品网站范围内的SEM计划，执行起来相对公司来讲，会简单很多。 跨国和集团组织：这类组织相对复杂的多，对于跨国组织，可以根据公司以往进行的类似SEM营销活动来考虑运作，企业集团组织可能只有一个很小的站点，而且只给投资者展示，其产品展示可能在下属组成集团的个体公司网站上要详细的多，而且下属个体公司独立运作，甚至有些用户根本就没有注意到集团组织的存在。 确定自身的SEM范围 对于一个大中型企业来讲，不防在分析自己组织结构的同时，考虑下上面谈到的要点。 在考虑的同时，首先根据自己在公司的角色出发，如果你是产品经理，可能最好的范围就是自己的产品，但你可以说服某个主管，那么，组织范围可能你就应该更加重视；如果你是网站管理员，那么，可以向你的直属领导提出你的创意，对于大型公司来说，如果范围太大，实施的难度也就越大，而且一圈审核下来，浪费的时间也就越多，如果不能在大范围实施SEM计划，选择小范围的SEM计划可能更加实际，因为如果SEM带来了一些成果，可以将这些成功分享给公司的其他部门甚至整个公司。 如果你是小型企业，对于这样的决定可能不会花费太多的时间，可能你更原意花费更多的投资来实施SEM计划，但这些需要建立在自身优势的情况下，目前你可能最需要的是销售产品而并非树立品牌文化。 建议你非常认真的考虑自己的情况，不管上面缩写的普遍性如何，你的公司和其他的不一样，你可能更加原因尝试一些新的事务，而且付费营销（百度竞价）也可以尝试，仔细考虑你的情况，为公司选择最合适的SEM计划范围。]]></description>
		<wfw:commentRss>http://scseoer.com/sem-fanwei.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>百度站长平台中的 Sitemap 工具</title>
		<link>http://scseoer.com/baidu-zhanzhang-sitemap.html</link>
		<comments>http://scseoer.com/baidu-zhanzhang-sitemap.html#comments</comments>
		<pubDate>Sat, 29 Oct 2011 04:12:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站地图]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2172</guid>
		<description><![CDATA[百度站长平台内侧很久时间了，目前还是需要邀请码才能使用 Sitemap 工具，使用过谷歌站长管理员工具的SEO同行都清楚，我们可以通过站长工具向谷歌提交网站地图，如果网站本身的内容不存在任何问题，那么，提交网站地图后，对网站收录以及收录量的提高是有帮助的，特别是对于新站而且又很懒站长来讲，想让网页被收录，这样的方式毕竟是相对简单的。 关于百度站长平台 百度站长平台是一个服务于百度网页收录的数据提交平台。借助百度站长平台，我们可以： 向百度推送您网站希望被百度收录的数据； 在一定程度上减轻抓取产生的额外负担； 网页更容易被百度发现和抓取，新增及删除的数据能更快被百度了解； 还可查看数据的详细统计等其它附加功能。 百度站长平台中的 Sitemap 工具 百度的 Sitemap 提交目前需要邀请码才能进入，进入后可以提交自己的网站地图，在提交之前和谷歌网站管理员工具一样的，需要对网站进行验证，验证方式有文件验证和 html 标签验证，验证成功后就向百度提交数据，数据提交后会看见提交的网站地图中包含的URL数量，并且有一个对提交文件的审核阶段。 百度站长工具中的 sitemap 提交截图 百度站长工具的网站验证截图 成功提交网站地图截图 百度站长工具的XML网站地图格式为： &#60;?xml version=”1.0&#8243; encoding=”UTF-8&#8243;?&#62; &#60;urlset&#62; &#60;url&#62; &#60;loc&#62;http://www.example.com/&#60;/loc&#62; &#60;lastmod&#62;2010-01-01&#60;/lastmod&#62; &#60;changefreq&#62;always&#60;/changefreq&#62; &#60;priority&#62;1.0&#60;/priority&#62; &#60;/url&#62; &#60;/urlset&#62; 文本文件的 sitemap 地图 另外可以想百度提交文本文件的地图文件，此文本文件需要遵循以下指南： 文本文件每行都必须有一个网址。网址中不能有换行。 您必须指定完整的网址，包括 http。 每个文本文件最多可包含 50,000 个网址，并且 应小于10MB（10,485,760字节）。如果网站所包含的网址超过 50,000 个，则可将列表分割成多个文本文件，然后分别添加每个文件。 文本文件需使用 UTF-8 编码或GBK编码。 文本文件不应包含网址列表以外的任何信息。 向百度提交数据删除请求 如果您的网站有不想被百度访问或者过期的内容，可以通过网址删除来请求删除这些网址。添加删除数据时，请先在已添加sitemap数据列表中将该数据删除，然后在网址删除中将该数据提交。设置网址删除后，百度将不在搜索结果中显示您删除的数据。 提交需要删除的网址后，需要做如下处理，才能从百度搜索结果中成功去除： 使用robots.txt阻止其被抓取； [...]]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-zhanzhang-sitemap.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>Bert-G：做SEO还不如做人</title>
		<link>http://scseoer.com/bert-g-seo.html</link>
		<comments>http://scseoer.com/bert-g-seo.html#comments</comments>
		<pubDate>Thu, 27 Oct 2011 13:49:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[重庆SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2159</guid>
		<description><![CDATA[作者介绍：Bert-G，一个爱好SEO的重庆人。 文章的题目才是文章的生存力，你看完这篇文章后感触很深，看不懂看两遍，我不会把浅显的道理写出来，需要你们去领悟，授人以鱼不如授人以渔！ 跟我合租的兄弟比我几个月，别看个头不高，但人家年纪轻轻就是一家大型国有企业的人力资源经理，这可不是吹，是人家的确有这个实力！ 我们每天晚上都在家做饭吃，我在家是一个很懒的人，厨艺更不用提，但是，我那兄弟不仅能做各种各样的菜，而且味道还不错，我只能惊叹自己，不仅没有地位，工资也不值一提，做事情总是拖拖拉拉，怨声载道，洗碗的时候总是嘀咕嘀咕的，这样的脏活居然然我做。 我有一次加班回来晚了，进门后，就闻到一股香味，他开玩笑的说：“再不回来，我就报警了”。一句玩笑话，已是让我疲惫的心情轻松许多，然后他再冒出一句很惊人的话：“快吃吧，菜不能在热了，快成菜渣了”。 吃饭后，他见我比较疲惫，就让我休息，自己去把碗洗了。第二天我发现厨房很整洁，所有的厨具摆放得规规矩矩，连厨房那片不大的地也拖干净了，这下使我很震惊：：一个国有企业的经理，他的为人以及谈吐从不显摆地位之高，在家里不仅把屋子收拾得干干净净，而且做菜也是很好吃，可我呢？ 为什么我会计较我比他多做？我在公司的地位不高，就是因为我太爱计较得与失，老板交代的事情没完成，总觉得世界对自己不公平，这到底是为什么？ 我清楚的知道，我现在比他落后了很多，要是我不采取措施弥补，我这辈子都跟不上他的脚步，永远都只能在他的脚下生活，我不能成为这样的男人，因为女人不会喜欢这样的男人，我需要上进，需要不断的充实自己，不断的更新自己的大脑，我在低位方面赶不上你，但是，谁会相信我还会在其他方面输给你呢？我现在需要的是付出我拥有的，我年轻，我热情，有干劲，我就全部释放出来，抢着做事情，不管是在家里还是在公司，人家一定会给你更高的评价，你已经从心里征服他，难道，赢得男人的尊严还遥远吗？ 从那以后，我不会计较比他多做的事情，也不抱怨上天的不公平，因为我知道我比他差很多，我唯一能做的就是：“做事情”，抢在他之前做事情，比如：回家后就开始做饭，我也不会因为我的厨艺不好而不敢进厨房，我会在一旁帮助他，偶尔学点厨艺方面的东西！吃饭后，我总是不卑不亢的收拾碗筷，他走进厨房想帮忙，我幽默的说：“王总，给我一个锻炼的机会”。有时候他也会误会我，但，我也不会反驳，只能虚心的受教，这也是锻炼我的承载心里，当然曾经我也误会过他。 他最后送我一句话：能从你做小事情的态度，看得出你的未来！ 从这个故事分析得到一个惊天大道理：为什么大家在做SEO的过程中，友情链接总是希望对方网站pr以及权重高于自己的？why？ 这跟我刚才讲的那个故事息息相关，我们都希望跟高层次，有道德，有文化的人的生活在一起，因为他们的一言一行会影响我们，会让我们得到新的启发，如果没有，说明你领悟能力欠“SEO优化”，你懂的！ “一个当官，鸡犬升天” 举例：假如一个跟你同主题的高权重网站给你一个锚文本连接，你的网站一定会得到搜索引擎另眼相待，你肯定很高兴，因为你的网站在搜索引擎更新的时候得到质的飞跃，你也知道是为什么？ 综上所述，做SEO还不如做人！你认为呢？ 版权注明：该文章为 Bert-G 原创文章，作者博客：www.web167.com]]></description>
		<wfw:commentRss>http://scseoer.com/bert-g-seo.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>222.77.187.33与百度蜘蛛(BaiDu Spider)IP</title>
		<link>http://scseoer.com/baidu-spider-222-77-187-33.html</link>
		<comments>http://scseoer.com/baidu-spider-222-77-187-33.html#comments</comments>
		<pubDate>Wed, 26 Oct 2011 06:07:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[百度蜘蛛]]></category>
		<category><![CDATA[网站日志]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2152</guid>
		<description><![CDATA[在经常分析网站日志文件的时候，总会发现百度蜘蛛（BaiDu Spider）IP中出现222.77.187.33，经查询，该IP是位于福建省福州市电信IP，而百度蜘蛛IP是位于北京的联通IP。在分析该IP的抓取行为时候发现，该IP只抓取网页首页，经查询，该IP为站长工具的一个友情链接检测程序，该程序默认模拟百度蜘蛛程序抓取页面。 站长工具的友情链接检测界面 该工具域名“link.chinaz.com”对应的IP为“222.77.187.33”，位于福建省福州市。 百度蜘蛛IP（根据网站日志文件统计） 123.125.71.* Baiduspider/2.0（百度网页爬虫），也包括 Baiduspider-image（百度图片爬虫） 61.135.186.*  Baiduspider-cpro（百度联盟爬虫） 百度蜘蛛IP出现伪装IP的影响 分析网站日志文件是必不可少的工作，因为网站日志中记录着详细的数据，这些数据包括搜索引擎爬虫数据、服务器运行、用户浏览行为数据等等，对这些数据的分析，可以比较全面的掌握网站的情况。 对与SEO工作，针对性分析搜索引擎的爬虫数据，有助于了解这些蜘蛛的爬行习惯，进一步改进网站。 面对互联网数以亿计的网页数据，搜索引擎为了增加提高自身爬虫的工作效率果，往往会使用多个IP或同一IP下的多个蜘蛛程序进行抓取工作，但如果这些IP段或者蜘蛛程序存在伪装，必然会影响SEO人员对搜索引擎蜘蛛程序行为分析的判断结果，从而可能会影响SEO决策。 何况这次伪装的是百度蜘蛛的IP地址，抓取数量也比较多，造成的影响会更加严重，经过查询，很多SEO人员在网络上询问： 为什么百度蜘蛛总是抓取的网站首页？ 为什么百度蜘蛛总是抓取而不是收录我的网站？ 类似以上的问题在网络上很多，这些对于结果，对SEO人员的判断和工作都会造成很大的影响。 如何判断Baiduspider的真假？ 对于百度真假爬虫的判断，在百度站长俱乐部还百度搜索帮助中心都可以找到相应答案： Baiduspider ip的hostname以 *.baidu.com的格式命名，非 *.baidu.com即为冒充，建议您使用DNS反查方式来确定抓取来源的ip是否属于百度。 例如，在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。 $ host 123.125.66.120 120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com. 在windows平台下，可以用nslookup命令反解ip来判断是否来自Baiduspider的抓取。 点击“开始”-“运行”-“cmd”-“输入nslookup IP地址”-“回车” C:\Documents and Settings\wangtao&#62;nslookup 123.125.66.120 Name: baiduspider-123-125-66-120.crawl.baidu.com Address: 123.125.66.120]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-spider-222-77-187-33.html/feed</wfw:commentRss>
		<slash:comments>24</slash:comments>
		</item>
		<item>
		<title>对与SEO服务 别再提排名第一的要求</title>
		<link>http://scseoer.com/seofuwu-diyi.html</link>
		<comments>http://scseoer.com/seofuwu-diyi.html#comments</comments>
		<pubDate>Sun, 23 Oct 2011 09:08:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[关键词]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2139</guid>
		<description><![CDATA[每天都会一些需要关键词排名的客户咨询，非常高兴你们对何清勇的信任，大多数客户还是非常容易沟通的，因为他们对SEO比较了解，非常感谢那些一直支持我的客户，但对于一些客户咨询，刚刚开始就直接问：“把XXX关键词做到第一”，这让我们不知道如何与之沟通，所以，一些咨询问题我还是需要先把它说出来，以便在以后与客户更好的沟通。 我想过滤掉那些一开始就要求我把关键词做到第一的客户咨询，我相信除了像拥有20多年的SEO牛人迈克·摩尔以外，没有几个可以控制搜索引擎的排序结果，况且那些发生在谷歌搜索引擎，对于中文搜索引擎的百度，你的要求的关键词排名第一，建议你直接使用百度竞价，如果你想接受SEO优化或者SEO顾问服务，希望你对SEO有一定的认识与了解以后再寻求这些服务，虽然目前我们一些客户的关键词排名比较优秀，但是在起初，我们也不会向他保证这个效果。目前在百度搜索引擎，还没有那个SEO牛人可以保证说我可以让那个关键词可以排名第一。 为什么不能保证关键词做到排名第一 没有人知道排名算法：这点其实很简单，百度作为国内最大的商业搜索引擎，他有自己的一套搜索排名算法，每天上千名工程师在为之努力，我们对搜索引擎的了解还很少很少，正如前阿里巴巴国平大哥所说，对于针对某个搜索引擎的SEO工作，首先要了解这 个平台内部是如何运作的。所以要知道其算法细节是根本不可能的事情，就算百度内部工程师都不晓得，何况是外部的一个SEO人员，我们只有通过数据分析和经验来实施，让客户网站尽量避免一些问题。 SEO需要时间来验证：对于有一定经验的SEO人员，一般是通过网站日志数据分析，再根据自己的经验来实施SEO操作，这对于客户来说，在一定程度上可以节约大量的时间和人力成本，这也是为什么现在很多企业对SEO外包服务的需求越来越大的原因，但是目前SEO接单人员一般都是在建立数据和经验的基础上进行操作的，我们可以判断SEO效果的大致时间，就算一个月可以成功的网站，我们也不会向客户保证一个月，因为承诺意味着责任，我们应该给客户承诺一些100%可以实现的东西，也可以给客户看一些成功案例，因为最终的SEO效果是看的见的，我们要给搜索引擎留时间，给客户有关网站的营销活动计划留时间，给自己留时间，很多计划提前实施对延迟要好的多。 SEO更需要执行力：对于全套的SEO服务，可能全部都我们这边控制，但对SEO顾问这样的服务，策略与执行是不同的团队执行，其效果主要的还得看执行力，同样的方案，让不同的客户团队执行，其效果相差还是很大的，这段时间的一个客户，就单纯的站内优化，就进行了大致半个月时间了，本来最迟3天就完成的任务，时间和执行上的延迟，使得SEO出效果的时间变得更长，客户对时间上的要求比SEO人员要求更高。 SEO关注更多的是转换率：SEO虽然是从搜索引擎获取更多优质的流量，有了这些流量，应该更注重网页的用户体验，特别是一些重要的登陆页面，对于每个客户来说，转化率比流量更重要，这也需要时间，用户行为与关键词排名相互补充，一个关键词排名第一的网页，如果该页面不能满足用户需求，会很快被竞争对手挤下去。 很多时候我们关注更多的是网站运营，这和SEO并没有冲突，从客户角度来讲，拥有关键词排名就好像在搜索引擎有了一条广告横幅一样，这样的广告展示率虽然很大，但是如果最终没有几个转换为自己的客户，那广告费用的支出似乎真的有点浪费。]]></description>
		<wfw:commentRss>http://scseoer.com/seofuwu-diyi.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>站内优化需要注意的5个方面</title>
		<link>http://scseoer.com/zhannei-youhua.html</link>
		<comments>http://scseoer.com/zhannei-youhua.html#comments</comments>
		<pubDate>Sat, 22 Oct 2011 16:15:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[性能优化]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[网页内容]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2134</guid>
		<description><![CDATA[如果真的要给SEO分个类别，可以分站内SEO优化和站外SEO优化两种，站外优化简单的讲就是如何推广你的网站，在SEO中经常说到做外部链接，就可以理解为对网站进行站外SEO优化，站内优化不仅仅是做内部链接这么简单，那么，站内优化需要做那些呢？ 通俗的讲，站内优化更像是在做一个更加标准、更让用户喜欢的网页，从这个角度出发去思考，就可以得到站内优化需要做的一些东西。 网页代码的标准化 由于蜘蛛程序对网页代码的要求较高，但网页代码的标准化不仅仅为蜘蛛程序而做，因为你面对的可能更多的使用不同浏览器的用户，保证网页在每个浏览器都能正常显示，相对于应付蜘蛛程序来讲，为不同用户正常显示网页变得更加重要。 除了解决浏览器的兼容性外，让搜索引擎如实的了解网页内容也需要将网页代码标准化，比如： 将flash视频文件融入html代码中； 给图片加上alt标签； 对截断显示的标题添加title属性； 对重要JS文件添加&#60;noscript&#62;标签。 等等上面操作，都是在对网页代码标准化，其实前面介绍的消除7个蜘蛛陷阱和突出网页的重要内容两篇文章其实都在讲站内优化。 网页的性能优化 任何一个网页的性能好坏，除了网页载入速度，增加网页跳出率，降低登陆页面的转化率，另外也会影响基本的网站收录问题，网页的性能改善涉及到很多因素，比如对多个CSS和JS文件进行合并处理、使用CSS Sprite技术等等，对这在网页性能优化那篇文章介绍的非常详细。 调整网站的结构 如果从SEO的角度考虑，建议将网站的结构调整为扁平的树形网状结构，分为逻辑上和物理上的结构，这在谷歌网站站长指南中的网页设计中有体现到。 很对时候网站主只关注自己的首页，网站就等同与首页，其实网站中还有很多重要页面，比如网站介绍、产品或服务介绍、客户须知的网页等等，优秀的网站结构不仅仅会让用户更容易记忆你的网址（与首页URL地址分开），还有利于搜索引擎了解整个网站的框架就，对于链接的权重值传递，也有一定优势。 如果你正准备建立你的的网站，那么，你可以事先要求SEO人员注意网站结构，但是往往很多时候网站已经在运行了，而且还有一部分固定用户，这时候可以在逻辑结构上适当调整，不用大动干戈的去修改物理结构。再如果你已经在着手修改了，请注意需要将旧URL进行301重定向到修改后的URL上面，这样不仅可以让访问旧URL的用户转移到新的URL上面，也可以让搜索引擎将旧URL上面的权重转移过来，这样可以在一定程度上减少用户流失，也可以保留旧URL的权重值。你的网站优秀的404错误页面，可以进一步增加这次操作的成功率。 URL的规范化 在谷歌网站站长帮助文件中，提到对网页的URL地址进行规范化，以至于不会出现同一个网页内容可以用两个或更多的URL访问，URL规范化有助于更好地控制您的网址在搜索结果中的显示方式以及加强属性，所以在SEO工作中建议URL标准化。 为用户构造网页内容 在正规的网页中，内容编辑是为用户而不是搜索引擎，优质的网页内容有助于外部网站链向你的网页，谷歌网站站长帮助文件中的“吸引链接到你的网站”就对网页内容有明确的要求。这里不是说一定就要写原创文章，伪原创或者转载都没有关系，关键是你的用户是否喜欢你的内容。用户行为权重值在目前搜索引擎所占的比重已经相对提高，还记得夫唯老师说过：“网站的基业长青来源于优质的内容”。所以为用户构建优质的内容，也是站内SEO优化必须做，而且是很关键的一步。 除了上面提到的5个重要站内优化步骤外，robots.txt文件也非常重要，另外蜘蛛通道，蜘蛛程序的有效控制等等操作也是非常重要，这些东西在以前的文章中都有详细的介绍。]]></description>
		<wfw:commentRss>http://scseoer.com/zhannei-youhua.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>避免被搜索引擎忽略掉重要内容</title>
		<link>http://scseoer.com/hulue-zhongyao-neirong.html</link>
		<comments>http://scseoer.com/hulue-zhongyao-neirong.html#comments</comments>
		<pubDate>Fri, 21 Oct 2011 13:53:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网站收录]]></category>
		<category><![CDATA[网页代码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2129</guid>
		<description><![CDATA[如果你已经消除了蜘蛛陷阱，那么，搜索引擎蜘蛛程序可以正常的爬行网页了，那么，还需要注意的是，蜘蛛程序在爬行网页的时候，为了节约服务器资源，保证高效的运行效率，他可能会忽略掉网页中一些内容，我们尽量要避免蜘蛛程序忽略掉网页的重要内容，为了更好的进行SEO工作，你可能需要对网页进行一些必要的改进。 精简网页 蜘蛛程序不太喜欢爬行太过于臃肿的网页，为了保持自身的高效率运行，蜘蛛程序花同样的时间可能会爬取更多精简的网页，每个蜘蛛程序都有自己的限制程序，太大的网页可能会导致不能完全爬行，甚至根本不去爬行这些网页。 当然，目前使用&#60;table&#62;&#60;/table&#62;布局的已经很少，一般情况下，导致网页体积变大的原因都是由于JS代码太多引起的，要解决这样的问题，应该把JS代码从网页转移到一个外部JS文件，这样蜘蛛程序将不会去爬行它，而且网页界面不受任何影响，从而达到精简网页的目的。 扩展阅读：网页性能优化 验证 HTML 的正确性 当用户在浏览我们网页的时候，可能很少看见错误信息，这样看起来网页的 HTML 好像没有什么问题，但目前的浏览器，特别是IE浏览器，其设计的思想高质量的显示网页，尽量不让用户发现网页上的问题，因此，浏览器是可能容忍 HTML 编码错误的。但是，作为进行SEO优化的网页，面对的不仅仅是用户，还有蜘蛛程序，蜘蛛程序不想浏览器那样，任何错误的编码都可能会向蜘蛛程序提供错误的信息。 由于目前很多个人站长都采用 CMS 程序来建站，在编辑模板文件和购买模板的时候，一定要注意起 HTML 代码的正确性，大多错误都发生在标签的写法上，比如最近一个客户的网页统计代码未封口，在网站上线前或者注意到问题的时候，可以用检测工具（www.w3.org）检查下网页代码是否正确，避免这些小失误有助于蜘蛛程序更好的读取数据网页数据。 FLASH 中避免包含重要链接信息 FLASH 网站的确比常规的 HTML 更吸引用户眼球，其用户体验自然也好的多，但是搜素引擎并不能想用户一样去浏览 FLASH ，无法确定 FLASH 里面包含的内容，而存在与 FLASH 里面的重要链接信息（比如导航）也自然不会被蜘蛛程序捕捉到（谷歌貌似能读懂 FLASH ）。这里也并不是说网页中就一定不能使用 FLASH ，因为 FLASH 对提升用户体验的效果我们是肯定，那么，我们只要尽量保证 FLASH 中内容不会包含重要的链接信息，对于网页中存在 FLASH 的网页，可以参考以前分享的“FLASH网站SEO策略”。 避免使用 FRAMES 框架 由于蜘蛛程序会话费很多时间来解读基于 frames 框架的网页，使得目前搜索引擎开始考虑放弃蜘蛛程序对 frames 内容的爬行，这在百度SEO指南中有明确说明，对于使用 frames 的网页，可以借助&#60;noframes&#62;标签将&#60;frames&#62;框架中的重要内容提取出来，这样有助于蜘蛛程序了解框架结构中的重要内容。]]></description>
		<wfw:commentRss>http://scseoer.com/hulue-zhongyao-neirong.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>影响SEO的7个蜘蛛陷阱</title>
		<link>http://scseoer.com/seo-zhizhu-xianjing.html</link>
		<comments>http://scseoer.com/seo-zhizhu-xianjing.html#comments</comments>
		<pubDate>Tue, 18 Oct 2011 16:06:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[蜘蛛程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2118</guid>
		<description><![CDATA[在SEO工作中，网页被收录是基础工作，但对于搜索引擎来讲，极少情况会100%收录你网站的所有网页，搜索引擎的爬虫程序设计的再精巧，也难以逾越所谓的蜘蛛陷阱（蜘蛛陷进）。 蜘蛛陷阱是组织蜘蛛程序爬行网站的障碍物，通常是那些显示网页的技术方法，目前很多浏览器在设计的时候考虑过这些因素，所以可能网页界面看起来非常正常，但这些蜘蛛陷阱会对蜘蛛程序赞成障碍，如果消除这些蜘蛛陷阱，可以是蜘蛛程序收录更多的网页。 很对蜘蛛陷阱都是先进的技术方法，开发成本相对也较大，但是这些的确会影响搜索引擎对你网站的了解，甚至还可能被整个网站都不被搜索引擎收录，那么，当务之急，是消除这些蜘蛛陷阱，让搜索引擎收录你的更多网页，这才将有利于你的SEM营销计划的开展。 一、注意robots文件正确书写 robots.txt 文件看似一个简单的文本文件，放在网站的根目录下面，但它可以告诉搜索引擎的蜘蛛程序在服务器上的那些文件是可以被查看的，那些文件是私人文件将不被查看。 1、User agent（用户代理）：User agent 定义了下面的禁止命令使用于那个蜘蛛程序，如果对 User agent 定义为星号（*），则表示针对所有的蜘蛛程序。 User-agent: Baiduspider （百度蜘蛛） Disallow: / User-agent: * （所有蜘蛛） Disallow: / 2、Disallow（禁止）：禁止指明了具体那个文件蜘蛛程序不能查看，可以指定精确的文件名或者任意文件，甚至是目录名的一部分，比如： User-agent: * （所有蜘蛛） Disallow: /（所有文件被禁止查看） User-agent: Baiduspider （百度蜘蛛） Disallow: /admin （根目录下任何以admin开头的目录和文件） User-agent: * （所有蜘蛛） Disallow: /admin/（admin目录和该目录下的任何文件） 意外的失误对网站带来的影响很普遍，在网站上线之前可能会对整个网站暂时屏蔽，但上线以后往往忙于其他事情而忘记该文件的更正，导致网站不能正常被搜索引擎收录。 除了robots.txt文件外，还应该注意元标记也可能会导致同样的问题，但这类情况往往很少。 二、消除弹窗 虽然弹窗（弹出窗口）很吸引眼球，但大多数用户都不喜欢它，因为这些“小广告”是强制展示给用户的，可能用户正在认真浏览他感兴趣的信息，这时候弹到用户面前，感受可想而知。 如果使用弹窗来显示一些补充和重要内容，最好在网站地图或者其他正常网页上给这些页面做上链接，不然可能或导致这些页面的无法正常收录。 三、避免使用JS下拉菜单 蜘蛛程序对JS的理解还不深入，一些在JS存在的链接可能无法被蜘蛛程序捕捉到，而往往菜单中的链接又是很重要的，所以使用JS下拉菜单的网页最好使用html重新这些链接。 除了用html代码，还可以使用&#60;noscript&#62;来使这些重要链接被正常捕捉，因为一些旧的浏览器不支持 JavaScript，或者一些用户禁用了浏览器的这些功能，这样会导致不能执行网页上的JavaScript代码，如果下拉菜单需要 JavaScript，那么，在不支持或者禁用了的浏览中，下拉菜单将不会被正常显示。 在使用&#60;noscript&#62;标签的时候，注意&#60;noscript&#62;标签中的html代码中的每个链接最好使用绝对地址。另外在网页地图中也加上这些网页的链接，可以更好的保证蜘蛛程序发现他们。 四、简化动态网址 动态网址是指html代码没有永久性的储存在网站服务器文件中的网页，用户看见的页面是网站程序实时创建了html。 由于动态网址中可能包含多个参数（比如“&#38;”），这些参数给蜘蛛程序造成了障碍，因为任何值都能够传给变量，蜘蛛无法知道对于同一个网页到底能够显示多少个不同版本，有时候传递个每个参数的不同值表明了这些网页之间的差别，但这些值与显示的网页没有任何联系。有时候被用来记录用户行为的跟踪代码，这样的网页如果被蜘蛛程序捕捉到，那么，一个蜘蛛程序可能会看同一个网页很多遍，这样大大浪费了蜘蛛程序的时间（利用这些时间可能会查看更多有用的网页），而且会导致大量重复的网站被收录。 随着动态网址越来越多，搜索引擎也对蜘蛛程序进行了升级，目前对于动态网址，蜘蛛程序可能做到： [...]]]></description>
		<wfw:commentRss>http://scseoer.com/seo-zhizhu-xianjing.html/feed</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>网站跳出率高的四个原因</title>
		<link>http://scseoer.com/tiaochulv-4.html</link>
		<comments>http://scseoer.com/tiaochulv-4.html#comments</comments>
		<pubDate>Fri, 14 Oct 2011 02:12:56 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[用户体验]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[调出率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2097</guid>
		<description><![CDATA[网站跳出率是指在访问您的网站时只浏览了一个网页的访问者所占的百分比。跳出率高的原因有很多种。例如，用户可能因为网站的设计或可用性问题在入口页就离开您的网站。或者因为某些非常具体的理由，导致网站上某些网站跳出率高。以下四个原因可能会导致高跳出率。 一、单页网站跳出率往往较高 如果您的网站只有一个网页（如博客），网页统计工具不会记录多次浏览，除非用户重新载入该网页。因此，单页网站的跳出率通常较高。 二、统计代码出错 如果您的网站拥有多个网页，但跳出率仍然较高，那么就需要查看是否为所有的网页添加了统计代码。您可以使用 Google Analytics 分析的网站扫描工具来验证您网站的所有网页是否都包含了跟踪代码。 三、网站设计问题到底高跳出率 如果您的所有网页都包含统计代码，但跳出率仍然较高，可以考虑： 重新设计入口页（登陆页面或目标网页） 对这些网页进行优化，提高网页与关键词、投放的广告或购买的关键字的相关性（SEO或付费推广） 更改广告或关键字，更好地反应网页内容（付费推广） 四、用户的行为 其他因素可能完全取决于用户行为。例如，如果网站主或用户在网站上的某个网页建立书签，访问该网页并离开，那么系统会将此行为视为跳出。]]></description>
		<wfw:commentRss>http://scseoer.com/tiaochulv-4.html/feed</wfw:commentRss>
		<slash:comments>30</slash:comments>
		</item>
		<item>
		<title>如何写博客才能吸引用户</title>
		<link>http://scseoer.com/boke-yonghu.html</link>
		<comments>http://scseoer.com/boke-yonghu.html#comments</comments>
		<pubDate>Thu, 13 Oct 2011 10:35:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2094</guid>
		<description><![CDATA[如果您有网站但没有博客，请考虑创建一个博客，撰写博客是与志趣相投的人进行联系的绝佳方式，也是推广您网站或产品的极好途径。博客的创建和更新非常方便，丰富实用的原创博客内容会吸引读者经常访问您的博客。以下是充分发挥博客作用的一些窍门。 为博客撰写精彩的内容 文笔流畅，并要经常更新：网站的内容实用而有趣是优质博客的必备条件，而经常更新的博客更容易吸引读者光顾。与其每天都发布蹩脚内容，还不如每周发表一篇精彩的博文。建议通过搜索引擎搜索熟悉领域中感兴趣的主题。如果找不到合适的结果，可以自己写一篇关于该主题的博文，别人很可能也在搜索同样的内容。 遵守网站站长指南：与任何其他网站一样，请务必遵循谷歌和百度的SEO指南，创建丰富、相关且实用的内容。同样，也请参考搜索引擎关于使用图片、Flash 和其他富媒体的建议。 对您发表的博文进行分类：借助标签和标记可以有效地组织您的内容，还可吸引读者来浏览您的博客。 确保用户（和抓取工具）可以很容易地找到您的博客：建议在主页及网站其他主要网页上有指向博客的醒目链接。可以考虑将博客放在您定期更新的网站上。 注意垃圾评论：在博客中启用评论功能，有助于营造出社区和论坛的感觉。遗憾的是，一些垃圾邮件发送者使用评论功能在网站中大肆散布垃圾留言。如果遇到这种情况，可参考如何减少垃圾评论。 正确对待联属网站：建议采用原创内容创建网站，以使其对用户更有价值。 确保用户和抓取工具能够找到您的内容 为每篇博文起一个描述性标题：标题会让用户获得更好的体验。此外，博文标题通常还用于为每篇博文创建一个唯一网址，从而可以为搜索引擎提供有关页面内容的宝贵信息。 与博客的在线社区相连：几乎可以肯定，如果网上有很多博主在谈论你博客所涉及的主题的时候。访问这些博客，对博文发表评论并参与讨论。在与博客的主题相关的网络论坛上发表看法。注意一定要言之有物：深思熟虑、内容翔实的评论会使读者更喜欢访问您的网站。 发布博客的内容供稿：建议发布自己博客的内容供稿，这样每当更新博客时用户均可得到通知。通常您可以在博客软件中通过进行设置来实现此功能。大多数服务都会提供发布全文供稿（用户可以在其 RSS 阅读器中阅读您的文章的全部内容）或节选供稿（用户可以在其阅读器中查看有趣段落，但必须要到您的网站才能阅读全文）选项。内容丰富而全面的供稿会让用户满意，因为用户查看文章内容时非常轻松。尽管这样在短期内会使您的博客的实际访问量有所下降，但从长远看，读者群的扩大和读者关注度的提高足以弥补访问量的短期下降。最后请切记，定期订阅者比偶尔前来的访问者更有价值。 必要的优化技巧 除了一些对网页进行一些基础的SEO技巧外，可以将博客添加到谷歌网站站长工具中，向谷歌提交网站地图。 文章来自：谷歌网站站长帮助中心 原文地址：http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&#38;topic=15260&#38;answer=70950]]></description>
		<wfw:commentRss>http://scseoer.com/boke-yonghu.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>让SEO回归简单的营销思路</title>
		<link>http://scseoer.com/seo-yingxiao.html</link>
		<comments>http://scseoer.com/seo-yingxiao.html#comments</comments>
		<pubDate>Wed, 12 Oct 2011 15:53:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[营销]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2083</guid>
		<description><![CDATA[在刚刚认识SEO的时候，觉得SEO是一项技术行很强的工作，比如在标题和页面堆砌下关键词，在网页底部做一大堆关键词链接，不在网页上搞点什么动作，就觉得有点对不住搜索引擎，当然不能否定这样做就完全错误，目前这样做的网站，关键词好的多的是，如果把网页打印出来让你阅读，我相信能够认真听你读完的，绝对不是你的用户。 以前说过网络推广与网络营销，其中SEO只是网络推广中很多方式之一，其最终是为了营销服务，SEO的中文意思是搜索引擎优化，获取网页流量，从流量中筛选用户的平台是搜索引擎，那么，除了搜索引擎可以给你带来用户外，网络营销还有很多平台可以操作，说不定其他平台的流量比搜素引擎来的更有价值。 相信对以前从事线下的销售人员来说，更容易找到自己的潜在用户，如果让他们从线下搬到线上，他们需找客户的速度相信会比现在的SEO人员更专业，而目前很多所谓的SEO，还整天在需求外链资源，说到底，还是不懂用户。一个不懂用户的SEO人员，对网页转换率的提高，帮助不大。 对于负责产品生产或研发部门来讲，他们的工作是如何向用户提供合格的产品、如何研发更多对用户实用的功能，这对于网页内部优化来讲，不谋而合，只要你的内容对用户有用，原创或者伪原创就没有什么区别了，国产和仿品的市场目前仍然很好。对于用户来讲，产品满意，自然会有良好的口碑，这点在谷歌在网站站长帮助中心也多次提到： 吸引用户链接到您网站的关键在于创建独特而富有吸引力的内容，能够激发其他用户对您网站的兴趣。 说到底，SEO只是一项网络推广方式，他的最终操作目的是借助搜索引擎，向用户展示我们的服务或产品信息，至于向用户展示多少、整个过程的操作方式，还得以用户为中心。]]></description>
		<wfw:commentRss>http://scseoer.com/seo-yingxiao.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>谷歌成功秘诀：将用户利益放在首位</title>
		<link>http://scseoer.com/google-yonghuliyi.html</link>
		<comments>http://scseoer.com/google-yonghuliyi.html#comments</comments>
		<pubDate>Mon, 10 Oct 2011 04:33:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2064</guid>
		<description><![CDATA[对于全球性搜索引擎的谷歌来讲，一路走来，并且长期高居搜索引擎之首，面对反垄断调查早已经成为家常便饭，这次，谷歌面对FTC的调查，谷歌正在全力配合。 其实，谷歌公司在很多领域都面临激烈的竞争，但仍然在很多行业积极创新，并且秉承开放的理念，方便用户访问与之竞争的服务。针对这次FTC的调查，Google执行董事长埃里克·施密特表示，主要还是竞争对手的投诉，而且施密特也表示：“希望调查过程能以有针对性且公平的方式展开，方便我们继续创造就业岗位，并开发令用户满意的产品。” 施密特表示，Google的成功源于该公司将用户利益放在首位。“我们一直在投资和创新。”他写道，“如果Google在这方面做得不好，用户就会转用其他服务。转用其他服务的成本是零，而且用户可以通过其他渠道寻找他们想要的信息，他们也的确在这么做。” 施密特强调，Google的搜索和广告市场帮助全美数十万家小企业展开了640亿美元的经济活动。他还列举了一长串竞争对手，包括微软必应、旅行网站Expedia和Travelocity、商户点评网站Yelp、购物网站亚马逊和eBay以及社交网络Facebook。“用户的确有很多获取信息的选择。”他说。 具体到Google面临的反垄断调查，施密特称：“多数的投诉都来自那些对自己在Google搜索结果中的排名不满的企业。还有一些投诉认为，通过地图、购物或本地化结果提供更好答案的做法会对个别网站造成冲击。” 谷歌让站长变得更加智慧 作为谷歌用户之一的站长来将，谷歌的一系列产品（搜索、站长帮助中心、论坛、谷歌分析）的不断改进，可以说明谷歌的每项改善，都是以用户为中心，将用户需求或者说用户利益放在首位的，这也是本人一直非常喜欢谷歌的根本原因。]]></description>
		<wfw:commentRss>http://scseoer.com/google-yonghuliyi.html/feed</wfw:commentRss>
		<slash:comments>31</slash:comments>
		</item>
		<item>
		<title>用户行为与搜索结果质量</title>
		<link>http://scseoer.com/user-behavior-search-results-quality.html</link>
		<comments>http://scseoer.com/user-behavior-search-results-quality.html#comments</comments>
		<pubDate>Wed, 21 Sep 2011 15:55:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2041</guid>
		<description><![CDATA[对于搜索引擎，用户行为数据的检测、统计与运用一直在进行，随着前段时间的谷歌搜索结果中的+1按钮、搜搜分享按钮，近期的百度知道推荐按钮的推出，搜索引擎已经将用户行为运用到自己的搜索结果当中，对于搜索引擎自身来讲，这无疑是更加精确的用户行为数据统计，由用户推荐而改善的搜索结果，无疑是最有利于用户体验的，这也说明了用户评价值对一个网页的重要性，在后期，用户行为极有可能成为影响搜索结果众多因素中重要环节。 用户行为分析 基于用户行为的启示 用户需求:目标、行为、说法 用户行为的特征及缓存的应用 用户行为与Web信息的分布特征 谷歌“+1”按钮与搜索结果质量 谷歌“+1”按钮是如何影响搜索结果的？ “+1”按钮可以帮助用户从他们熟悉和信任的朋友那里发现一些相关内容（例如网站、Google 搜索结果或广告）。用户可以通过您网页上添加的“+1”按钮推荐您的内容；这样，当他们的朋友和联系人执行搜索时，与其搜索内容相关性最强的推荐内容就会显示在相应的 Google 搜索结果中。 如果用户的社交圈朋友对您的网页“+1”，则当该用户登录 Google 并执行搜索时，相关的 Google 搜索结果摘要中就会带有这些人的名字。如果用户的社交圈朋友未对您的网页“+1”，则相关搜索结果摘要可能会显示该网页获得的“+1”总次数。 谷歌搜索结果中的+1按钮 谷歌“+1”按钮会影响网站在搜索结果中的排名吗？ 相比较陌生人推荐的内容，朋友和熟人所推荐内容的相关程度往往更高。举个例子，专业影评人提供的影评固然不错，但与您志趣相投的朋友提供的影评对您来说可能更加实用。因此，Google 在确定您的网页与用户查询之间的相关程度时，会适当地参考您的朋友和联系人发表的“+1”内容。这只是 Google 用于确定网页的相关程度和排名的多种依据之一，我们会不断地调整并完善相关算法，以便提高整体搜索质量。与所有的新排名因素一样，我们会谨慎启用“+1”并积极了解此类因素对搜索质量的影响。【查看来源】 搜搜“分享”按钮与搜索结果质量 在搜搜“大社区搜索”概念指导下，搜搜搜索对社区化数据再一次进行创新应用和尝试，首推结果页社区分享热度功能。据悉，此项功能是在网页搜索结果中，引入了“人”的因素，将URL被网友分享的次数展示出来。一定程度上，能够帮助用户判断URL是否优质。在同类信息繁多的情况下，可作为用户优先浏览阅读信息的一个重要的参考。 搜搜搜索结果中的“分享”按钮 搜搜搜索分享数还只是基于Qzone用户和腾讯微博用户的热度统计。业内人士猜测，随着搜搜社区化搜索的发展进程，未来，搜搜将会整合更多的社区数据。届时，搜索结果的分享热度功能将更加完善，可以为用户提供更加客观、公正的判断依据，而搜搜则很可能将其作为一种排序因子，对现有的搜索结果重新进行排序。【查看来源】 用户行为可能影响百度搜索结果质量 在今年7月份的时候，百度开放平台数据在搜索结果中增加我喜欢按钮，前段时间的百度首页高调改版，近日百度知道的百度搜索结果不间断出现“推荐”按钮，种种迹象表明，百度已经注重用户行为在搜索结果的表现，可能借助用户行为来改善自身的搜索结果排序。 百度Rank系统计划仍在默默的进行，具体那天影响到搜索结果质量，让我们这群SEO工作者拭目以待吧！【查看来源】 百度招聘rank算法工程师 写了几个小时啊，麻烦转载的朋友给加个原创地址！]]></description>
		<wfw:commentRss>http://scseoer.com/user-behavior-search-results-quality.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>影响网页收录的一些因素</title>
		<link>http://scseoer.com/effects-page-factors.html</link>
		<comments>http://scseoer.com/effects-page-factors.html#comments</comments>
		<pubDate>Mon, 19 Sep 2011 16:57:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[结构]]></category>
		<category><![CDATA[网页内容]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2032</guid>
		<description><![CDATA[网页收录问题是SEO中普遍存在的问题，而网站中网页收录量可以为除自身外的其他网页提供相关性很好的内部链接，网站收录方面的文章博客中也写过一些。 如何提高网站收录量 百度收录与敏感词汇 新站网站收录问题 网页性能优化 搜索引擎爬虫程序进入网页的方式是通过链接，抓取网页链接的方式是广度和深度，但从自身服务器的资源消耗来看，一般会考虑广度优先策略。 对于搜索引擎来讲，自身服务器中不会存在很多对于用户意义不大的网页内容，首先这样可以降低自身服务器资源的占用，另外对于搜索结果的用户体验，也有很大的帮助，所以，一些被大量转载的文章就算抓取成功（网页日志中的200代码），也会在预处理阶段被过滤。 有了以上的了解，那么，我们找到一些影响网页收录的因素： 链接逻辑结构对网页收录的影响 经常会谈到网页结构，利于SEO的网页结构是扁平的树形网状结构，其中的逻辑结构在很大程度上会给网页收录造成影响，在物理结构上，无论我们的URL层数有多少，有多深，如果在较浅的URL（网页）上面能够能够获取较深的URL网页，同样是可以被收录的，很多大型门户的URL相对都比较深，但其收录都不会收到影响，有所了解的是腾讯，非常典型的作法就是网站地图。很多网站谷歌收录的非常好（包括该博客），除了谷歌对网页质量的判断相对宽泛外，它还支持直接提交地图文章，一般是在谷歌网站站长工具中提交或者将地图文件放在robots.txt文件中用Sitemap命令来调用，当谷歌搜索引擎在抓取 robots.txt 文件的时候，会检测到其中的地图引用。以前对百度不清楚，就目前来看，百度同样可以检测到Sitemap命令中的地图引用。 除了robots.txt文件，我们可以在网页上放置地图文件，一般是将整个网站的重要目录和更新文件放入其中，这样便于对新网页的收录。 上面主要是从搜索引擎广度策略来建立良好的网页收录方式，同样深度策略我们同样不能忽视。 对于网页中的链接，除了良好的内部链接可以促进爬虫去抓取这些网页外，构造不同纬度的链接同等重要。 内容对网页收录的影响 每个搜索引擎在处理网页的过程中都会消耗自身的服务器资源，对于大量转载的网页，过滤掉这些网页可以很大程度上节约资源用于其他，所以网页质量对于网页收录来讲，非常重要而且是基础，搜索引擎在内容质量的判断上，谷歌明显由于百度，而百度所提到的内容增益的确是有利与用户体验，但最基本的版权维护应该高于所谓的内容增益。 我们为了应对这样的过滤机制，伪原创变得非常好使，这样可以让网页正常收录。在没有原创文章思路的基础上，这样的操作方式还是值得去尝试，但有时候要好好伪一篇文章，往往比写原创还浪费时间，如果没有原创写作思路，那就伪原创吧，不过要多了解搜索处理网页的原理，不然辛辛苦苦伪原创结果还是被过滤掉了。 对于网页大小方面，还是适当考虑下，搜索引擎方面认为，内容太少的网页可能带给用户的信息非常少，如果内容够多，那么，可能会给用户带来非常丰富的信息。如果不能写太多的内容，我们可以适当利用相关链接或用户行为来构造网页内容，最常见的做法是文章底部出现相关链接，每篇文章下面有评论或回复功能，这些方式也能为网页增加不少内容，对收录也是很有帮助的。]]></description>
		<wfw:commentRss>http://scseoer.com/effects-page-factors.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>网站速度诊断 百度统计</title>
		<link>http://scseoer.com/website-speed-diagnosis.html</link>
		<comments>http://scseoer.com/website-speed-diagnosis.html#comments</comments>
		<pubDate>Fri, 16 Sep 2011 08:30:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站速度]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2018</guid>
		<description><![CDATA[随着百度统计统计的推出，近段时间推出了一些非常实用的工具，比如SEO建议、搜索词排名、百度收录量查询等，今天进百度统计看见“网站速度诊断”工具，忍不住测试了下。 网站速度诊断 利用百度统计中的网站速度测试对博客的测试结果 测试点：北京电信、北京网通（百度蜘蛛的爬行可能没有那么好） 对于网站速度方面的提升，对于网页性能方面的改善有很大的作用，网页速度得分越高，网页性能越好，那么，爬虫程序在同等条件下，爬行的数量就可能越多，那么，收录量可能就会更好点。百度统计这个网站速度测试工具与谷歌的 Page Speed 工具类似，具体细节还没有做过比较。 我用 Page Speed 对 www.scseoer.com 的测试结果分值为89（本机网络环境在一定程度上会影响结果），有在用百度统计的朋友可以去测试下，这个是在线的，不用安装什么插件或者工具，相对还是比较简单，测试建议也比较完善，可以根据起建议对自己网页性能方面做下改善，下面看下诊断建议。 网站速度诊断建议 网站速度诊断建议 从上面的诊断建议中打开相应项目的选项，可以看见详细说明，里面提到的很多细节可能我们以前根本没有注意到，而这些建议的的确确可以提升你的网页性能。 另外，诊断建议中部分扣分项目并不是网页自身资源，比如网站统计代码、分享代码等，这些是我们利用外部的工具或插件来进行网站信息或用户行为统计的，所以有时候在选择外部资源的时候，也要考虑下他本身会不会给网页性能带来太大的影响。]]></description>
		<wfw:commentRss>http://scseoer.com/website-speed-diagnosis.html/feed</wfw:commentRss>
		<slash:comments>28</slash:comments>
		</item>
		<item>
		<title>谷歌反向链接说明及其网站站长工具的链接调整</title>
		<link>http://scseoer.com/google-reverse-link.html</link>
		<comments>http://scseoer.com/google-reverse-link.html#comments</comments>
		<pubDate>Wed, 14 Sep 2011 09:31:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[谷歌]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2003</guid>
		<description><![CDATA[可能绝大部分非常在乎网站反向链接（外部链接）的SEO朋友对于谷歌的反向链接数量始终琢磨不透，而且根据百度的相关搜索来看，搜索“增加谷歌反向链接”、“谷歌没有反向链接”等类似关键词的用户还很多。 反向链接是搜索引擎蜘蛛程序在爬行或者编制索引的过程发现的链接信息，谷歌对于这些信息不会全部列出，而是列出所谓精选的网页信息，这也是我们为什么以yahoo的查询结果作为参考，因为yahoo的查询数量更接近真实值，而百度的domain命令则是查询域名相关分布信息。 谷歌link:命令查询出来的反向链接一般是： 最常用的链接来源； 网站内部链接较多的网页。 需要注意的是，谷歌反向链接中会包含301或者302的链接。不包含错误链接和经过robots.txt处理的链接。会对一些不同域的301链接信息进行合并，另外会根据情况自动添加结尾斜线。 http://www.scseoer.com/ue-questions http://www.scseoer.com/ue-questions/ 上面会被视为相同链接 http://www.scseoer.com/ruan-404.html http://abc.com/ruan-404.html 假设 abc.com 这个域名 301重定向到 www.scseoer.com ，那么，上面也会被视为相同链接。 如果想查看更加全部的谷歌反向链接信息，那么，可以在网站站长工具中“网络上你的网站”-“指向你网站的链接”中查看详细信息。 谷歌网站站长工具的链接调整 近期，谷歌对其站长工具中的进行了适当调整，大致为： 绑定顶级域名（包括带www）的链接变化 1、目录内部链接数量增加 以前目录的内部链接可能只包含该目录下的内容，现在包含整个域下的内容（包括该域名下的二级域名）； 2、目录外部链接数量减少 这个很好理解，在总链接数量不变的情况下，将一部分外部链接归类了内部链接，当然自身的数量就减少了。 绑定二级域名或目录的链接变化 二级域名或目录内部链接可能会变少，现在只包括该域名或目录下的网页，其他链接将会归类为外部链接。 对于这次链接的调整，只是将链接信息进行了迁移，划分的更加精确而已，链接总数量不会发生变化，对搜索结果不会造成什么影响。 参与搜索排序的基本单位是网页而并非整个网站（网页与网站），个人觉得，除网页本身的链接权重（这里会被直接忽略），来自其他的网站都可以算是外部链接，只是搜索引擎出于综合考虑，将链接划分，只是便于网站管理员了解链接分布情况。]]></description>
		<wfw:commentRss>http://scseoer.com/google-reverse-link.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>新手如何学习SEO？</title>
		<link>http://scseoer.com/xinshou-seo.html</link>
		<comments>http://scseoer.com/xinshou-seo.html#comments</comments>
		<pubDate>Sat, 10 Sep 2011 09:38:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[SEO学习]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1997</guid>
		<description><![CDATA[近期有一些初学SEO的朋友在QQ上咨询一些新手相关问题，有时候稍忙点，可能没有来得及回答，先说声抱歉哈，关于新手对于SEO的学习，你目前可能存在这几个疑问： 刚刚听说SEO，我很有兴趣，我该如何学习？ 我不会程序，能学习好SEO吗？ 我给网站做了大量的外部链接，但一点效果都没有，SEO该如何做？ 其实每个人都是从不懂开始学习，一般最先接触的都是理论知识，带着这些理论，同时自己的实践去证明这些理论，从实践中发现问题，通过搜索或咨询的方式来解决问题，最后慢慢形成一套属于自己的SEO思路。 理论是基础 关于SEO基础理论，个人感觉SEOWHY这个平台上的资料已经足够刚刚接触SEO的朋友去好好阅读，这里面包含平常在交流中用到的大部分行业术语，花点时间好好的阅读，一篇不能理解，就再读上一篇。 用实践来验证理论的正确性 有了理论，我们就需要实践，对于目前对网页制作还有一定难度的朋友，可以借助第三方平台来进行实践操作，这些主要是一些大型的门户博客，比如博客大巴（审核较严）、百度、新浪等，有时候在这些博客平台中都还可以找到目前一些SEO老鸟当初学习的影子，多花时间将自己学习的理论知识去加以实践。 如果在实践中发现什么问题，这样咨询起来也比较有针对性，解决速度也非常快，同时很重要的一点，那就是可以在一定程度上提升自己的学习兴趣。 用计划来掌握节奏 当我们学习了一些理论知识后，如果你本身对程序就不是很懂，就没有必要再去花时间研究程序方面或者网站制作方面的东西了，这样不但会耽误你的SEO学习进度，还会打击你的自信心，完全可以利用上面说的利用第三方平台作为资源来实践，当我们通过实践总结了一些属于自己的东西，再去研究如何做网站或者程序方面的事情，这样会让自己的学习更有计划，不会因为某些不必要的难题而止步。 借助权威资料 上面提到的SEOWHY在目前行业中算是不错的了，如果你需要更加权威的资料，可以参考谷歌搜索引擎优化指南和百度SEO指南，这两份指南中都将SEO与网站、网站管理员之间的问题都描述的非常清楚，完全可以作为权威资料来加以阅读。 只相信自己 无论从任何资料中得到的SEO相关讯息，先想、再判断、最后实践，只有自己实践才能得到真正属于自己的东西，目前很多SEO新手盲目跟风，别人咋整就咋整，最后失败就到处诉苦，这样不仅耽误了自己的学习计划，同时很大程度上打击了自己的自信心，对于新手学习SEO来讲，这点是非常重要的。 希望：本文完全从客观角度阐述新手学习SEO的相关问题，通过希望一些新手可以通过这篇文章找到属于自己的学习方式！]]></description>
		<wfw:commentRss>http://scseoer.com/xinshou-seo.html/feed</wfw:commentRss>
		<slash:comments>32</slash:comments>
		</item>
		<item>
		<title>博客内页权重有所降低</title>
		<link>http://scseoer.com/neiye-quanzhongjiangdi.html</link>
		<comments>http://scseoer.com/neiye-quanzhongjiangdi.html#comments</comments>
		<pubDate>Fri, 09 Sep 2011 11:37:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1987</guid>
		<description><![CDATA[随着这几天百度的更新，该SEO博客有部分内容页面的权重有所降低，从长尾关键词前三到突然消失，通过查询，该内页在整个域中（scseoer.com）的权重降低。 我是博客的编辑，同时也是读者，在很多时候，自己会经常看看曾经转载和原创的一些文章，在阅读的过程中经常会发现一些问题，最基本的文字错误就不少，还有一些是思路上的，可能以前的想法过于粗燥，所以在阅读的过程发现问题，会立即编辑该文章。 另外，当对以前写过的内容有新的认识，也就会直接对以前发布的信息直接进行更改，不喜欢重新再写一篇来描述同一个问题，这也是为什么在每篇文章底部增加了“已更新”的原因，这个日期是调用该文章最后更新的时间，有时候修改以后的文章和修改前可以说是完全不一样的两篇文章（对搜索引擎来讲），对于普通用户来讲，应该算是一个好习惯，因为我和大家一样，喜欢把一些事情做到尽量完善。 再者，由于有时候会对内页的结构进行适当的调整，所以在每次调整后内容页面都会发生一些变化，但这些调整对内页权重的影响不大，出了网页体积的变化外，其他无任何影响。 大概在前一个月的时候，曾经对一些内容页面进行了修改，当时这个页面也是很快被降权，但在两次百度更新后，就恢复了权重，目前还算比较稳定，最近一次内页降权发生在前一次和昨天的百度更新。降权很明显的标志就是关键词排名消失，这些在统计数据中都可以比较直观的看出来。 除了上面提到的因素外，还可能与部分内部链接有关，当然这只是猜测，这篇文章同样也是测试这个想法。 前篇文章中提到软404这个概念，其实很早前在谷歌的网站站长工具中就有提到，软404大部分发生在论坛，部分开源程序有会发生软404错误，比如易企CMS，易企CMS可能与程序没有多大的关系，个人觉得主要是网站管理员的疏忽，这些问题都是属于比较细节的问题，适当注意下即可，也没有必要为它钻的很深。]]></description>
		<wfw:commentRss>http://scseoer.com/neiye-quanzhongjiangdi.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>软404对网站的影响</title>
		<link>http://scseoer.com/ruan-404.html</link>
		<comments>http://scseoer.com/ruan-404.html#comments</comments>
		<pubDate>Thu, 01 Sep 2011 12:57:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[用户体验]]></category>
		<category><![CDATA[抓取]]></category>
		<category><![CDATA[蜘蛛程序]]></category>
		<category><![CDATA[错误代码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1946</guid>
		<description><![CDATA[谷歌爬虫在抓取中遇见到的软404错误 经常使用谷歌网站管理员工具的朋友可能会在故障诊断中的抓取错误中发现一些软404错误提示，在以前的“404错误对网站的影响”一文中提到过软404。 一般情况下，当请求的网页发生错误的时候，会出现两种错误代码信息，一种就是我们经常说的404，另一种就是软404。 按正常的思路，当一个网页不存在的时候，会返回一个404代码来表示，软404是这些不存在的网页返回的不是正常的404错误代码，而是200代码（日志代码）。 软404与404的区别 软404：向用户返回错误提示页面（并非404错误提示），HTTP状态码为200； 404：想用户返回404错误页面，HTTP状态码为404； 为什么会出现软404 软404代码出现的情况大致为： 服务器配置错误； 网站程序或模版出错； 网站被恶意攻击导致； 网站管理员失误造成。 很多时候网站管理员难免发生一些小的失误，比如： 失误造成的软404错误 有时候由于误操作或者程序问题，对于不存在的网页，直接返回到首页。 软404有那些影响？ 软404代码会让普通用户感到困惑，看见一个很感兴趣的链接，点击后却不是自己想要的内容；对于搜索引擎的蜘蛛程序来讲，会花很多时间在网站上爬行和索引那些并不存在、而且经常重复的URL。会造成网站收录量比较低（因为蜘蛛程序花了大量时间在爬行一些并不存在的网页，导致一部分含有独特内容的网页反而有可能无法被及时发现）。 如何处理软404？ 对于软404，最好的处理方法是返回404代码，这样用户可以根据404错误页面来寻找相关页面，爬虫程序也会很好的处理404错误，另外可以根据上面提到的导致软404的几种可能性来检查网页，从而修复错误。 但有时候现实并不是预料的那么理想，这时候我们可以利用robots.txt文件或者nofollow来阻止爬虫程序，在普通用户方面，软404必然会导致页面的跳出率过高，那么，为了达到更好的用户体验，我们可以适当修改软404的错误提示页面而不是返回系统默认页面甚至是网站首页。]]></description>
		<wfw:commentRss>http://scseoer.com/ruan-404.html/feed</wfw:commentRss>
		<slash:comments>78</slash:comments>
		</item>
		<item>
		<title>搜狐博客robots.txt出现低级错误</title>
		<link>http://scseoer.com/blog-sohu-com-robots-txt.html</link>
		<comments>http://scseoer.com/blog-sohu-com-robots-txt.html#comments</comments>
		<pubDate>Wed, 31 Aug 2011 09:51:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1928</guid>
		<description><![CDATA[关于robots.txt文件，它是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 下面是搜狐博客的robots.txt文件： 搜狐博客（blog.sohu.com）robots.txt 文件 由于搜狐博客下面的会员博客是采用二级域名，下面是任意会员博客的robots.txt文件： 搜狐博客会员（xieguozhong）的 robots.txt文件 从上面可以看出，搜狐博客robots.txt文件中出现的低级错误，将正确代码： User-agent: Googlebot Disallow: 错误的写成（可能是复制的时候少掉了）： ser-agent: Googlebot Disallow: 这只是一个字母的丢失，结合最后的： User-agent: * Disallow: / 来看，搜狐博客已经将谷歌搜索引擎的爬虫程序拒之门外，下面是搜狐博客在谷歌的表现情况： 在 google 中直接搜索 blog.sohu.com 在谷歌使用site:命令查询结果： 在 google 使用 site 命令查询搜狐博客截图 在平时的SEO工作中，robots.txt文件的正确书写至关重要，还记得上次本博客也是因为该文件的失误，导致博客被谷歌K掉，如果不能正确的使用robots.txt文件，还不如不写。 搜狐博客robots.txt问题已经修正： User-agent: Googlebot Disallow: User-agent: baiduspider Disallow: User-agent: Nutch Disallow: User-agent: msnbot Disallow: User-agent: Slurp Disallow: User-agent: * Disallow: /]]></description>
		<wfw:commentRss>http://scseoer.com/blog-sohu-com-robots-txt.html/feed</wfw:commentRss>
		<slash:comments>32</slash:comments>
		</item>
		<item>
		<title>网站被黑 百度是如何对待的</title>
		<link>http://scseoer.com/wangzhan-beihei.html</link>
		<comments>http://scseoer.com/wangzhan-beihei.html#comments</comments>
		<pubDate>Sat, 27 Aug 2011 15:54:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1918</guid>
		<description><![CDATA[什么是“网站被黑”？ 网站被黑，是指黑客利用网站的程序、设置等方面的安全漏洞或管理员安全疏忽（如密码复杂度低），未经管理员授权，对网站进行了篡改。 如何处理网站被黑？ 分析系统日志、服务器日志，检查自己站点的页面数量、流量等是否有异常波动，是否存在异常访问或操作日志； 检查网站文件是否有不正常的修改，尤其是首页等重点页面； 网站页面是否引用了未知站点的资源（图片、JS等），是否被放置了外站的异常链接； 检查网站是否有不正常增加的文件或目录； 检查网站目录中是否有非管理员打包的网站源码、未知txt文件等。 如何防止网站被黑？ 定期检查服务器日志等方式发现问题，检查是否有可疑的针对非前台页面的访问； 经常检查网站文件是否有不正常的修改或者增加； 关注操作系统，以及所使用程序的官方网站。及时下载补丁，修补安全漏洞；必要时建议直接更新至最新版本； 修改开源程序关键文件的默认文件名，作弊者通常通过程序自动扫描某些特定的文件是否存在来判断是否使用了某套程序； 修改默认管理员用户名，提高管理后台的密码强度，使用字母、数字以及特殊符号多种组合的密码； 关闭不必要的服务，以及端口； 关闭或者限制不必要的上传功能； 设置防火墙等安全措施； 若问题反复出现，建议重新安装服务器操作系统，并重新上传备份的网站文件； 缺乏专业维护人员的网站，建议向专业安全公司咨询. 快速发现并处理被黑内容，并做好被黑的预防，非常体现一个网站的运营水平。上述的几点仅仅是初步的参考。做好网站的安全需要站长、管理员们的不断努力。]]></description>
		<wfw:commentRss>http://scseoer.com/wangzhan-beihei.html/feed</wfw:commentRss>
		<slash:comments>50</slash:comments>
		</item>
		<item>
		<title>百度SEO指南 V2.0</title>
		<link>http://scseoer.com/baidu-seo-guide-2.html</link>
		<comments>http://scseoer.com/baidu-seo-guide-2.html#comments</comments>
		<pubDate>Sat, 27 Aug 2011 15:38:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[SEO指南]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1913</guid>
		<description><![CDATA[通过《百度SEO指南 V2.0》，互联网创业者将获得明确、正规的搜索引擎优化标准，合理、可持续提升网站流量，获得长久、稳定的发展，并促进行业的良性发展。 搜索引擎与SEO行为间是一种良性的共生关系，比如很多优质的网站是用Flash或者Ajax做的，搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后，可以通过对网站的合理优化，使这些优质资源更好的发挥其检索效果，改善用户的搜索体验。 同时，对于中国这样的新兴市场，传统的中小企业对于如何触网，如何做互联网营销，并无多少经验，在广大的互联网创业者中，对于如何SEO也充斥着矛盾的舆论和猜想。让更多人了解搜索引擎的工作机制，引导广泛合理的SEO行为，让认真做原创优质内容的创业者得到更多流量，令抄袭抓取别人内容的建站行为得到警惕，是百度作为中文搜索领域的领导者应有的责任和义务，只有这样才能有效支持互联网创新力量，使互联网生态圈得到更加健康有序的发展。 域名注册 域名是用户对网站的第一印象，能否让用户迅速记住域名对网站发展非常重要。建议注册域名时选择容易让用户记忆、容易产生信任感的域名，这样可以提高回头率，并方便用户推荐。域名尽量简短，越短的域名，用户的记忆成本就越低。 域名可以和网站主题或网站名称相呼应，让人看到域名就能联想到网站内容，比如使用公司名称、商标、网站名称或者公司产品等信息来选择域名。 使用何种形式的域名后缀对百度网页搜索没有影响，但域名后缀也需要考虑方便用户记忆。.com、.cn、.net等常见的域名后缀用户更容易记忆，一些不常见的后缀可能会让用户产生不信任感，增加用户的判断成本。 服务器、空间租用 服务器、空间的速度和稳定性直接影响网站的用户体验，也会影响搜索引擎的抓取。建议选择服务稳定、速度快的服务器或者空间。 选择有实力的正规空间商 服务器和空间的稳定性需要一定的技术实力来保障，一些没有实力的空间商，可能无力提供良好的服务，服务的稳定性无法保证。甚至有空间商为了节省资源，故意屏蔽掉Baiduspider的抓取，导致网站无法被百度网页搜索收录。 保证用户的访问速度和稳定性 根据网站规模和要提供的服务来决定选择购买何种空间（服务器） 通常空间都会有流量、连接数以及功能上的限制，因为是多个网站共用一台服务器，稳定性会受到影响，但价格便宜；服务器各种限制较少，可以更自主的管理，但价格较贵。可以根据自己的需求来进行合理的选择。 根据用户群分布选择接入商 由于互通问题的存在，选择接入商也很重要，如果用户群主要在联通，就尽量选择联通访问较好的接入商，如果用户群主要在电信，则选择电信访问较好的接入商。如果用户群在全国，那就选择一家互通处理的比较好的接入商。 购买之前，可以先找一两个空间商现有的客户网站，测试访问情况如何。 面向搜索引擎的网站建设 搜索引擎只是网站上一个普通的访客，对网站的抓取方式、对网站/网页的价值判断，也都是从用户的角度出发的，任何对用户体验的改进，都是对搜索引擎改进。对搜索引擎的优化，同时也会让用户受益。 面向搜索引擎的网站建设，主要分为三个部分：如何更好的让搜索引擎收录网站中的内容、如何在搜索引擎中获得良好的排名、如何让用户从众多的搜索结果中点击你的网站。简单来说，就是收录、排序、展现。下面我们将从这三个方面分别介绍。 良好收录 良好收录：机器可读 百度通过一个叫做Baiduspider的程序抓取互联网上的网页，经过处理后建入索引中。目前Baiduspider只能读懂文本内容，flash、图片等非文本内容暂时不能处理，放置在flash、图片中的文字，百度无法识别。 建议使用文字而不是flash、图片、Javascript等来显示重要的内容或链接，搜索引擎暂时无法识别Flash、图片、Javascript中的内容，这部分内容无法搜索到；仅在flash、Javascript中包含链接指向的网页，百度可能无法收录。 百度SEO指南建议： 使用文字而不是flash、图片、Javascript等来显示重要的内容或链接。 如果必须使用Flash制作网页，建议同时制作一个供搜索引擎收录的文字版，并在首页使用文本链接指向文字版。 Ajax等搜索引擎不能识别的技术，只用在需要用户交互的地方，不把希望搜索引擎“看”到的导航及正文内容放到Ajax中。 不使用frame和iframe框架结构，通过iframe显示的内容可能会被百度丢弃。 虽然网页上提供了很丰富的信息，但由于信息都在flash中，搜索引擎无法提取，对搜索引擎来讲，这个网页没有任何内容。 良好收录：网站结构 网站应该有清晰的结构和明晰的导航，这能帮助用户快速从你的网站中找到自己需要的内容，也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。 网站结构建议采用树型结构，树型结构通常分为以下三个层次：首页——频道——文章页。象一棵大树一样，首先有一个树干（首页），然后再是树枝（频道），最后是树叶（普通内容页）。树型结构的扩展性更强，网站内容变多时，可以通过细分树枝（频道）来轻松应对。 理想的网站结构应该是更扁平一些，从首页到内容页的层次尽量少，这样搜索引擎处理起来，会更简单。 同时，网站也应该是一个网状结构，网站上每个网页都应该有指向上、下级网页以及相关内容的链接：首页有到频道页的链接，频道页有到首页和普通内容页的链接、普通内容页有到上级频道以及首页的链接、内容相关的网页间互相有链接。 网站中每一个网页，都应该是网站结构的一部分，都应该能通过其他网页链接到。 总结一下，合理的网站结构应该是一个扁平的树型网状结构。 百度SEO指南建议： 确保每个页面都可以通过至少一个文本链接到达。 重要的内容，应该能从首页或者网站结构中比较浅的层次访问到。 合理分类网站上的内容，不要过度细分。 网站应该有简明、清晰的导航，可以让用户快速找到自己需要的内容，同时也可以帮助搜索引擎更好的了解网站的结构。 为每个页面都加上导航栏，让用户可以方便的返回频道、网站首页，也可以让搜索引擎方便的定位网页在网结构中的层次。 内容较多的网站，建议使用面包屑式的导航，这更容易让用户理解当前所处的位置：网站首页 &#62; 频道 &#62; 当前浏览页面 导航中使用文字链接，不使用复杂的js或者flash使用图片做导航时，可以使用Alt注释，用Alt告诉搜索引擎所指向的网页内容是什么。 良好收录：子域名与目录的选择 选择使用子域名还是目录来合理的分配网站内容，对网站在搜索引擎中的表现会有较大的影响。 百度SEO指南建议： 1、在某个频道的内容没有丰富到可以当做一个独立站点存在之前，使用目录形式；等频道下积累了足够的内容，再转换成子域名的形式。 一个网页能否排到搜索结果的前面，“出身”很重要，如果出自一个站点权重较高的网站，那排到前面的可能性就越大，反之则越小。通常情况下主站点的权重是最高的，子站点会从主站点继承一部分权重，继承的多少，视子站点质量而定。 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-seo-guide-2.html/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>百度更新了 你还能淡定吗</title>
		<link>http://scseoer.com/baidugengxin.html</link>
		<comments>http://scseoer.com/baidugengxin.html#comments</comments>
		<pubDate>Thu, 25 Aug 2011 13:55:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[快照]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1895</guid>
		<description><![CDATA[百度作为最大中文搜索引擎，是国内绝大部分SEO工作的重要平台，原因很简单，百度的用户多，给自己网站带来的流量比例大。根据今年CNNIC统计，中国4.85亿网民中有3.0左右网民在使用搜索引擎，而百度站在NA和NC之间，不得不让Seoer重视。 在百度SEO中，我们都希望看见百度更新，因为百度更新了，我们的网站关键词排名可能就上升了，特别是遇见大更新，那让更多SEO人爽的不得了，所以，百度更新成为众多SEO关注重点，而百度更新时间相信大家都非常清楚了。 百度多久更新一次 按照以往的经验，百度在周三到周四会就会进行常规性更新，一般变动较大的时候是周四凌晨四点到上午九点，稳定时间大致在周四的晚上，也就是从开始到结束会经历48个小时，而很多SEO说的半月更新周期（11日、26日）这个个人好像没有感觉。 百度更新无处不在，随时都在进行数据变化，还记得在09年的上半年，自己关注的一个网站的关键词排名，每天都在变化。 用户搜索的关键词根据关注度大概可以分为目标关键词和长尾关键词（热搜关键词除外），前一种关键词由于用户关注度比较高，搜索结果在短时间内一般不会发生很大的变化，后一类的长尾词搜索结果往往是实时排名，搜索结果的排序往往变化比较大。 在百度更新的同时，大家除了关注自己网站关键词排名问题，还关注另外一个值得天天去看的东西，那就是网页快照时间，百度快照更新时间与搜索结果不同，两者也没有必然的联系，不能作为判断SEO好与差的因素。 网页快照的相关问题 什么是网页快照？ 互联网上的网页经常发生变化，当被搜索到的网页被删除或死链时，直接点击链接无法查看网页的内容。此时就可以使用网页快照来查看这个网页原始的内容。比如你的某网站上发布了一些文章，该网站已经无法再访问，用户就可以通过在搜索引擎中搜索该文章的关键词，然后以快照形式进行访问将文章内容进行备份。 网页快照可以直接从搜索引擎数据库的储存中调出该网页的存档文件，而不实际连接到网页所在的网站，由于是访问搜索引擎的数据库，这种方式比直接访问所在站点更加安全，可以避免网页内嵌的木马、病毒的威胁；读取网页的速度通常也更快。 网页快照必须具备两个基本条件： 网页信息存在变化； 被爬虫程序成功抓取。 一般一个网站中都存在很多网页，按照URL的物理结构可以分为父级和子级（纯属个人观点），也可以理解为主页和内页。一般首页在搜索引擎的初始权重值会相对高些，所以一般百度对首页的更新会相对频繁，内页快照的更新时间会收到其更新、用户关注度、链接的逻辑结构决定。 百度快照不更新几个可能 网页内容质量； 网页内容更新频率以及更新时间； 网站的内部结构； 网站的权重； 外部链接； 其他因素。 每当百度更新的那个时候，一些站长论坛的相关帖子就会大量出现，特别是人气较高的SEOWHY，心情鸡冻的、杯具的、淡定的都有。 正确看待百度更新 百度作为一个搜索引擎，数据更新是非常正常的，而快照作为用户查看网页的另一种方式，只是储存在自己的服务期缓存中，对SEO没有什么影响，更重要的是网页的预处理过程。关于百度更新，你可能会关注下面几个问题： 1、百度快照显示不完整，是否意味未显示的链接就没有被百度抓取？ 百度对网页链接的提取数量是非常大的，快照显示不完整应该是百度对网页缓存大小做的设定。 2、屏蔽百度快照是否会对SEO造成影响？ 有些网站管理员可能不希望用户从快照关注自己的网页，利用“noarchive”标签来屏蔽网页快照，例如： &#60;meta name=”Baiduspider” content=”noarchive”&#62; 这样操作对SEO没有任何影响。 3、百度更新慢，是不是说明网站权重很低？ 百度更新频率与网站权重之间没有必然的联系。 百度更新每周具体时间：周四凌晨1：00，记录IP：深圳电信。]]></description>
		<wfw:commentRss>http://scseoer.com/baidugengxin.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>站内SEO优化常见问题（一）</title>
		<link>http://scseoer.com/optimization-problems-1.html</link>
		<comments>http://scseoer.com/optimization-problems-1.html#comments</comments>
		<pubDate>Sat, 20 Aug 2011 11:40:47 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1869</guid>
		<description><![CDATA[1、网页的内页链接过多会不会降低网页的权重？ 网页内部链接数量得站在全局看问题。链接数量过多，每个链接得到的权重就越小，但如果A页面给B页面的链接多，C页面给A页面的也就越多（A、B、C不代表单个页面），这样综合起来也就差不多平衡了，犹如大型门户网站，页面链接几百甚至上千，页面多了，也就不寸在什么流失了。另外LEE曾经提过，如果网页体积太大，造成抓取不完全，但链接信息提取是完整的，搜索引擎提取链接的数量超乎我们的想象。 2、现在URL中带关键词作用大不大？ 有作用，但很小，是很多因素中的一点，而且目前还没有发现在百度中文URL中带关键词而排名很好的网页。 3、内链的建设问题，在内部链接的建设中，是采用绝对地址还是相对地址？ 建议采用绝对地址。 4、网站两个相似页面，用什么标签还可以告诉搜索引擎唯一性？ 可以使用rel=”canonical”来规范网页。 5、网站什么样的结构才算比较好啊？ 扁平的树形网状结构。 6、是不是一定要做301啊，带www的快照是16号的，不带www的快照是17号的并且排名还不错，我以前没有做301，请问下现在是否还要做，做了会对网站有影响吗，如果做了，是不是排名都没有，还要重新开始？ 301重定向是进行URL标准化，根据你目前推广最多的URL来决定，比如你外部链接中推广的URL都是带www的，另外如果你站内已经实用了带www的绝对地址，那么就可以将不带www的URL重定向到带www的上面。301后的效果是权重叠加而不是替代，所以及时是暂时出现问题，很快也回恢复。 7、如何把已经收录但是掉了的文章重新收录再回来，前天我晚上收录掉了50，不知道如何让这些之前收录的页面都回来，如果在已同样的名称命名的话，再发表一些文章，影响吗？ 搜索引擎都有更新周期，更新的时候收录数量都会有所变化，你目前要解决的问题是找到为什么收录会减少的原因，而不是去增加相同URL博得收录。 8、我用工具发现死链有超多的，我点击这些链接发现又可以连接，这是为什么？ 工具查询是基于网络进行的，网络不稳定就会出现查询不准备的现象。 9、网站的某些页面做了301或者302跳转，在网页源代码里面，可以看出来吗？ 如果是用程序实现的，可能看的见，如果的主机或服务期配置，则看不见。 10、用了Xenu检测了网站的死链，有一大片一大片的。其中not found、no connection、file not foune 三个具体是什么意思，应该怎么解决这样的问题？是把他们全删掉还是怎么样？ Xenu死链接检测工具有中文版的，英文不懂可以翻译下，对于有问题的链接，可以在链接上点击右键，查看属性，就会在弹出窗口看见死链接的具体出现位置。]]></description>
		<wfw:commentRss>http://scseoer.com/optimization-problems-1.html/feed</wfw:commentRss>
		<slash:comments>27</slash:comments>
		</item>
		<item>
		<title>百度音乐播放器自动播放</title>
		<link>http://scseoer.com/baidu-music-player-autoplay.html</link>
		<comments>http://scseoer.com/baidu-music-player-autoplay.html#comments</comments>
		<pubDate>Sat, 20 Aug 2011 05:33:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1861</guid>
		<description><![CDATA[最近一企业网站客户有要求在网页插入背景音乐，以前客户还没有类似的要求，从SEO角度考虑，音乐文件相对较大，这样在一定程度上会影响网页载入速度，网页性能会受到影响，另外，较大文件加载，会浪费很多带宽流量，这样对于限制流量的主机来讲，无疑是个问题，如果整站加载，其结果会让您吃惊。 如何让百度音乐播放器自动播放 在找到合适的音乐后，在分享代码后面加上下面的代码： &#38;autoPlay=true&#38;loop=true 加入以上代码保存后，音乐播放器将会自动播放所选歌曲。 大文件加载如果优化网页性能 对于较大文件的加载，必然会影响网页的加载速度，那么，我们可以将该文件代码放入网页底部，可以采用CSS样式表改变其网页前台的样式，另外还可以利用嵌入框架，这样可以在一定程度上对网页其他信息载入速度的影响，另外还可以给该文件设置长时间的缓存以提升该网页性能。 如果你不想全站加载（背景音乐可能会重复播放，从而影响用户体验），那么，可以只在首页加载即可，但注意一点，将首页除自身链接外的所有链接设置“target=”_blank” ”属性，即新窗口打开，这样即不会影响到背景音乐的播放，也不会给其他页面的性能带来影响，在用户不关闭首页的情况下，可以给用一个“全站不间断背景音乐”的“感觉”。]]></description>
		<wfw:commentRss>http://scseoer.com/baidu-music-player-autoplay.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>9月底回四川发展 川内SEO同行多交流</title>
		<link>http://scseoer.com/sichuan-seo-communication.html</link>
		<comments>http://scseoer.com/sichuan-seo-communication.html#comments</comments>
		<pubDate>Thu, 18 Aug 2011 12:55:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[Seoer]]></category>
		<category><![CDATA[企业]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1844</guid>
		<description><![CDATA[不知不觉来深圳已经4年了，这是我毕业后进入的第一个城市，毕业前对深圳的幻想和现在的实际感触相差不大，本地资源非常丰富，这也成为很多年轻创业者的理想城市。 随着时间的增长，对于80后的我们来讲，压力都变得很大，对自身的认识也变得更加清晰，职业规划变动之前往往也会深思熟虑再做决定，个人属于比较恋家的那种，无论是个人发展还是家庭因素，回川发展是最终决定。对于深圳这边的朋友，很舍不得，几年了，感情都非常好，今天一位老上司说道：天下没有不散的宴席。大家首先要保护好身体，对于这么美丽的深圳，以后肯定会来看望你们的。 深圳大运村 近段时间深圳在举办大运会，很热闹，深圳居民或多或少也受到一些影响，关内环境搞的很不错，关外更注重治安。 在SEO方面，深圳这边的竞争相对不算很大（可能全国都一样），从业人员很多，技术上成次不齐，网络公司与SEO兼职人员之间的竞争很大，这个大家都懂。 对于SEO兼职来讲，往往是先给客户建立网站或者对现有网站进行诊断，再逐步进行SEO优化工作，在整个过程中，往往多关注于过程（技术和转化层面），服务周期往往也比较长，加上由于大部分都是在线交流，沟通和诚信问题成为最大的难点，如果上门与客户面谈或者与一些SEO平台合作，这种情况可能会好很多。 深圳大都是传统的小型加工企业，一个工业区可能有几家或几十家企业，在销售方面往往是企业老板为主，对于企业来讲，特别是传统行业，越来越注重搜索引擎的关键词排名或百度优化（很多还不知道SEO这个概念），面对电子商务给自身行业带来的冲击，有时候不得不考虑除传统销售方式的其他方式，在网络推广上，百度推广专员给了他们不少的思路。在选择SEO方面，他们往往很少关注过程，当达到自己结果的时候，低转化率给他们带来的影响往往会让他们觉得SEO无用。一些网络公司的电话营销专用可能对这点深有感触。 对于四川SEO行业的了解，还不是很熟悉，我的印象中，四川服务行业最多，单从SEO角度出发，竞争应该会更大。 对于现有客户的承诺： 目前自己的深圳这边也有一些客户正在进行，现有客户大都相互非常熟悉，所以，在诚信问题上，我还是比较自信。如果回到四川，现有业务质量不会受到任何影响，相反我可能会为你们做的更多。 既然你是我的客户，我就应该对您负责。 对于即将成为客户的朋友： 接单一直在进行，从未停止过（目前主要从事针对性制定SEO方案和兼职SEO顾问），当然我会根据自己的业务量与竞争力进行权衡，如果忙不过来，我会介绍深圳这边的SEO朋友（他们的技术都是非常OK的）；如果我接单，我就会有时间与能力按你的要求把它完成。 诚信是基础，希望我们彼此以诚相待。 朋友，如果你是SEO，而且目前身在四川，欢迎交流。]]></description>
		<wfw:commentRss>http://scseoer.com/sichuan-seo-communication.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>向谷歌提交针对性抓取请求</title>
		<link>http://scseoer.com/google-submit-request-crawl.html</link>
		<comments>http://scseoer.com/google-submit-request-crawl.html#comments</comments>
		<pubDate>Mon, 15 Aug 2011 07:49:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[爬虫程序]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1834</guid>
		<description><![CDATA[谷歌网站站长工具中的“Googlebot 抓取方式”功能提供了一种向Google提交全新的URL以及更新URL的收录方法。如果我们利用此工具像Googlebot那样成功抓取了一个URL，那么，我们将会看到提交该URL到谷歌索引这一选项。当我们以这样的方式提交URL后，通常在一天之内，Googlebot就会抓取该URL。然后，谷歌会考虑是否将其列入到索引中。 谷歌网站管理员工具的这一新功能可在多种情况下为站长提供帮助：如果我们刚刚推出了一个新网站，或者增加了一些重要的新页面，您可以要求Googlebot立即查找并抓取它们，而不是等待谷歌爬虫去发现。 我们也可以提交已经收录过过，但有内容更新的URL，以刷新这些URL，比如说，如果我们更新了关于自己将在本周末举办的活动的某些关键内容，并希望能够确保谷歌及时看到这些更新，可以求助于 “Googlebot 抓取方式”。又或者，我们不小心发布了一些本无意发布的信息，在从网站上删除这些信息之后，也希望能对谷歌的缓存版本（网页快照）进行更新，在这时候，“ Googlebot 抓取方式”也可以提供帮助。 如何针对性向谷歌提交URL 登录谷歌网站管理员工具账户，点击账户下添加的网站进入“控制台”； 选择控制台下面的“故障诊断”-“像 Googlebot 一样抓取”； 在界面的文本框中输入要提交的URL，选择抓取方式（一般为网络） 如果成功抓取了该URL，那么，您将会在该被抓取的URL旁边，看到一个新的“提交到索引”的链接。 点击“提交至索引”，就会看见一个弹出窗口，让我们选择是否只提交一个URL，还是该URL及其所有链接页面。 只提交一个URL：如果您的网页是新网页或最近更新的网页，请选择该选项。Google 并不保证会将提交的所有网址都编入索引。 提交该URL和所有链接的网页：如果您已对自己的网站进行较大更改，请选择该选项。Google 会以该网址为基础，将您的网站内容编入索引。Google 并不保证将您网站上的所有网页都编入索引。 注意：提交单个URL的有限次数是50次/周；提交带有全部链接页面的URL时，有限次数是10次/月。这个剩余的提交次数可以在 “Googlebot 抓取方式”页面上看到。 不需要验证也可以添加URL到Google 如果要在谷歌网站管理员工具中管理自己的网站，一般验证这一过程是必须的，但谷歌最新更新了一部分工具，不需要验证一样向谷歌可以发送添加URL的请求（提交 URL 表单），该功能具有和”Googlebot 抓取方式”功能相同的向索引提交网页方面的配额限制，但不要求验证所涉及网站的所有权，因此，我们可以提交任何想要抓取和索引的URL。 在SEO方面，网页收录是基础工作且非常重要的，谷歌在这方面做的非常不错，但我们如果想加快某一URL的抓取或收录的速度，不妨考虑利用上面介绍的”Googlebot 抓取方式”功能来提交该URL。 来源：谷歌黑板报]]></description>
		<wfw:commentRss>http://scseoer.com/google-submit-request-crawl.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>谷歌给站长的小惊喜【生日祝福】</title>
		<link>http://scseoer.com/google-webmaster-surprise-birthday-wishes.html</link>
		<comments>http://scseoer.com/google-webmaster-surprise-birthday-wishes.html#comments</comments>
		<pubDate>Sat, 13 Aug 2011 15:59:41 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1811</guid>
		<description><![CDATA[正常情况，谷歌会显示自己的默认LOGO标志，当到某一个纪念日的时候，谷歌会显示相应的纪念标志。 Google默认LOGO标志 谷歌给站长的小惊喜 习惯性进入谷歌网站管理员工具查看信息，在没有登录账户的时候，谷歌主页显示的是默认的LOGO标志，成功登录账户后，默认的LOGO改善了，第一感觉还以为又是什么纪念日子，讲鼠标放在LOGO图片上，图片提示文字为“生日快乐，清勇！”（图片的Alt标签和链接的Title标签），链接URL是个人资料页面。 谷歌搜索引擎在很多细节影响着站长，从谷歌网站管理员工具、谷歌分析（Google Analytics）、本地商户、站长帮助中心、网站管理员帮助论坛，这些对站长来讲，都是免费且非常实用的。 SEO经常会提到用户体验，这大概就是用户体验的一种体现吧，如果在你网站上提供类似的提示功能，用户信誉度（用户评价权值）会大幅提升。]]></description>
		<wfw:commentRss>http://scseoer.com/google-webmaster-surprise-birthday-wishes.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>SEO人才市场分析【2011】</title>
		<link>http://scseoer.com/seo-rencai-2011.html</link>
		<comments>http://scseoer.com/seo-rencai-2011.html#comments</comments>
		<pubDate>Thu, 11 Aug 2011 19:02:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[互联网]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1792</guid>
		<description><![CDATA[2011年的互联网，网民数量一路攀升，电子商务进入白热化。中国互联网信息中心第28次中国互联网络发展状况统计报告显示，截至2011年6月底，中国网民规模达到4.85亿，搜索引擎用户规模达到3.86 亿，搜索引擎使用率79.6%，稳居互联网应用榜首。 搜索引擎优化（SEO）作为低成本的搜索引擎营销（SEM）方式被电子商务行业高度关注，SEO人才需求也大幅上升，下面是SEO人才网的一份分析报告，从SEO流量价值、人才市场、SEO人才供求各方面进行了综合分析。 SEO价值在那里？ “腾讯科技讯（雷建平）1月6日消息，2010年B2C市场的火热催热了国内在线广告市场。据多位电商人士透露，2010年门户广告和网站导航站价格均大幅涨价，其中，门户涨价在40%到50%，在这种情况下众多电商企业仍砸钱抢占广告位。” “某电商大佬指出：以前hao123一个通栏1月才40万两轮播，已经提价到120万四轮播。门户广告也已开始提价，涨价幅度大概是40%。” “电商网站投广告：三年前投100块希望带来100块的利润；两年前投100块希望带来100块流水；一年前投100块带来70块流水也行；现在往后估计没法用效果做评估了，唯一的标准是：别人投了所以我得投。导航站看透这点推出竞价，于是，价格直冲云霄……” “某医疗集团CEO说，2007年，做竞价，投1块，能回来10块；2008年，投入1块，回来8块；2009年，投入1块，能回来4块；2010年，投入1块，能回来3块；2011年，投入1块，回来2块多；竞争者越来越多，很多机构都投不起了”。 类似的例子很多，从上面可以看到，互联网的竞争，核心是流量的竞争。随着付费流量的涨价，很多机构、企业都在想办法优化流量成本，从各个环节入手，让流量的综合成本下降。其中，SEO就是一项非常重要的应用。且越来越受到重视。当SEO人员对SEO的未来一路看跌的时候，作为老板们，却反而越来越在意。 SEO人才市场现状 现在，凡是搞IT、互联网行业的很多人，对SEO或多或少地了解，它已经成为一个非常普及的技术和技能。但它也如同其他行业一样，做得好的，一样不多。就如英语，我们很多人会，但能够依靠它做翻译吃饭的，这个比例就很少了。 SEO也是如此，知识是廉价的，经验更重要。有价值的经验就更加重要。 在SEO人员和招聘企业之间，现在经常发生这样的事情，SEO人员一开口就要几千上万，而对于招聘企业的HR来说，很多时候，不太容易判断出来这个人到底值多少钱；如果遇到业务部门的负责人，仔细了解一下后，可能开出的薪水不到应聘者的五成。 这样，对于应聘者而言，打击很大，一种是认为我怀才不遇，另外一种则认为SEO无前途。 而企业则认为，应聘者好高骛远，不切实际，人心浮躁，好人才难遇。 造成这一现象的根源在于，彼此都没有搞清楚这个岗位的定位、工作分解与价值输出的可预期性。 如何选择SEO人才？ 求职者与招聘企业之间的普遍问题在SEO行业一样存在，对于招聘企业找不到合适的SEO人才，SEO求职者不能找到理想的工作岗位。 首先，招聘企业必须清楚地认识到，对于SEO，也需要和对待程序员、设计、会计一样，进行工作目标与任务的分解和定级，然后，再来谈如何找到合适的人才。 从目前的企业人才应用情况来看，SEO，可以高到企业的VP（副总裁）级人才，也有低到专员助理级人才。如美国的纽约时报，就有“首席战略官”一说，国内也有知名企业设置SEO副总裁的职位。 SEO人才类型 对于目前的SEO求职者来讲，大致可以分为：策略型人才、项目型人才、数据型人才、技术型人才、执行型人才、资源型人才等。 SEO策略型人才：这类人有着敏锐的洞察力、独特的思维模式，善于发现更佳的流量源泉，善于统筹各种流量的竞争策略，带领团队领先竞争对手。这种人才非常不容易找，基本无法复制。 SEO项目型人才：这类人有着比较强的项目管理能力，能够协调多个部门之间的事务，可以掌控多工种人才来兑现同一个结果。这类人才也是需求特别旺盛。 SEO数据型人才：这类人才可以按照一定的分析逻辑，对各种数据进行系统科学地分析，得出正确的结论，并不断地研发新的分析方法，为决策提供强有力的依据。 SEO技术型人才：精通各种SEO技术和搜索算法，擅长开发工具来驱动流量的增长，并为数据分析提供强有力的技术保障，同时，通过开发工具成倍地提升工作效率。能够快速地监控各种搜索引擎的微观调整变化，从而采取更好的应对手段。 SEO执行型人才：能够按照正确的方法，带领团队，或者独自操作，都能落实执行，并在规定的时间范围内想办法去兑现结果。工作严谨，作风稳健，可以实现某个子目标的攻坚任务。 SEO资源型人才：这类人才，最擅长的就是整合各类资源，让资源价值最大化，在资源上取得竞争优势。其优点就是擅长谈判，整合资源，实现多赢。 以上六种人才，并没有绝对的界限，只是各自的侧重点或者擅长点有所不同。其人才的价格，受岗位的定位、行业属性、贡献价值、市场行情等多因素综合影响。总体来说，越难得的，越贵。越容易复制的，越便宜一些。单项技能重要，综合素质更重要。 关于SEO求职者 首先，得确定自己的发展目标，譬如，我打算在哪个行业里长期发展下去，打算用几年时间，做到一个什么样的水平。这个很重要。 不要盲目地把SEO当成是高薪职业，任何职业，只要水平高了，都能拿到高薪。但如何水平不到，即使暂时拿到高薪，也用不了多久就会打回原形。 对于大多数人来说，一条比较可行的路，就是从执行层做起，锻炼项目管理能力，团队驾驭能力。最终成长为一名优秀的SEO项目经理，这是一个相对较好的选择。 在这个基础之上，一旦其它机会出现，就容易发现和抓住。在某一个行业里一直做下去，也非常的重要，既熟悉SEO，又熟悉业务的人，会更加地吃香，并最终因为你更加熟悉业务而得到更多机会。脱颖而出的概率更大。 关于SEO培训 SEO培训和其它培训一样，它是你入门、进阶、突围的重要一环，是一个加速器，可以让你节省时间，少走弯路，踩在过来人的肩上快速攀登。有的人问，现在搞SEO培训的人和机构挺多，我该如何选择呢？ 其实，这需要缘份，你感觉投缘的就好。每家的培训，都有自己定位和特色，你先要清楚自己要什么，再根据自己的需求，去挑选合适自己的培训老师和机构，如果盲目地去参加培训，可能最后不是你想要的，这样，对自己、对培训机构都是一种双输。 SEO的培训，从入门到一流，其实是都需要培训的。而不只是入门前的科普。当然，自学能力和实践能力很强大可不必参加培训。 就像企业管理培训，从小企业到大企业，都在持续不断地参加各种培训，而且越是大企业，需要通过更加专业系统的培训来提升自己在某个点上的能力。SEO培训也是如此，其实，对于已经入门，有过一定实践经验的人来说，通过培训去获得自己在实践中所未遇到的宝贵经验，是非常值的，且更容易把培训的价值发挥出来，发挥得更大。 但对于很多人而言，如果只是简单地把SEO培训当成是一个通往高薪的“跳板”，以为参加了培训就可以让自己的待遇实现若干倍的增长，这种概率还是很小的，除非你本来就已经比较能干了。 SEO是一门实践性很强的技术，要想做好，需要好的悟性，有一定技术基础，勤奋努力。在实践基础上，在适当地参加一些针对性的培训，拓展你的人脉，让自己在各个阶段的发展速度得到提速，然后，在企业、团队、行业的选择上把握正确了，那你的梦想就能够早日实现。 来源：SEO人才网（www.sem110.com）]]></description>
		<wfw:commentRss>http://scseoer.com/seo-rencai-2011.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>关键词区域排名与数据标准化</title>
		<link>http://scseoer.com/keywords-regional-rankings-data-standardization.html</link>
		<comments>http://scseoer.com/keywords-regional-rankings-data-standardization.html#comments</comments>
		<pubDate>Tue, 09 Aug 2011 18:06:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[区域排名]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[标准化]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1778</guid>
		<description><![CDATA[关键词区域排名 关键词区域排名主要是针对用户搜索某一关键词，搜索引擎的搜索结果靠前的位置出现地区网站，这在百度表现的比较明显，例如深圳用户搜索关键词“SEO”，百度搜索结果出现“深圳SEO-网络营销-贞元网络旗下【实战营SEO团队】”： 关键词“SEO”在百度的区域排名结果 数据标准化 数据标准化是指对于用户搜索的各组数据，搜索引擎都会先用其除以一个通用变量，以便消除该变量对数据产生的影响。通过这种方式，用户可以对各组数据的内在特征进行比较。如果不对这些结果进行标准化，而是显示绝对评级，那么来自最高搜索量产生区域的数据就会始终占据靠前的位置。目前，Google 搜索解析中的所有结果都会经过标准化。 在解释数据标准化的时候，谷歌给我们举例说明了什么是“数据标准化”。 1、对于”旅馆”一词，加拿大和斐济显示了相同的百分比。这是否表示该词在这两个国家具有相同的搜索量？ 仅仅是两个区域在特定字词上的百分比相同，并不能表明二者的绝对搜索量是一样的。之所以能对来自这两个区域的数据（搜索量差距明显）进行对等比较，是因为我们已采用相应区域的总流量对数据进行了标准化处理。因此，我们才能够假设，无论是在斐济还是在加拿大，用户搜索旅馆一词的可能性都是相同的。 2、在搜索”理发”这个词时，结果列表中并没有出现纽约。这是否表示位于纽约的用户根本不会搜索这个词？ 请注意，在显示位于特定地区的用户在 Google 上搜索某个字词的可能性时，Google 搜索解析采用的是”相对”的标准。也就是说，仅仅因为搜索”理发”一词的热门区域列表中没有出现纽约，并不一定说明纽约的用户根本不会搜索这个词。以下面几种情况为例。纽约的用户可能： 没有使用 Google 来查找理发师或理发店。 在搜索理发相关信息时使用的是其他字词。 搜索了太多与理发无关的主题，以至于与其他区域相比，对理发一词的搜索量只能占到纽约地区搜索量的很小一部分。 两者的相关疑问 数据标准化是否等同于绝对排名，与百度的区域排名相对（因为目前谷歌的搜索结果中区域排名还未出现）； 关键词的区域搜索量是否是触发区域排名机制的重要因素？（根据百度搜索结果观察） 关于“关键词区域排名与数据标准化”诚心与您共同讨论，请勿灌水，谢谢！]]></description>
		<wfw:commentRss>http://scseoer.com/keywords-regional-rankings-data-standardization.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>wordpress 链接关系(XFN)与Nofollow标签</title>
		<link>http://scseoer.com/wordpress-xfn-nofollow.html</link>
		<comments>http://scseoer.com/wordpress-xfn-nofollow.html#comments</comments>
		<pubDate>Mon, 08 Aug 2011 13:08:39 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[CMS技巧]]></category>
		<category><![CDATA[WordPress]]></category>
		<category><![CDATA[友情链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1770</guid>
		<description><![CDATA[针对SEO，每个人的操作方式不一样，搜索引擎算法经常在进行的小的更新，对于友情链接给网页权重值的影响，谷歌和百度都明显提到过。 请不要参与旨在提高您的网站排名或 PR值 的链接方案。尤其要避免链接到违规的网站或“恶邻”，因为您自身的排名会受到这些链接的负面影响。 对于友情链接的暂时降权，特别是建立在友情基础上的链接，如果直接撤掉，有点不够厚道，呵呵，如何既不会受到暂时降权的友情链接对网页权重的影响，又能给普通用户正常的推荐（显示）友情链接，这时候我们可以暂时给友情链接加上 nofollow 标签。 对于 wordpress 程序，可以在链接关系（XFN）这里想想办法，找到文件： /wp-admin/includes/meta-boxes.php 查找“&#60;table cellpadding=”3&#8243; cellspacing=”5&#8243;&#62;”，在合适的位置添加： &#60;label for=”Nofollow”&#62; &#60;input class=”valinp” type=”checkbox” name=”physical” value=”nofollow” id=”nofollow” &#60;?php xfn_check(&#8216;physical&#8217;, &#8216;nofollow&#8217;); ?&#62; /&#62; &#60;?php /* translators: xfn: http://gmpg.org/xfn/ */ _e(&#8216;暂时降权&#8217;) ?&#62;&#60;/label&#62; 保存并更新后（注意文件编码为utf-8），后台链接页面更新为： wordpress 链接关系(XFN)后台界面 修改任意链接，选择“暂时降权”，可以为该友情链接加上 rel=“nofollow” 链接属性。 当友情链接恢复正常时，可再次在后台取消“暂时降权”即可。]]></description>
		<wfw:commentRss>http://scseoer.com/wordpress-xfn-nofollow.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>站长别局限于PR这一数字</title>
		<link>http://scseoer.com/google-pagerank.html</link>
		<comments>http://scseoer.com/google-pagerank.html#comments</comments>
		<pubDate>Sun, 07 Aug 2011 18:46:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[PR]]></category>
		<category><![CDATA[点击率]]></category>
		<category><![CDATA[谷歌]]></category>
		<category><![CDATA[跳出率]]></category>
		<category><![CDATA[转化率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1767</guid>
		<description><![CDATA[谷歌在官方博客再次申明：“不要局限于PageRank：逐渐选择其它可操作性指标”，作为SEO，PR更不应该太过于关注结果，谷歌所提到的其他，主要指：转化率、跳出率、点击率 (CTR)，下面是官方说明： 在将近两年时间之后，人们仍然在发表关于这一问题的看法，通常都是这么开头“来自Susan Moskwa的惊人消息：……”。这一事实表明，PageRank在很大程度上已经成为某些网站站长的必需统计工具。即使是我曾经交流过的最没有经验的网站站长，也经常听说PageRank（简称“PR”），并且想知道更多有关PageRank的信息，以及PR对他们的网站而言意味着什么。然而，正如我在论坛发帖中所说，其实，多年来google网站管理员中心团队一直在告诫广大网站站长，他们不应该如此依赖PageRank，将其视为代表网站成功度的指标。今天，我想更详细地解释这一立场，并给大家提供一些相关的可操作性指标选项，在您一旦停止跟踪您的PR之后，能够用以消磨时间！ 为什么会选择PageRank？ 2008年，Google工程副总裁Udi Manber在 Google官方博客中写道： “在我们的排名算法中，最有名的部分是PageRank，它是由谷歌的两位创始人——LarryPage和Sergey Brin 开发出来的。目前PageRank仍被使用，只是它已成为了一个更大系统中的一部分。” 1998年，在PageRank刚刚创建时，它可能会非常突出Google作为一款搜索引擎的优势，但考虑到Manber所介绍的变化速度 —— 平均每周发布“大约9项改进”，在过去的十年里，我们有很多机会，来扩大并完善我们的排名系统。如今，PageRank再也不是秒杀一切的终极排名算法。 如果您看一下Google的技术概述，就会发现，它将相关性作为我们搜索结果的首要组成部分之一。那么，对于相关性这一点，人们为什么没有像之前对PageRank那样的关注度呢？我认为，这是因为PageRank是用数字表示的，而相关性则不是。不管是相关性，还是PageRank，两者都包括很多的复杂因素，比如背景、搜索者意图、普及性、可靠性等，但是，随着时间的推移，我们很容易在五分钟的短时间内绘制出PageRank的示意图，并提交给CEO；但对于相关性，我们则做不到这一点。我相信，PageRank的简明特点正是多年来它成为广大网站站长心目中一种必需指标的原因；但是，仅仅因为某些东西容易追踪，并不意味着它能准确地代表网站动态情况。 我们真正想要的是什么？ 我敢说，我们中没有人真正会将PageRank作为一个最终目标。PageRank只是我们真正想要的东西的一个替身，那就是：让我们的网站赚更多的钱，吸引更多的读者，进行更多的引导，以及吸引更多的电子报订阅量等。对于将PageRank作为一项成功度指标的关注，只有在以下的假设条件下才会发挥作用： 假设在较好的排名中获得较高的PageRank结果； 再假设这将推动您的网站流量提升 然后再假设这将带来更多的人在您的网站上完全按照您的设定来操作。 除了这些假设之外，请记住，我们一年之内只会对“Google工具栏”上显示的PageRank进行有限的几次更新，而且，如果我们认为某些网站违反了google网站站长指南，我们可能会降低这些网站的PageRank显示。所以，您所看到的显示的PR，与我们的算法实际用以进行排名的并不同。那么，在您能够直接衡量自己想要实现的目标时，何必在意一个远离您的实际目标至少已经三步远的数字呢？找到与您的业务目标直接相关的指标，你就可以将宝贵的时间用在进一步实现这些目标上。 如果我不追踪网站的PageRank，那应该追踪什么？ 注意一下那些与您的网站有意义的直接对应的指标，而不要只注重排名信号。也可以考虑一下那些每日或每周进行更新的指标，而不是那些一年才变化几次的数字（比如PageRank）；后者对于您来说过于缓慢了，不能供您用以了解是网站的哪些变化导致了数量的上升或下降（假设您在一年内不止几次地更新您的网站）。这里有三个指标建议，您可以从它们开始，可以使用诸如Google Analytics（分析）或谷歌网站站长工具对所有这些指标进行追踪： 转化率 跳出率 点击率 (CTR) 转化率 所谓“转化”，是指访问者在您的网站上按照您的设定进行操作。“转化”可以是完成一次购买操作，可以是注册邮件列表，或下载白皮书。转化率是指在您的网站上进行转化（执行转化）的网站访问者的百分比。这是一个完美的、与您的业务目标直接相关的指标示例，与PageRank不同。当用户进行转化时，他们正在做的事情能够以一种可衡量的方式使您的业务直接受益！鉴于您的PageRank既难以准确衡量（见上文），还会上升或下降，但对业务不会产生任何直接影响。 跳出率 所谓“跳出”，是指有人来到您的网站，然后没有访问网站上的任何网页便离开。跳出率是指在您的网站访问次数中“跳出”的网站访问者的百分比。较高的跳出率可能表明用户觉得您的网站并不具有吸引力，因为他们来后，看了一眼就直接离开了。通过观察网站上不同页面的跳出率，可以帮助您确定那些表现不佳的内容，为您指出网站上可能需要改进的领域。毕竟，如果大多数搜索者在访问您的网站后立刻就跳出，那么，不管您的网站排名如何靠前，都没什么意义。 点击率 (CTR) 在自然搜索结果的情况下，点击率是指，在您的网站在搜索结果中显示的所有次数中，人们点击网站的频率。较低的点击率意味着，不管您的网站排名如何靠前，用户都不会点击它。这可能说明，他们不认为您的网站会满足他们的需求，或其他网站看起来更好些。提高点击率的方式之一是，查看一下您的网站标题和网页摘要在Google搜索结果中的显示效果：它们是令人信服的吗？它们能准确地代表每个URL的内容吗？能够吸引搜索者点击它们吗？这里有一些旨在改善您的网页摘要的建议；网站管理员工具中的HTML建议部分也可以为您指出可能需要帮助的网页。再一次，请记住，如果搜索者并不想点击它，那么，您的网站排名即使再靠前也没什么用。 有一些专门的博客和书籍都详细地介绍和探索了各种网页指标，所以，如果我的解释只是碰触到了这一问题的表面，请您谅解；如果您想深入探究这些主题，不妨从网站分析宗师Avinash Kaushik的网站开始。但是，希望我至少能让您相信，有一些比PageRank更直接、更有效、更可控的方式可以用来衡量您的网站的成功度。 最后要注意的一点是：有些网站所有者对自己网站的PR非常关注，是因为除非他们拥有较高的PageRank，否则人们不会购买他们的网站链接。为了传递PageRank而购买或销售链接是违反我们的网站站长指南的，并极有可能给您的网站带来负面后果，所以1）我强烈反对这种做法，2）如果这是您的既定目标，那么如果我们无意帮助您提高PageRank或改善您的网站，请不必感到惊讶。 以前有类似的文章，我们不应该只关注数字，而应该多关注正常情况下形成数字的过程，当然谷歌说的更明确一点，关注网站自身的发展与转换率。]]></description>
		<wfw:commentRss>http://scseoer.com/google-pagerank.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>主题信息的一种搜集与处理模型及其应用</title>
		<link>http://scseoer.com/processing-model-application.html</link>
		<comments>http://scseoer.com/processing-model-application.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:20:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[实验]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1753</guid>
		<description><![CDATA[人们现在普遍认为，自然科学各学科的研究都有三个支柱：理论、实验和模拟。例如我们有理论物理学，实验物理学，计算物理学。随着计算机应用的不断普及，这样的方法论也在向社会科学拓展，例如在经济学研究领域用计算机来模拟市场行为已经不是新鲜事了。我们这里要指出的是，计算机在社会科学领域的应用不仅仅是模拟，在更多的场合是拓展其实验的深度和广度。我们知道，社会科学的实验主要通过采样调查，统计分析来实现。有了计算机，这样的工作在范围和规模上就可以大大扩展。不仅如此，我们还看到，由于有了计算机，社会科学工作者还有可能设计全新的实验。这是和自然科学不同的。在那里，规模更大、精度更高的实验往往意味着更加昂贵的专门实验设备。 本节以新闻传媒领域为例，提出一个实验模型。该模型的基本精神是利用一个明确定义的信息搜集与分析的过程，来确定某个主题在网络媒体上不同层面表现的强度，相当于考察传播学中“议程设置”的情况。这里的要点是，没有非平凡的计算机技术的应用，这样的模型就不可能实现；而这个模型的程序实现，相当于为网络传播学的研究构建了一个强大的实验设备。 一、 模型设计 宏观上看，本节描述的模型是一个过程，它针对人们关心的热点主题，系统地对网上的信息进行搜集和分析，从不同的角度和层次得出互联网对该主题报道的强度。它包含如下几个步骤：样本空间的选取，主题特征的提取，设置目标参量，网页的搜集以及数据的后处理。下面分别说明这些步骤。 1、样本空间的选取 当我们要系统地研究一个主题在互联网上表现强度的时候，最理想、最彻底的办法是将网上的所有信息考察一遍。但这显然是不现实的。通常，我们只能取一个样板空间来研究。具体来说，样板空间就是网页总体集合的一个子集，对应于若干特定的网站中的若干特定的网页。这有两个因素需要考虑： 样板空间的选取要和主题宣传的设计受众相关。这里强调“设计受众”是因为我们关心的主题的表现强度只是针对它的设计受众才有意义。例如，若主题是“F4”，则要选取20岁左右的青年人喜欢上的网站；若主题是“创建世界一流大学”，则要选取大学师生和管理人员经常上的网站。 样本空间本身有“时间”和“空间”两方面的含义。所谓“时间”含义是指对一个主题的舆论强度研究常常要有一个时间区间，在时间上如何采样是需要斟酌的，每隔一小时、一天，还是一个星期；所谓“空间”含义是指不仅要考虑对哪些网站的选取，还可能要考虑对所选取的网站中哪些内容采样。 2、主题特征的提取 在本节模型中，主题的特征分为两个层次，各为一个词组的集合。第一个层次叫做主题词组，第二个层次叫做主题相关词组；按定义，后者总是包含前者。为提取主题特征，我们借鉴[Glover, et al.,2002]实验方法中的基于全文分类方法, 并根据中文信息的特点进行了简化和改进。 首先人工判断整理少量和主题相关的典型网页（训练集），然后对它们的内容进行串频统计。串频统计以任意相邻的2－15个字为一个串，统计它们在训练集中出现的频率。提取出现频率较高的串，删除其中的常用普通词和无意义的串后，把它们作为该主题的特征（这些串被称为特征串，下同），进而人工将它们分成上述两个层次。这样形成的两个集合，主题词组和主题相关词组，就构成了后面判断的基础：如果一个网页含有主题词组中任意一个词，则我们称它为主题网页，若一个网页含有主题相关词组中任意一个词，则我们称它为主题相关网页。 3、目标参量 作为模型的输出目标，我们对样本空间的网页从3个正交的维度，每个维度分两个层次进行考察。 第一维度：宏观统计，变化过程 不仅考虑整个时间区间内搜集到的主题网页的总量，还考虑每个时间片上的主题网页数量的变化情况。整个时间区间上的主题网页的总量宏观地表现了该主题在新闻媒体报道中的重视程度。而每个时间片上的主题网页数量的变化情况，又可以详细的刻画出该主题报道的孕育、产生、增长、高潮、渐退直至消亡整个过程。 第二维度：绝对数量，相对数量 不仅考虑主题网页的绝对数量，还考虑主题网页在同期内全部网页数量中所占的比例。绝对数量和相对数量为我们比较不同时期的不同主题的报道力度提供了两种视野。比较主题网页的绝对数量，我们可以得出谁是更强大的主题报道；而比较主题网页的相对数量，我们可以得出所关心主题在媒体报道中的突出程度，两种既有区别又有联系。 第三维度：总体信息，独立信息 不仅考虑总的聚合信息量，还考虑从时间、空间上消重后的独立信息量。所谓“消重”是针对网上内容存在极大的复制现象而言的。通过对我国网上信息的一次全面搜集，我们曾经发现网页的平均复制律达到。相同的一篇报道可能被转载在不同的网页中，这种信息复制无疑给互联网用户的信息获取提供了极大的方便，但相对单个用户来说，还存在能最多获取多少条不同信息的问题。我们对搜集来的网页进行内容消重，把所有内容相同的网页算作一篇独立信息的网页，得到独立信息的网页数量，从而可以看出对该主题报道的丰富性、综合性。 注意到这三个维度的正交性，我们得到如图13-3所示的立方体，即我们有8个方面的数据要产生。 图13-3 用于表达网上主题新闻强度指标的立方体 例如“宏观统计，绝对数量，总体信息”指的是在确定的时空样板空间中所有和主题相关网页的总量、平均值、标准差等；而“变化过程，相对数量，独立信息”则表示的是在时间轴上展开样板空间的内容，考察不重复计算的主题相关信息量和总体信息量之间的相对关系。 4、网页的搜集 网页搜集策略直接影响主题的研究结果，不同的搜集策略可能得出完全不同的研究结果。好的搜集策略应该与样本空间有很好的对应，满足样本空间的“时间”和“空间”两方面的需求。我们先讨论在搜集中可能会遇到的问题，并给出一个好的面向主题的搜集策略应该满足哪些条件。 在网页搜集过程中，我们经常会遇到如下问题： a.网页的流逝性 根据Junghoo Cho的实验结果[Cho and Garcia-Molina,2000]，对于热门站点10%以上的网页的生命周期不超过一个星期。而这些短暂的网页可能是对主题的及时报道，它们的消失对主题研究是一个损失。 b.普通的搜索引擎的周期太长 目前的搜索引擎大多采用广度搜集策略，定期对网页进行全面的搜集。而在两次搜集期间，可能会有一大批网页因为更新或删除而无法搜到。 c.搜集的网页重复度大 Web页面的平均生命周期为138天，最常见的生命周期为62天。按普通的搜索策略，如果把搜索周期缩短的话，则搜集的大多数网页都是与前一次搜集相同的网页。这种搜集的效率太低，开销太大。 鉴于此，我们认为，面向主题的高效率的搜集策略应该有以下特点： 搜集频率足够高，保证周期短暂的网页仍然能有很大的概率被搜集到。（满足样本空间“时间”性的需求） 搜集策略必须保证有较高的数量覆盖率和质量覆盖率。（满足样本空间“空间”性的需求） 搜集策略必须具有较好的技术特性，以保证搜集过程的有效。 例如，通常搜集是由多个进程长时间协同工作完成，如果在同一时间这些进程都集中到一个网站上，则可能造成阻塞和拒绝服务，从而使得搜集过程出现异常。 5、数据的后处理 a.消重算法 前面提到过，要得到独立信息量，必须对具有相同内容的网页进行消重。对于搜集到的网页，存在两种形式的内容重复。第一种是在同一次搜集的网页中，可能存在着相同内容的网页，它们的产生是由于同一篇报道在不同网站上的复制，对应不同的URL。这种复制是互联网常见的现象，我们把对这种情况的消重称作空间上消重。另一种是在多次搜集中产生的，有些网页可能在多次搜集中都没有变化（即last-modify-time没变），这样它就被搜集了多次，我们把对这种情况的消重称作时间上消重。 本模型采用第七章 第二节中的消重算法：对每一篇网页进行切词，然后统计词频，并按词频由高到低的顺序对词进行排序，把这个序列看作一个字符串，截取前2048个字节生成MD5（16个字节）作为网页的一个属性，认为具有相同的MD5属性的网页它们的网页内容是相同的。这样就可以根据MD5属性对网页进行消重。该算法具有98%的准确率 。 消重工作分为两步： 第一步是对每个时间片上搜集的网页进行消重（空间上消重），统计出每个时间片上的独立信息量； 第二步再将所有时间片上消重后的网页合并在一起再进行一次消重（时间上消重），统计出整个时间区间内的独立信息量。 b.残差数据的处理 经上述过程得到的数据，绝大多数都是令人满意的，但仍会有个别数据出现了反常，这主要有两方面的因素。第一个因素是非可预测的破坏因素，比如网络故障、机器故障等，它直接影响了该时间片上的搜集效果；第二个因素与搜集策略有关，如果搜集策略的稳定性不够好，就会在个别时间片上出现明显的异常。 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/processing-model-application.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>主题信息的搜集</title>
		<link>http://scseoer.com/topic-information-gather.html</link>
		<comments>http://scseoer.com/topic-information-gather.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:06:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[主题]]></category>
		<category><![CDATA[信息]]></category>
		<category><![CDATA[抓取]]></category>
		<category><![CDATA[爬虫]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1749</guid>
		<description><![CDATA[综合性搜索引擎如同一个公共图书馆，它试图满足各类用户的查询需求，所搜集的网页内容广而泛；而由面向主题的搜集系统所建立的主题搜索引擎，则相当于一个专业图书馆，它只搜集与主题内容相关的页面。 目前，Web主题信息搜集的主要方法来源于S. Chakrabarti 于1999年构建的Foused Crawling系统，该系统采用基于样例网页驱动的主题信息的搜集方法，所搜集的主题信息由用户通过选定样例网页来确定，并基于如下的假设： 如果页面u 是一个与主题相关的页面（正例），u到页面v 有一个超链，则页面v是正例的概率远远大于在Web上随机抽取的一个页面。 一、 主题信息分布的局部性 为考察Web上主题信息分布的特征，Davison 从一个称为 DiscoWeb 的研究型搜索引擎的网页库中抽样获取了10万个页面[Davison,2000]，通过大量的反复试验，得到了不同情形下，两个页面之间的平均相关度。该试验利用向量空间模型中向量夹角的余弦值来度量两个页面之间的相似度，其中词条的权重用TF*IDF来计算。 设随机变量u和v表示Web上的两个页面，分别用如下统计量考察页面对之间相似性的平均值。 当u和v为Web上随机抽取的两个页面时，用Random表示他们之间相似度的均值；当u和v被同一个页面所链接，即：u和v具有相同的父节点页面时，用Sibling表示他们之间相似度的均值；当u为Web上随机抽取的一个页面，u是v父节点且u和v具有同一个主机（由主机名确定）时，用SameDomain表示他们之间相似度的均值；当u为Web上随机抽取的一个页面，u是v父节点,但u和v位于不同主机（由主机名确定）时，用DiffDomain表示他们之间相似度的均值。统计试验结果如图13-1所示。 图13-1 页面对的平均相关性 图13-1显示：SameDomain对具有较高的相似度，Sibling对次之，DiffDomain 略差，随机抽取的两个页面（Random）的相关度极低。由此亦可看到Web信息组织的局部化特征。从一个网页开始的随机冲浪，其主题迁移的可能性极大。 二、 一种主题信息搜集系统 Foused Crawling系统抓取网页的过程如下：首先由用户从某一开放的分类目录体系如Yahoo!中选取若干个子类节点作为主题信息，这些节点所包含的一些页面作为训练集，构造一个分类器（采用诸如第十一章的方法构造分类器）。当抓取到一个新的页面u时，首先提交到分类器进行相关度预测， 如果页面u是一个正例（页面与主题信息的相关度超过某一个阈值），则由u指向的超链放入工作池（work pool）作为待抓取的超链。否则u被剪枝，其所指向的超链亦不进一步抓取。 Foused Crawler 主要有三部分组成： 分类器（classifier），用于判定所抓取网页的相关性，进一步可确定是否对该网页所包含的超链进行扩展； 提取器（distiller），用于找到已抓取网页集的Hub，并确定待抓取URL的优先级； 抓取器（crawler），在分类器和提取器指导下、基于具有动态可配置的优先控制策略下抓取网页。 系统结构如图13-2所示。 基本抓取思想可表述为：整个Web 可以看作一个有向图G，确定一个层次分类目录体系C，如Yahoo!等，则每一个主题c∈C可以看作由G中一些样例页面构成，记这些样例页面的集合为D(c)。这些页面可以被系统进行预处理，用户的兴趣是C的一个子集C*，用于表示用户定义的主题信息。对任意一个网页q，q关于C*的相似度即为q与主题信息的相关程度，规定：父节点与主题信息的相关度定义为各子节点相关度之和。系统开始运行时，优先抓取D(C*)中的页面，之后按与D(C*)的距离及各页面相关度的大小次序进行抓取。系统的目标是抓取尽量多的相关网页，亦即追求R(V)/&#124;V&#124;的最大化，其中，V表示系统搜集到的网页集（显然，D(C*)是V的子集），R(V)表示V中与主题相关（大于某一阈值）的网页数量，或V中各网页的相关度之和。 图13-2 Foused Crawler的系统结构 上面的系统中，分类器的选择不是必须的；如Aggarwal等的Intelligent Crawling系统就是通过若干关键词来定义主题信息的[Aggarwal, et al.,2001]，但其效果在搜集页面达到相当规模后才能体现出来，且对主题关键字较敏感。用户也可以自己挑选若干样例网页作为主题信息的定义，但其效果往往低于从某一开放的分类目录体系中选择样例并构造分类器的结果，这主要在于几个词或页面不能较好的特征化一个主题信息，特别是负例的选择面太广。 马亮等设计了一个处理中文信息的主题信息搜集系统Irobot，该系统在对已搜集页面的主题相关度评价时综合考虑了页面的标题、段落标题(通常由特殊字体确定)、Anchor文本(所引用URL的说明文本)等对于页面评价具有较高价值的特征区域，并赋予了相对较高的权重系数，以此期望提高评价结果的准确性。对待搜集URL的相关性预测，考虑了一些启发因素如：一个URL父节点的主题相关度，URL所对应Anchor文本的主题相关度，URL的Sibling因素以及该URL所在Web位置的主题相关性密度等4个方面的因素，经加权计算后进行待搜集URL相关性预测，取得了较好的效果。]]></description>
		<wfw:commentRss>http://scseoer.com/topic-information-gather.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>面向主题的信息搜集与应用</title>
		<link>http://scseoer.com/application-topic-information-gather.html</link>
		<comments>http://scseoer.com/application-topic-information-gather.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:00:24 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[主题]]></category>
		<category><![CDATA[信息]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1747</guid>
		<description><![CDATA[Web信息分布的局部专题化是互联网信息所呈现的特征之一，伴随着面向主题信息获取的需求越来越多，用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。由于主题信息一般只占整个Web很小的一部分，并且具有分散性，因此传统的基于宽度优先或深度优先的搜索策略在Web信息搜集的效率上难以达到期望要求。面向主题的信息搜集系统的主要任务是利用有限的网络带宽、存储容量和较少的时间，抓取尽可能多的主题网页。 本章第一节介绍面向主题的信息搜集方法，第二节介绍一种主题信息的搜集与处理模型。]]></description>
		<wfw:commentRss>http://scseoer.com/application-topic-information-gather.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>天网知名度系统</title>
		<link>http://scseoer.com/fame-system.html</link>
		<comments>http://scseoer.com/fame-system.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:58:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1740</guid>
		<description><![CDATA[天网知名度系统是在“北大-IBM创新研究院”项目支持下研究开发的一个个性化信息检索系统。该系统是天网搜索引擎技术和先进的中文信息处理技术的结合。它针对特定的（命名）实体及其特性，建立起相关的信息资源模型，通过基于该模型的网页过滤和相关度评价，提供个性化检索和定制信息的主动推送服务。 天网知名度系统可以根据用户注册的实体信息，对搜集到的原始网页进行分析和整理，依用户指定的实体属性对每个网页内容进行相关度及正负面评价，把相关的网页进行汇集、排序，并把满足要求的网页以指定的方式加工、存储，向用户提供Web信息检索服务，或主动地以简报或邮件的形式定期向用户推送有关网页信息。 天网知名度系统结构 在天网知名度系统中，我们将用户关心的对象称为命名实体，如：个人、公司、机构等。对我们已经完成的一个实验系统（FAME）来说（主要针对个人），它要求用户将其要查询的实体信息分类注册，即使是其他用户已经注册的名命实体也要求再加以注册，系统将为每个用户登记专用的实体信息，形成个人信息库和实体信息库，以保证尽量满足每个用户的个性化检索需求。 实体信息的分类由系统根据实体的特性予以划分，如个人信息可划分为以下八类： 个人所在的领域（政府、科教、业界、影视等） 个人的名字，包括别名、笔名、艺名等，保证检索的完整性 个人所在的工作单位 个人的职业描述（主席、书记、教授、记者、演员等） 个人的兼职单位（可以有多个） 个人的社会形象 特征词（用户关心的特征描述） 个人的代表作（著作、作品名、产品名等） 我们认为以上信息基本涵盖了在社会上有一定知名度的个人的相关特征，系统将根据用户注册的这些信息去分析过滤每个网页，计算网页的相关度，如图12-3和图12-4所示。 图12-3 网页与实体相关度的建立 图12-4 个性化知名度示意图 天网知名度系统的系统结构如图12-5所示，该图的上半部分除了网页信息提取外，基本上是天网原有的系统功能模块。其中，网页搜集利用了天网的抓取功能模块，为天网知名度系统搜集中文的原始网页库Url.dat。原始网页库保存为一定结构（每个网页有固定格式的附加头信息，说明网页的地址、时间、格式等信息）的文本文件，每个网页顺序存放。原始网页经过净化预处理后输入中文分词和信息提取模块，该模块完成中文分词、词性标注、实体识别以及实体关系的提取功能，形成网页表示库，其中每个原始网页被表示成网址、网页长度（以词计）、网页文本词串、词串对应的词性标记串和HTML标记串、网页中提取的实体及其实体属性之间关系的各种信息列表（如：人名列表、单位机构名列表、人名与单位关系列表、人名与职务关系列表等），为进一步的网页评价做好准备。网页索引根据不含信息提取的分词模块所处理的结果并依据词频和位置等权重信息而进行，形成索引库。 图12-5的下半部分中，左边是用户注册信息的搜集模块。在此基础上，进行实体信息的分级概念扩展，提取用户实体信息补充词典，并形成实体信息库，为每个注册实体产生实体的描述模板（profile）。图的中间部分是网页评价模块，该模块依据网页表示库、实体信息库和实体描述模板，过滤出包含注册实体的网页，根据网页信息和实体属性为每个实体的相关网页进行相关度评价，得到网页评分文件，进一步得到网页评分库。图的右边部分是用户服务界面，用户通过该界面登录系统，提交所要查询的注册实体，系统通过检索网页评分库和网页索引库，反馈给用户按照相关度排序的网页地址和摘要的列表，用户对得到的检索结果可以给系统提交相关度评判意见，该信息将反馈给网页评价模块，用于改进今后对该实体的网页评价模型的参数；另外，用户还可以注册新的实体，从而增加实体信息库的内容；也可以提交指定的网页，交付系统给予即时评价。 图12-5 “天网知名度”系统结构 天网知名度系统网页与命名实体的相关度评价 对网页与命名实体的相关度进行评价，可以决定网页的检索相关排序。在网页相关度评价之前，天网知名度系统前期的处理工作有：对天网搜来的原始网页进行标记过滤，中文分词，同时进行实体名识别、实体名与实体特性关系的识别等，如在FAME实验系统中含有：人名识别、人名与单位（Employee_of）以及人名与职务（Post_of）等二元关系的识别，进而形成网页表示库。 网页对实体的相关度可以用一个32位整数表示，所有网页对注册实体的相关度评价结果存放在网页相关度评分库中。网页相关度评分库的结构是：网页编号（网页在索引库中的ID）、实体编号（实体在实体信息库中的ID）、该网页对该实体的相关度评分值。有了以上的准备工作，网页对实体的相关度评价流程如下： 针对网页表示库中的每一个网页： 检查其实体名列表，检索用户信息库，对其中已注册的实体名建立一个该网页对该实体名的相关度评分初值； 对检索出的注册实体列表，检查该网页中的二元关系和实体信息库，对符合匹配的关系为该网页的相关度评分增加一定分值，同时利用排除词表过滤掉重名的无关网页； 对网页分词中的有效词（对语义理解有效的大部分实词）分别检索实体信息库的各类信息，分不同情况为该网页对实体的相关度评分增加不同分值； 对网页分词中的有效词检查其HTML标记，分不同情况为该网页对实体的相关度评分增加不同分值； 根据网页长度（按词计算）、网页中的实体名个数等因素调整其相关度评分值； 形成网页相关度评分库。 基于上述思想开发的FAME实验系统，小规模实现了在75万中文简体网页的范围内提供近300个名人的网页搜索服务。网页相关度评价模块采用标准C++编码实现，在PIII700,内存512MB，SCSI 硬盘的Red Hat Linux 7.2系统下运行正常，对75万网页全部处理一遍需要约80分钟；另外，系统还实现了对个别网页单独的相关度评价功能，从而保证了系统的时新性。 该系统采用了基于内容的浅层分析技术，提取网页中人名、人的职业描述以及人所在的工作单位描述，对查询信息建立了合理的结构，大大增加了网页中有关人物分析的准确性。同时，不同的用户可以根据个人的关心焦点对同一个人注册不同的实体。 我们首先来看天网知名度系统与其它搜索引擎的横向比较结果。表12-2为部分实体在各主要检索系统中的搜索结果，其中只比较检索了前20条结果，数据x/y意为在前y 条结果中有x条与实体相关；在Fame一列显示的是对现有75万网页的检索结果，在Google、百度、天网下均有两列结果，分别显示将Fame的 [人名+单位+职业] 和 [人名+单位] 等信息作为关键词的查询结果（因为若把Fame的全部信息作为关键词，很多实体将无匹配网页），其中y&#60;20 的说明检索出的结果不足20条。 表12-2 天网知名度系统与其他检索系统的横向比较结果 表12-2中数据仅为网页与实体是否相关的结果比较，可以看出，Fame仅对75万网页检索的检索结果是不错的，与Google 的海量网页库检索结果基本相当，在有几项上还要好一点，并优于百度和天网的海量网页库检索结果；而Fame的优势在于网页与实体相关程度的排序。由于各检索系统检索出的网页集合有很多差别，目前尚未找到一个合理的定量比较方法。但从实际检索的结果看，Fame 的排序结果优于其他检索系统，政府、科教等类的排序效果尤其突出。 其次我们来看一下不同的相关度评价策略对天网知名度检索结果的纵向影响。我们可以利用的信息有网页的词频、HTML标记、用户注册的信息以及从网页中提取的二元关系，实验是将这些信息逐步加入我们的评价策略，观察它们检索结果的影响。表12-3给出了对若干个实体的六种（A-F）评价结果，具体为 A、纯文本(词频) B、A+结构化用户信息 C、A+HTML标记信息 D、A+二元关系 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/fame-system.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于Web挖掘的个性化技术的发展</title>
		<link>http://scseoer.com/web-system-development.html</link>
		<comments>http://scseoer.com/web-system-development.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:44:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[发展]]></category>
		<category><![CDATA[技术]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1737</guid>
		<description><![CDATA[基于Web挖掘的个性化技术发展有如下趋势： 1、与人工智能技术的结合 个性化系统领域的许多问题最终都可归结到机器学习、知识发现等问题上。用户建模过程通常都应用到代理和多代理技术。因此人工智能技术与Web挖掘技术的结合将会促进Web个性化系统的飞速发展。 2、与交互式多媒体Web技术的结合 随着下一代互联网技术的飞速发展与应用，未来的Web将是多媒体的世界。Web个性化技术和Web多媒体系统结合出现了交互式个性化多媒体Web系统。支持海量多媒体数据流的内容挖掘将成为Web挖掘技术的基本功能之一。由于这种基于内容的交互式个性化多媒体Web系统更能满足用户需要，因此也将成为Web个性化系统的发展方向之一。 3、与数据库等技术的结合 Web挖掘技术的基础是数据挖掘。尽管Web数据由于自身的特性（如海量、半结构、超链信息等）使得Web挖掘面临着新的挑战，但是随着数据库技术，特别是数据挖掘技术的发展，Web挖掘技术也将得到快速的发展。当然，为解决诸如质量评价、性能以及隐私问题，基于Web挖掘的个性化技术在这些方面也将得到长足的发展。]]></description>
		<wfw:commentRss>http://scseoer.com/web-system-development.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>典型个性化Web服务系统的比较</title>
		<link>http://scseoer.com/web-service-system.html</link>
		<comments>http://scseoer.com/web-service-system.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:42:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[服务]]></category>
		<category><![CDATA[系统]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1734</guid>
		<description><![CDATA[目前已经出现了多个应用Web挖掘技术创建的个性化Web服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘；收集数据的方式有三种：从客户端、代理或服务器方得到原始数据；最后提供的服务有两类：过滤服务和导航服务。表12-1根据这三个方面的不同，比较了基于Web挖掘的典型Web个性化系统。 表12-1 典型Web个性化系统的比较 尽管Web挖掘技术已经在Web个性化系统中得到了广泛的应用，但是还存在着以下几个方面的问题。 1、隐私问题 这是一个不可回避的问题。因为要想建立个性化Web系统就必须有用户的参与同时还要分析用户反馈的信息。这就可能涉及到用户的隐私。目前的Web个性化技术还不能很好的解决这个问题：即在实现个性化服务的同时又不侵犯用户的隐私。 2、性能问题 Web个性化系统都不同程度地扩展了传统的浏览器/服务器体系结构，Web信息经过相应处理后才返回客户端，就必然会延长响应时间。实时个性化系统对响应时间要求比较高，特别是采用中间代理方式的系统，如果中间处理过程费时过多或用户数量过大，系统性能将是一个不可忽视的问题。而且针对Web系统,无论是其用户量,还是系统维护的网页通常都是海量的,目前的Web挖掘算法在处理这些数据时通常都采用离线方式，因此对于要求在线实时处理的情况还不能很好地解决。 3、质量评价问题 应用Web挖掘技术实现Web个性化服务，不同系统采用不同的Web挖掘技术，如何评价它们的建模效果以及系统最终的服务质量也是一个非常重要的问题。目前对个性化系统服务质量的评价，不同系统采用不同的方式和测试数据，因此，还没有一个通用的标准来客观评价多个不同个性化系统服务质量的优劣。需要研究一种通用的性能指标并开发相应的Benchmark来评价各种不同的Web挖掘技术。]]></description>
		<wfw:commentRss>http://scseoer.com/web-service-system.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Web挖掘技术</title>
		<link>http://scseoer.com/web-mining-technology.html</link>
		<comments>http://scseoer.com/web-mining-technology.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:39:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[结构]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1731</guid>
		<description><![CDATA[Web挖掘技术是实现Web个性化服务的核心技术之一。Web挖掘的一般过程可以分成三个阶段： 预处理：需要对收集的数据进行必要的预处理，如清除“脏”数据。 模式发现：应用不同的Web挖掘算法发现用户访问模式。 模式分析：从发现的模式集合中选择有意义的模式。 Web挖掘通常可以分成三大类，如图12-2所示。 图12-2 Web挖掘的分类 Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时，人们通常应用Web内容挖掘对网页内容进行分析，其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。根据实现方法的不同可以分成基于代理的方法和数据库方法。Web内容挖掘由于直接处理数据对象的内容，因此得到的结果一般比较精确，在个性化系统中得到较广泛的应用。 Web使用挖掘技术通常可以应用到两个领域: 当用来分析Web服务器的访问日志时，可以利用挖掘得到的服务模型来设计适应性Web站点；当应用到单个用户时，通过分析用户的访问历史来发现有用的用户访问模式。Web使用挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志，无法得知数据对象代表的内容，因此得到的结果一般比较粗糙，但是由于该方法比较成熟而且实现起来也较内容挖掘简单，在个性化系统中也得到了较广泛的应用。Web使用挖掘的基本方法包括：聚类、关联规则、序列模式、分类、依赖性建模、统计分析等。 Web结构包括页面内部的结构以及页面之间的结构。挖掘Web结构信息对于导航用户浏览行为、 改进站点设计、 评价页面的重要性等都非常重要。PageRank算法和HITS算法利用Web页面间的超链接信息计算“权威型”（Authorities）网页和“目录型”（Hubs）网页的权值。Web结构挖掘通常需要整个Web的全局数据，因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。]]></description>
		<wfw:commentRss>http://scseoer.com/web-mining-technology.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>基于Web挖掘的个性化技术</title>
		<link>http://scseoer.com/web-mining.html</link>
		<comments>http://scseoer.com/web-mining.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:33:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[服务]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1728</guid>
		<description><![CDATA[所谓Web个性化，实质上就是一种以用户需求为中心的Web服务。如图12-1所示。首先，不同Web用户通过各种途径访问Web资源，如图12-1中箭头a所示。其次，系统学习用户的特性，创建用户访问模型，如图12-1中箭头b所示。最后，系统根据得到的知识调整服务内容，以适应不同用户的个性化需求，如图12-1中箭头c所示。因此创建Web个性化服务系统的一般步骤为： 收集用户的各种信息，如注册信息，访问历史等； 分析用户数据，创建符合用户特性的访问模式； 结合用户特性，向用户提供符合其特殊需求的个性化服务。 用户对系统提供的服务做出反馈信息，系统根据反馈信息调整服务。通过用户与系统之间循环往复的交互，系统最终能够为用户提供个性化服务。从上面的分析可以看出，通过分析用户的各种信息建立用户访问模式是建立个性化服务系统的关键。因为只有首先客观地描述了用户的需求，然后才能根据这些特性向用户提供个性化服务。 图12-1 Web个性化的实质]]></description>
		<wfw:commentRss>http://scseoer.com/web-mining.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>搜索引擎个性化查询服务</title>
		<link>http://scseoer.com/search-engine-personalized-service.html</link>
		<comments>http://scseoer.com/search-engine-personalized-service.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:31:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1726</guid>
		<description><![CDATA[一般的搜索引擎是基于关键词匹配的方式进行检索的，由于这种方法缺乏对关键词语义的理解，检索结果对用户而言不够理想。主要表现在两个方面： 检索结果中无关的网页过多。在所有检索结果中经常是大多数结果与用户的需求无关。尽管某些网页含有检索关键词，实际上同用户的本意无关，但是也被返回给用户了。 没有考虑不同用户的个性差异。 目前，所有用户如果输入相同的查询条件，搜索引擎就会返回相同的结果，尽管这些用户的需求各不相同。事实上，不同的用户由于受教育水平、工作环境等因素的不同而具有鲜明的个性，希望搜索引擎能够提供个性化服务，使得查询结果符合用户的个性需求。因此，如何提高搜索引擎检索结果的精度并向用户提供个性化服务已成为搜索引擎技术的一个新的发展方向和研究热点。 本章第一节讨论基于Web挖掘的个性化服务技术，第二节介绍我们研究开发的一个网上针对某一对象类的信息进行个性化查询服务的系统——天网知名度系统。]]></description>
		<wfw:commentRss>http://scseoer.com/search-engine-personalized-service.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>截尾算法</title>
		<link>http://scseoer.com/truncation-algorithm.html</link>
		<comments>http://scseoer.com/truncation-algorithm.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:27:57 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1722</guid>
		<description><![CDATA[对于一篇待分类文档，应用m元分类算法通常得到多个类别。一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。这个过程使用的方法通常被称为阈值策略。下面简单介绍三个比较常见的阈值策略。 1、位置截尾法（rank-based thresholding，记为RCut） 假设分类系统预先定义的类别数为m。整数k大于1并且小于m。对于每一个待分类的文档D，分类系统都返回一个长为m的候选类列表，取候选类列表的前k项（按类和文档的相似度排序），这篇文档就被认为属于这k个类。这种阈值策略就被称为位置截尾法。RCut方法的优点是实现非常简单，能够胜任在线分类工作。但它存在严重的缺陷：假设待分类的文档数目为n，候选类列表的每个位置都对应m个候选类。即使k变化1，每篇文档的类关系都要发生变化。因此，无法平滑地调整分类系统的性能。我们称RCut算法是以文档为中心的。 2、比例截尾法（proportion-based thresholding，记为PCut） 假设待分类的文档数目为n，预先定义的类别数为m。Pi表示训练集中属于类i的文档所占的比例。系统首先计算出每篇待分类文档的候选类列表，然后生成每个类的候选文档列表（按类和文档的相似度排序）。对于类i，取这个类的候选文档列表中的前n*Pi*x篇文档属于这个类，其他的文档则不属于这个类。其中x是经验比例因子（为一实数），通过改变它的大小，可以平滑地调整系统的性能。PCut算法的基本思想是控制分入各个类的文档数，使它们保持训练集中各个类文档数的比例关系。这种算法最大的问题是过分依赖于这种比例关系，而没有考虑类和文档的相似度以及类在候选类列表中的位置。可以看到，PCut算法是以类别为中心的。同RCut算法相比，PCut算法的系统性能比较平滑，但是不适用于在线分类。 3、最优截尾法（score-based local optimization thresholding，记为SCut） 同PCut算法一样，Scut算法也是以类别为中心。假设待分类的文档数目为n，预先定义的类别数为m。系统首先计算出每篇待分类文档的候选类列表，然后生成每个类的候选文档列表（按类和文档的相似度排序）。对于候选类列表里的每一个类，如果这篇文档和这个类的相似度大于这个类的最优截尾相似度，那么这篇文档就属于这个类。否则，这篇文档就不属于这个类，其中，每个类的最优截尾相似度是这样预先取得的：将训练集分成两部分，其中一部分仍然作为训练集，另一部分作为测试集，对每一个类，评价分类系统在这个测试集下对于这个类的分类性能，调整截尾相似度，使得系统的性能达到最优，此时截尾相似度的值就是这个类的最优截尾相似度。SCut算法性能比较优异，但是不能很好地处理那些稀有类别（就是比较少见的类别）。 表11-5 RCut和SCut截尾算法的比较 文献[Yang,2001]比较研究了上述三种阈值策略，结果发现SCut算法效果明显优于PCut和RCut算法。由于本文使用的训练样本分布比较均匀，每个类平均有17个训练网页，对于这种基本按比例分布的样本集，PCut方法就没有什么作用了,因此，我们比较研究了RCut和SCut方法,总体分类结果如表11-5所示。 从表11-5可以看出，SCut方法比RCut方法在分类质量上要好，而分类效率却要差些，但是两者的差别不是十分明显。这里，RCut方法的分类质量同基本kNN方法的分类质量完全一样，因为通过实验测试发现，当R=1时，分类器的分类质量最好，RCut的这种取大的一个文档类别的计算方法同普通kNN的计算方法一样。所以，两者的分类结果是一样的。具体达到12个大类，两者分类结果的比较见图11-15所示，从中可以看出，SCut比RCut方法的效果要好一些。 图11-15 RCut和SCut截尾算法的比较]]></description>
		<wfw:commentRss>http://scseoer.com/truncation-algorithm.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>网页自动分类算法</title>
		<link>http://scseoer.com/automatic-webpage-classification-algorithm.html</link>
		<comments>http://scseoer.com/automatic-webpage-classification-algorithm.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:23:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1708</guid>
		<description><![CDATA[在本章第二节，我们有了一个关于各种文档自动分类算法的概貌。下面对几个比较典型的分类算法进行具体的介绍，并给出了 kNN与NB算法的分类质量与效率的实验结果比较。 一、典型分类算法 1、kNN分类算法 kNN分类算法是一种传统的基于统计的模式识别方法。算法思想很简单：对于一篇待分类文档，系统在训练集中找到k个最相近的邻居，使用这k个邻居的类别为该文档的候选类别。该文档与k个邻居之间的相似度按类别分别求和，减去一个预先得到的截尾阈值，就得到该文档的类别测度。用kNN也表示所选k个最相近文档的集合，公式（11-9）刻画了上述思想。 其中，x为一篇待分类网页的向量表示；di为训练集中的一篇实例网页的向量表示；cj为一类别；y(di,cj)∈{0,1}（当d属于cj时取1；当d不属于cj时取0）；bj为预先计算得到的cj的最优截尾阈值；sim(x,di)为待分类网页与网页实例之间的相似度，由文档间的余弦相似度公式（11-10）计算得到： kNN算法本身简单有效，它是一种lazy-learning算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。kNN分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为n，那么kNN的分类时间复杂度为O(n)。 2、NB（Naïve Bayes）算法 NB算法是基于贝叶斯全概率公式的一种分类算法。贝叶斯全概率公式的定义如公式(11-11)所示。 给定一个类c以及文档d(a1，a2，…，an)，其中ai表示文档d中出现的第i个特征项的权值，n为文档中出现的特征项的总数。根据全概率公式，可以得到公式(11-12)： 其中，P(c&#124;d)表示文档d属于类别c的概率；P(c)表示待分类的文档所处的领域中文档属于这个类的概率，在具体的计算时，可以分别用训练集中属于这个类的文档所占的比例代替。P(ai&#124;c)表示在类别c中特征项ai出现的概率，可以近似地用训练集中包含有该特征项的类别c中的文档个数与训练集中类别为c的文档总数的比值表示。 由此可以看出，NB算法假设文档之间的特征项都是相互独立的。但是，这一假设对语义丰富的语言文字信息往往过于简单，这也在一定程度上限制了算法的性能。 NB算法需要使用训练集对分类器进行训练，也就是需要分别计算每个P(ai&#124;c)。假设训练集共有m个类别，n个特征项，待分类文档共有k个特征项，那么训练的时间复杂度为O(m*n)。分类的时间复杂度为O(k)。 3、决策树（Decision Tree，Dtree）算法 决策树算法通过对训练数据的学习，总结出一般化的规则，然后再利用这些规则解决问题。用决策树进行文档分类的基本思路是这样的：先用训练集为预先定义的每一个类构造一棵决策树，构造方法如下： 以训练集作为树的根结点，它表示所有的训练文档，将它标记为“未被检测”； 找到一个标记为“未被检测”的叶结点，如果它表示的所有文档都属于这个类，或者都不属于这个类，将这个叶结点的标记改为“已被检测”，然后直接跳到第三步；否则，挑选当前最能区分这个结点表示的文档集中属于这个类的文档和不属于这个类的文档的特征项作为这个结点的属性值，然后以这个结点为父结点，增添两个新的叶结点，都标记为“未被检测”，父结点表示的训练文档集中含有这个特征项的所有文档用左子结点表示，所有不含有这个特征项的文档用右子结点表示； 重复第二步操作，直到所有的叶结点都被检测过。 对每棵决策树，从它的根结点开始，判断结点的属性值（特征项）是否在待分类的文档中出现，如果出现，则沿着左子树向下走；否则沿着右子树向下，再继续判断当前结点的属性值是否在待分类的文档中出现，直到到达决策树的某个叶结点，如果这个叶结点表示的训练文档都属于这个类，则判定这篇待分类的文档也属于这个类；反之亦然。 4、Rocchio算法 其基本思想是使用训练集为每个类构造一个原型向量，构造方法如下：给定一个类，训练集中所有属于这个类的文档对应向量的分量用正数表示，所有不属于这个类的文档对应向量的分量用负数表示，然后把所有的向量加起来，得到的和向量就是这个类的原型向量，定义两个向量的相似度为这两个向量夹角的余弦，逐一计算训练集中所有文档和原型向量的相似度，然后按一定的算法从中挑选某个相似度作为界。给定一篇文档，如果这篇文档与原型向量的相似度比界大，则这篇文档属于这个类，否则这篇文档就不属于这个类。Rocchio算法的突出优点是容易实现，计算（训练和分类）特别简单，它通常用来实现衡量分类系统性能的基准系统，而实用的分类系统很少采用这种算法解决具体的分类问题。 二、kNN与NB算法比较 文献[Yang and Liu,1999]比较研究了支持向量机（SVM）、kNN、NB、Linear Least Squares Fits（LLSF）、和Neural Network（NNet）算法。研究结果表明，当训练集中每个类的正面实例比较少(少于10个)的情况下，SVM、kNN、LLSF的性能明显优于NNet和NB算法。这里，我们将比较研究kNN和NB算法。 表11-2 kNN和NB算法的分类质量和分类效率比较 从表11-2可以看出，kNN的质量明显优于NB算法，但是，NB算法的分类效率要比kNN方法略高。kNN和NB分类算法对12个不同类别的分类情况见图11-10所示。 图11-10 kNN与NB分类结果的比较 从图11-10可以看出，kNN分类算法明显优于NB算法，对于所有类别，kNN的分类结果都优于NB。从图11-10还可以看出，即使是同一个算法对于不同类别的文档，其分类能力也是各有差异的。在“医疗与健康”领域，kNN的Macro-F1达到最高值；在“新闻与媒体”领域，kNN的分类Macro-F1达到最低值。对于“医疗与健康”领域，NB的Macro-F1达到最高值；在“计算机与因特网”领域，NB的Macro-F1达到最低值。从总体而言，NB算法对不同类别比较敏感, 是一种不稳定的分类算法。kNN的分类质量受领域的影响不大。 图11-11 k的取值对分类器质量的影响（Marco-F1） 图11-12 k的取值对分类器质量的影响（Micro-F1） 针对kNN分类算法，我们分析了3种因素对分类质量的影响： k的取值； 衡量两篇文档之间相似度的方法：兰式距离法（Canberra metric）与欧式距离法（Euclidean distance）；分类目录中类别之间的层次关系。下面首先介绍k的取值对分类质量的影响。 1、k的取值 在前文的实验中，我们一直取k=20，但这不一定是k的最好取值。因此，这里我们将通过具体实验来验证k的取值对分类质量的影响。 从图11-11和图11-12可以看出，当k=15时，分类器具有最佳的分类质量，随后，随着k值的增加，分类器分类质量有所下降，最后平稳下来。 2、相似度的度量 为了计算两个文档之间的相似度可以有多种距离函数，其中欧式距离和兰式距离在实际的分类系统中用的较多，通常使用的两个向量之间夹角的余弦就是兰式距离的一种。 表11-3 欧式距离与兰式距离的比较 从表11-3可以看出，无论是分类质量，还是分类效率，应用兰式距离法来度量两个文档之间的相似度的分类效果明显优于欧式距离法。兰式距离法与欧式距离法对12个不同类别的分类情况如图11-13所示。 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/automatic-webpage-classification-algorithm.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>文本分类特征选取</title>
		<link>http://scseoer.com/text-classification-feature-selection.html</link>
		<comments>http://scseoer.com/text-classification-feature-selection.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:56:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[性能]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1697</guid>
		<description><![CDATA[实现文本自动分类的基本困难之一是特征项空间的维数过高。所谓“特征项”在中文文本中主要指分词处理后得到的词汇，而特征项的维数则对应不同词汇的个数。数量过大的特征项一方面导致分类算法的代价过高，另一方面导致无法准确地提取文档的类别信息，造成分类效果不佳。因此，需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。“特征选取”的任务就是要将信息量小，“不重要”的词汇从特征项空间中删除，从而减少特征项的个数，它是文本自动分类系统中的一个关键步骤。 为便于后面的描述，这里简要给出特征选取的一般过程。给定训练文档集合D = {d1,…,dn}，设T={t1,t2,…,tm}为对D中的文档做分词后得到的词汇全集，用[m]表示集合{1,2,…,m}。所谓“特征选取”可以看成是确定从TERMS到[m]的一个1-1映射，即 然后根据计算开销的考虑，取一个i∈[m]，认为T中那些函数值不小于i的词汇为“选取的特征项”，记做Ts。 在完成了特征选取后，分类就是基于Ts，即以其中的元素为基础，用一个向量来表达每一个文档。分类的过程就是按照某种算法来比较待分类文档的表示向量和训练集文档的表示向量，取最相近者所处的类为待分类文档的类。 [Yang and Pedersen,1997]研究了多种特征选取方法，如：文档频率（Document Frequency，DF）、信息增益（Information Gain，IG）、互信息（Mutual Information，MI）、开方检验（ test，CHI）、术语强度（Term Strength，TS）等。针对英文纯文本χ2比较研究了上述五种经典特征选取方法的优劣。 实验结果表明：CHI和IG 方法的效果最佳；DF 方法的性能同IG 和CHI 的性能大体相当，而且DF方法还具有实现简单、算法复杂度低等优点；TS方法性能一般；MI方法的性能最差。针对中文网页，其结论是否还正确，目前还没有很明确的结论。因此，本节使用同一个中文网页数据集评测了DF、IG、MI以及CHI等四种常见的特征选取方法。下面对这些典型的特征选取算法做一下简单地介绍： 1、文档频率 DF表示在训练集中包含某个特征项t的文档数。这种衡量特征项重要程度的方法基于这样一个假设：DF较小的特征项对分类结果的影响较小。这种方法优先取DF较大的特征项，而DF较小的特征项将被剔除。即特征项按照DF值排序。这里，为物理意义清楚起见，我们并没有象本节开始那样严格的从TERMS到[m]的映射，但显然这是没有困难的，不赘述（后同）。不过我们注意到，这种策略不符合被广泛接受的信息检索理论：高频词没有低频词对文档特征贡献大。DF是最简单的特征项选取方法，而且该方法的计算复杂度低，能够胜任大规模的分类任务。 2、信息增益 IG通过统计某个特征项在一篇文档中出现或不出现的次数来预测文档的类别。IG的计算公式如公式(11-4)所示。 其中：pr(ci)表示一篇文档属于类别ci的概率；pr(t)表示特征项t在一篇文档内出现的概率；表示特征项t不在一篇文档内出现的概率；Pr(ci│t)表示特征项t在属于类别ci的文档内出现的概率；表示特征项t不在ci属于类别的文档内出现的概率。m是文档类别数。G(t)值大则被选取的可能性大，即特征项按照G值排序。 3、 互信息 MI使用公式（11-5）计算某个特征项和类别之间的相关性。 其中：A为和c同时出现的次数；tB为出现而没有出现的次数；C为c出现而没有出现的次数。N为所有文档数。如果t和c不相关，则值I(t,c)为0。如果有m个类，于是对于每个t会有m个值，取它们的平均，就可得到特征选取所需的一个线性序。大的I平均值的特征被选取的可能性大。 4、CHI 使用MI衡量特征项的重要程度时，只考虑到了正相关对特征项重要程度的影响。如果特征项t和c类别反相关，就说明含有特征项t的文档不属于c的概率要大一些，这对于判断一篇文档是否不属于类别c也是很有指导意义的。为克服这个缺陷，CHI使用公式（11-8）计算特征项t和c类别的相关性。 其中：A为和c同时出现的次数；B为t出现而c没有出现的次数。C为c出现而t没有出现的次数；D为t和c同时没有出现的次数。N为训练集中的文档数。与MI类似，如果t和c不相关，则χ2(t,c)值为0。同MI相同，如果有m个类，每个t就会有m个值，取它们的平均，就可得到特征选取所需的一个线性序。大的χ2平均值的特征被选取的可能性大。 图11-8 CHI、IG、DF、MI的比较（Macro-F1） 为了观察特征项的个数对分类器性能的影响，我们分别使用CHI、IG、DF、MI特征选取算法挑选出不同个数的特征项。图11-8和图11-9分别表示当取不同百分比的特征项时，分类器宏观F1和微观F1的变化。这里需要说明的是，最右边的45%表示的所有特征项都被保留下来，而不是仅保留前45%个特征项。 从图11-8可以看出，CHI方法最优，在取前15%的特征项时，分类器的质量就稳定下来了；使用DF方法时，分类器的宏观F1波动最小，可以过滤掉80%的特征项；MI方法和IG方法都在取前25%的特征项时，分类器的质量才稳定下来了。 图11-9 CHI、IG、DF、MI的比较（Micro-F1） 从图11-9可以看出，IG方法最优，在取前15%的特征项时，分类器的质量就稳定下来了；使用DF方法时，分类器的宏观F1波动最小，可以过滤掉80%的特征项；MI方法最差，在取前25%的特征项时，分类器的质量才稳定下来了。 综合图11-8和图11-9，可以看出，CHI、IG和DF的性能明显优于MI；CHI、IG和DF的性能大体相当，都能够过滤掉80%以上的特征项；DF具有算法简单、质量高的优点，可以用来代替CHI和IG，但是同被广泛接受的信息检索理论有些矛盾。我们这里得到的结论，同文献[Yang and Pedersen,1997]使用普通英文文本评测结果基本一致。]]></description>
		<wfw:commentRss>http://scseoer.com/text-classification-feature-selection.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页分类器训练样本</title>
		<link>http://scseoer.com/webpage-classifier-experiment-set-2.html</link>
		<comments>http://scseoer.com/webpage-classifier-experiment-set-2.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:26:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[搜集]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1690</guid>
		<description><![CDATA[为了推进信息检索领域的发展，由美国国家标准和技术研究院（NIST）、信息技术实验室（ITL）检索小组、美国国-防-部高级研究计划署（DARPA）信息技术处、高级研究开发机构（ARDA）等单位共同发起了有全球影响的信息检索会议TREC，自1992年起每年一次；TREC会议实际上是文本信息检索系统的擂台赛，可以说，在TREC上展示的文本分类系统代表了文本分类领域的最新研究成果。一些大学，如CMU、BERKLEY、CORNELL等和一些公司带着自己开发的文本分类系统参加会议，由大会使用相同的训练集和测试集对这些系统进行评测。 中国科学院计算所、清华大学、复旦大学等单位近几年也有派队参加，并取得了不错的成绩。同时我们注意到，由于Web技术的发展，TREC也逐步开始提供标准的英文网页语料来评测Web信息检索系统。 表11-1 样本集中类别及实例数量的分布情况表 与面向英文的分类系统相比，中文分类系统的起步比较晚。从第五次TREC会议开始，增加了对中文分类系统的评测。实际上参加TREC-5的中文分类系统处理的重点还停留在中文的分词问题上，而且处理的对象还是新华社的新闻稿这类普通的中文文本。基于案例的有指导的机器学习方法是实现中文网页自动分类的理论基础。 因此，中文网页训练集是实现中文网页自动分类的前提条件。但是，到目前为止，还没有出现标准的中文网页语料库，因此也没有出现针对中文网页分类系统的评测。为了解决这一问题，我们通过动员不同专业的几十个学生，人工选取形成了一个基于层次模型的大规模中文网页样本集1。它包括12,336个训练网页实例和3,269个测试网页实例，分布在733个类别中，每个类别平均有17个训练实例和4.5个测试实例。样本集中类别及实例数量的分布情况如表11-1所示。 此外，为了搜集网页的方便，我们开发了一个网页实例集的搜集和整理的工具WebSmart，如图11-4所示。经过实际应用的检验，表明该工具操作方便，使用它可以非常方便地实现网页实例集的搜集和整理。 图11-4 WebSmart —一个网页实例集搜集和整理工具 下面简要地介绍上述中文网页样本集的分类体系。长期以来，国内外已存在一些可以借鉴的信息内容分类标准，通过比较分析它们的特点和对中文网页这一新型分类对象的适应性，提出了我们的分类体系。 国外具有代表性的分类标准有：《杜威十进分类法》、《美国科研系统常用分类法》、《联合国教科文组织大学学科分类法》等。由于文化背景、思维习惯等方面的不同，这些标准不能完全适应中文文献的分类。例如，分类名称和涵义存在着差异，国内多数分类法把人文科学包含在社会科学（哲学社会科学）领域内，而国外通常将社会科学和人文科学加以区别。 国内具有代表性的分类标准有：《中国图书馆分类法》（2000年第四版）；国家标准GB/T 13745-92《学科分类与代码》。这两种标准都不能满足我们的需要。《中国图书馆分类法》处理的对象是图书而非网页、分类体系比较复杂，因而不适合中文网页的分类。因为在Web上存在着大量的“新闻与媒体”类和“娱乐与休闲”类网页，用图书分类的方法来对网页分类是不精确的。而且对于非专业人员占绝大多数的普通Web用户而言，这些分类难以理解。《学科分类》标准于1992年制定，由于制定的时间过久，现在网上大量出现的新生概念，如：聊天室、虚拟社区、个人主页、在线论坛等等，在这个标准中没有体现。同时，该标准还包括大量已经过时了的类别。这些类别在标准制定时体现了先进的技术，但是目前已经被其他技术所取代或很少被人提及。 因此，上述的两个分类标准不能直接用作中文网页的分类。同时，我们还看到著名的分类目录网站，例如Yahoo!, 新浪，搜狐等都有一个在网上实用的内容目录。经过分析整理，本文最终决定采用的分类体系如图11-5所示。它包含三个层次，12个大类，共733个类别。从总体上可以分为学术性和非学术性两大类。其中学术性类别按国家标准GB/T 13745-92《学科分类与代码》分类。选用该分类体系的主要原因是它分类层次关系简单明了，中国用户比较熟悉。 图11-5 一种中文网页的分类体系 我们使用本节的设计方案实现了一个基本的中文网页分类器，并通过不断增加训练实例数，考察了每个类的训练样本数对分类器质量的影响，希望找到一个需训练的最小样本数。实际测试结果如图11-6和图11-7所示（这里需要说明的是，当训练样本数等于最右边的19时，表示训练集中的所有样本都被保留下来，而不是为每个类别取19个训练样本）。 从图11-6可以看出，当训练样本数大于等于15时，分类器的宏观F1值就稳定下来了，尽管此时图11-7的微观F1还在上升，但是增加的幅度已经很小了，并且到17时平稳下来。因此，针对本文的训练集，最小训练样本数取15个。 图11-6 Macro-F1值随样本数的变化 图11-6 Macro-F1值随样本数的变化]]></description>
		<wfw:commentRss>http://scseoer.com/webpage-classifier-experiment-set-2.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页分类器实验设置</title>
		<link>http://scseoer.com/webpage-classifier-experiment-set.html</link>
		<comments>http://scseoer.com/webpage-classifier-experiment-set.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:15:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类.质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1687</guid>
		<description><![CDATA[为了定量地分析影响分类器性能的关键因素，我们首先实现了一个最基本的中文网页分类器。该分类器的具体设计方案如下： 预处理。在预处理阶段，除了进行中文分词处理外，没有进行其它任何预处理； 特征选取。在这里，直接把中文分词得到的所有关键词作为特征项，并由这些特征项构成特征向量，因此没有特征选取处理过程。 分类算法。我们选用kNN（k-Nearest Neighbor）分类算法来实现基本的分类器。在实验中我们取 k = 20，即仅保留相似度最大的20个实例网页。为确定待分类网页的类别，首先需要把具有相同类别的实例与待分类网页之间的相似度相加作为待分类网页的类别相似度，最后把相似度最高的类别作为该网页的结果类别，所以这里每个待分类网页仅取一个结果类别。 截尾算法。因为上面的分类算法为每个待分类网页仅取一个结果类别，所以这里无需对分类结果应用截尾算法。 分类质量的评价指标。 在信息检索领域，通常采用查准率和查全率，人们通常借鉴这些标准来评价分类系统的优劣。 查准率表示在所有被检索出的文档结果集中，真正符合检索意图的文档所占的比率，它体现了系统检索结果的准确程度。查全率表示被检索出的文档集结果中真正符合检索意图的文档数在所有符合检索意图的文档集中所占的比率，它体现了系统检索所有相关文档的完备性。查准率和查全率这两个标准是互补的，单纯提高查准率就会导致查全率的降低，反之亦然。 因此，尽管一个好的检索系统应该同时具有较高的查准率和较高的查全率，但是实际的检索系统往往需要在两者之间做出一些折中，而避免其中一个指标过低。 为方便起见，人们还定义了一个F1值[Yang and Liu,1999]，用以反映查准率和查全率的综合效果，其定义如公式(11-1)所示。根据计算方式的不同，F1值可以分为宏观F1值（Macro-F1）和微观F1值（Micro-F1）。宏观F1值的计算方式：首先需要根据公式（11-1）分别计算每个类别的F1，然后再根据公式（11-2）来计算它们的平均值，即为宏观F1值。此外，宏观F1值还有一种计算方式：首先计算p和r的平均值，然后代入公式（11-1）来求宏观F1值，这个过程可以用公式（11-3）来表示，本文将采用这种方式来计算分类器的宏观F1值。微观F1值的计算方式：首先需要在整个测试网页集合内分别统计p和r的值，然后根据公式（11-1）计算微观F1值。 其中：p为查准率；r为查全率；m为训练集类别数，这里为12。虽然在我们使用的分类体系中共包含733个类别（样本集中类别及实例数量的分布情况详见表11-2），但是为简单起见，我们把子类的分类结果分别统计到12个大类中，所以最后共有12个类的分类统计结果。 对于F1值，从公式（11-3）可以看出，它反映了查准率p和查全率r之间的平衡关系：只有当p和r比较接近，并且取值都比较大时，F1才比较大。反之，当p和r相差比较悬殊，或者取值都比较小时，F1值就比较小。所以，F1综合反映了分类器的整体性能。本章将使用宏观F1值和微观F1来评价分类器的质量。]]></description>
		<wfw:commentRss>http://scseoer.com/webpage-classifier-experiment-set.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>实现中文网页自动分类的一般过程</title>
		<link>http://scseoer.com/automatic-webpage-classification-process.html</link>
		<comments>http://scseoer.com/automatic-webpage-classification-process.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:08:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[预处理]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1683</guid>
		<description><![CDATA[在应用基于案例的有指导的机器学习方法实现中文网页自动分类的过程中有一个基本的假设：文档的内容与其中所包含的词有着必然的联系，同一类的文档之间总存在多个共同的词，而不同类的文档所包含的词之间差异很大。因此，分类器的训练过程可以看作是在已知文档类别的情况下，统计不同类别内的词的分布，即在预先定义的类别集合C（C={c1, …, ck, …, cm}）与词项集合T（T={t1, …, tk, …, tn}）的幂集之间建立一种加权的映射关系，形成一种向量表示；相应的，分类器的分类过程，可以看作在已知一篇文档内所包含词项分布（用一个向量表示）的情况下，和在训练中形成的每个类别的向量表示进行对比，来确定该文档与类别的隶属关系。 根据对文档分类过程实质的分析，下面给出中文网页自动分类的一般过程。同普通英文文档相比，中文网页信息具有特性： 中文网页的内容使用中文书写，不像英文单词之间存在自然的形态间隔，中文需要分词处理。而且分词的效果能够显著地影响分类效果； 网页使用超文本设计。它包含大量的HTML标签和超链接。我们有可能利用这些信息来改进分类的质量。比如包含在标题&#60;title&#62;标签内的内容通常要比出现在网页正文&#60;body&#62;标签内的内容要重要的多。在Web上相邻的网页通常具有相关或相同的主题，因此网页之间的超链信息也可以给我们一些启发； 网页通常包含大量的“噪音”。同普通文本相比，网页的设计比较随意，通常包含各类广告，设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在进行分类之前，需要自动清除这些“噪音”，否则这些“噪音”会降低分类质量。 因此，需要对中文网页进行预处理后，才能应用相应的文档自动分类算法实现分类。 结合中文网页的特性，图11-2给出了中文网页自动分类的一般过程。其中：预处理过程主要包括中文分词以及网页内“噪音”的清除等处理；基于二元分类算法的分类器，可以把分类结果直接作为待分类网页的类别结果，而基于M元分类算法的分类器，还需要对该分类结果进行进一步的筛选后，才能作为待分类网页的类别结果。 图11-2 中文网页自动分类的一般过程 图11-3 中文网页分类器的工作原理图 根据图11-2所示的中文网页分类的一般过程，我们设计了本章研究所使用的分类器，其工作原理如图11-3所示。从总体上，分类器的整个工作周期可以分成训练过程和分类过程。在训练过程中，训练集实例经过中文分词和特征选取处理后被表示成向量形式。该特征向量集用来描述类别模式，在分类过程中使用。校验集是训练集的一部分，通过应用相应的阈值策略来预先确定每个类别的截尾阈值。在分类过程中，一个待分类的中文网页经过中文分词并表示成向量后，应用分类算法同训练过程得到的类别模式逐一比较，得到候选类别列表，然后同训练过程中得到的每个类别的阈值相比较，保留大于阈值的类别，并作为该网页的分类结果。 从图11-3可以看出，构建一个分类器的关键因素包括：预处理、训练集、特征选取算法、分类算法和截尾算法等。预处理部分的HTML网页净化方法已在第七章中介绍，如下将逐一定量地分析后4个因素对分类器性能的影响。]]></description>
		<wfw:commentRss>http://scseoer.com/automatic-webpage-classification-process.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>文档自动分类算法的类型</title>
		<link>http://scseoer.com/automatic-document-classification-algorithm-types.html</link>
		<comments>http://scseoer.com/automatic-document-classification-algorithm-types.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:02:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1679</guid>
		<description><![CDATA[在Web出现之前，人们已研究过许多普通文档分类的方法，形成了各种文档自动分类（Automatic Text Categorization，ATC）技术。随着海量网页信息的涌现，ATC技术的处理对象从普通文档扩展到网页信息，自然地，ATC技术成了实现网页自动分类的基础。所谓文档自动分类就是用计算机程序来确定指定文档和预先定义类别之间的隶属关系。 目前，主要的文档自动分类算法可以分为三类： 1、词匹配法 词匹配法又可以分为简单词匹配法和基于同义词的词匹配法两种。简单词匹配法是最简单、最直观的文档分类算法，它根据文档和类名中共同出现的词决定文档属于哪些类。很显然，这种算法的分类规则过于简单，分类效果也很差。基于同义词的词匹配法是对简单词匹配法的改进，它先定义一张同义词表，然后根据文档和类名以及类的描述中共同出现的词（含同义词）决定文档属于哪些类。这种分类算法扩大了词的匹配范围，在性能上要优于简单词匹配法。不过，这种算法的分类规则仍然很机械，而且同义词表的构成是静态的，对文档的上下文不敏感，无法正确处理文档中其具体含义依赖于上下文的词，分类的准确度也很低。 2、基于知识工程的方法 基于知识工程的文档分类方法，需要知识工程师手工地编制大量的推理规则，这些规则通常面向具体的领域，当处理不同领域的分类问题时，需要不同领域的专家制定不同的推理规则，而分类质量严重依赖于推理规则的质量。因此，在实际的分类系统中较少使用基于知识工程的学习法。 3、统计学习法 统计学习法和词匹配法在分类机制上有着本质的不同。它的基本思路是先搜集一些与待分类文档同处一个领域的文档作为训练集，并由专家进行人工分类，保证分类的准确性，然后分析这些已经分好类的文档，从中挖掘关键词和类之间的联系，最后再利用这些学到的知识对文档分类，而不是机械地按词进行匹配。因此，这种方法通常忽略文档的语言学结构，而用关键词来表示文档，通过有指导的机器学习来训练分类器，最后利用训练过的分类器来对待分类的文档进行分类。这种基于统计的经验学习法由于具有较好的理论基础、简单的实现机制、以及较好的文档分类质量等优点，目前实用的分类系统基本上都是采用这种分类方法。 本章介绍的文档分类算法都属于统计学习法。根据分类结果的不同，基于统计学习法的分类系统在整体上可以被分为两类：独立二元（Independent Binary）分类系统和m元（m-ary）分类系统。所谓独立二元分类，就是给定一篇文档，分类系统对每一个类都独立地判断这篇文档是否属于该类：要么属于，要么不属于，而不存在其它的结果，并且在分类过程中，不同类别之间互不影响。所谓m元分类就是给定一篇文档，系统计算这篇文档与所有预先定义的类的相似度，并按这篇文档和各个候选类的相似度排序，最后输出候选类列表。文档分类算法如图11-1所示，在第四节我们介绍其中几个典型的分类算法。 图11-1 自动文档分类算法的分类]]></description>
		<wfw:commentRss>http://scseoer.com/automatic-document-classification-algorithm-types.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>中文网页自动分类技术</title>
		<link>http://scseoer.com/chinese-webpage-classification-technology.html</link>
		<comments>http://scseoer.com/chinese-webpage-classification-technology.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:58:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1677</guid>
		<description><![CDATA[网页自动分类技术已经成为Web领域的一个研究热点。本章主要讨论如何应用有指导的机器学习方法实现大规模中文网页的自动分类，以及如何应用中文网页自动分类方法实现搜索引擎目录导航服务。 为了能够有效地组织和分析海量的Web信息，人们希望能够按照其内容实现对网页的自动分类。目前，网页自动分类技术在数字图书馆、主题搜索、个性化信息检索、搜索引擎的目录导航服务、信息过滤、主动信息推送服务等领域得到了广泛地应用。 在信息检索领域，评价一个系统的性能，通常有效果和效率两个方面的考虑。与此对应，评价一个分类器性能的优劣，通常也有两个基本的指标：分类质量（效果）和分类效率。 对于分类质量，考察的指标通常为查准率和查全率； 对于分类效率，考察的指标通常为分类器的训练效率和分类器的实际分类效率。 分类质量和分类效率这两个指标，既相互独立，又相互影响。在理想的情况下，人们追求分类器不但要具有较高的分类质量，而且还要具有较高的分类效率。但是在实际的应用中，有时为了追求分类质量而不得不牺牲分类效率，有时为了保证一定的分类效率而不得不在一定范围内牺牲分类质量。因此，在设计分类器时，需要根据具体的应用环境来综合考虑这两个指标，重点解决主要矛盾。 本章首先系统地定量分析影响分类器性能的各种关键因素。根据实际的测试结果，并结合搜索引擎这一特定的应用环境，来寻找一种中文网页分类器的最佳设计方案：在具有较高分类质量的同时，还具有较高的分类效率。然后，根据这个方案实现了一个能够处理海量中文网页信息的分类器。最后，应用该分类器实现了天网搜索引擎中的目录导航服务。]]></description>
		<wfw:commentRss>http://scseoer.com/chinese-webpage-classification-technology.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>面向主题和个性化的Web信息服务</title>
		<link>http://scseoer.com/web-information-service.html</link>
		<comments>http://scseoer.com/web-information-service.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:55:35 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1675</guid>
		<description><![CDATA[Web信息服务就是根据用户的信息需求,为其提供相应的Web信息；而基于主题和个性化的信息服务就是指在特定的主题范围内, 能够根据用户个人独特的信息需求, 从互联网上搜索出有关的信息,并将它们整合在一起, 以便有针对性地满足各种不同用户的信息需求。目前，针对某一领域的小型主题搜索引擎、个性化智能搜索引擎的研究已成为下一代搜索引擎的两个研究热点。 本篇介绍我们在这方面所做的一些研究性工作，主要包括： 中文网页分类技术：现已成为中文Web信息处理领域的基础性工作，例如将网页进行自动分类，可以为搜索引擎用户提供目录导航服务，进而提高系统的查准率。本篇第十一章将详细介绍中文网页分类的各种算法，并比较这些方法的优劣。利用网页分类实现搜索引擎的个性化查询服务是一项值得进一步研究的工作，其基本思想是：先对网页和不同用户分别进行分类，之后对两者进行类型匹配，从而实现个性化服务。 个性化信息服务：Web挖掘技术是实现Web个性化服务的核心技术之一，本篇第十二章首先介绍了这方面的研究进展；然后介绍了我们开发的天网知名度系统，该系统针对包含某一对象类的网页提供个性化检索服务，并在可能的时候以简报的形式推送给注册的用户。 主题信息的搜集与应用： 第十三章首先对主题信息的搜集方法做了一个概括性介绍；然后提出了一种主题信息的搜集与处理模型，基于它并针对人们关心的一个热点主题，系统地对网上的信息进行搜集和分析，从不同的角度和层次得出互联网对该主题报道的强度。]]></description>
		<wfw:commentRss>http://scseoer.com/web-information-service.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>搜索引擎检索质量评估实验的建立与分析</title>
		<link>http://scseoer.com/assessment-experimental-establishment-analysis.html</link>
		<comments>http://scseoer.com/assessment-experimental-establishment-analysis.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:53:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1672</guid>
		<description><![CDATA[搜索引擎检索质量评估的目标是对不同搜索引擎系统的检索结果评估其相对优劣次序。对单独一个系统的评估，得到的评估指标的得分一般没有实际意义。搜索引擎的搜集和检索两大部分的性能对最终的检索质量都有影响。[Hawking, et al.,2001]指出以P@N为评估指标时，指定结果个数N，检索精度随着文档集合大小增长而增长。并且评估对象搜集的网页范围、数量都不相同，这种差异对评估有一定的影响。 可以考虑在实验中采用一种归一化的方法，把查询结果限定在一个固定的集合内，用来减小不同评估对象的搜集系统差异对检索效果带来的差异。例如采用InfoMall系统的网页集合为基准，对所建立的查询集，用一些工具抓取几个不同搜索引擎的前若干个（如50个）检索结果，同时向InfoMall系统请求这些结果URL的历史网页，当InfoMall系统的访问界面返回错误，通知一个URL不存在时（HTTP的404错误码），则表明此检索结果不在InfoMall网页集合中。 评估实验的基本原则是盲测试性和可重复性。盲测试性是指评估实验应该尽量避免用户的主观偏向性，要求进行相关性评分的评测员不能区分评分对象属于那一个评估对象，甚至不知道评估对象差别的存在。如在实验中可以把抓取的不同搜索引擎的检索结果保持原始的顺序随机混合，即每个查询的结果序列（如只保留在InfoMall中命中的结果），对相同序号上的结果随机排列，合并成一个序列。同时使用统一的摘要提取程序，从网页原文中按查询词提取摘要，以相同的形式展现给评测人员，而且事先不透露评估对象的名称。这一过程可保证实验的盲测试性。 可重复性是一个科学实验的基本要求，TREC的评估体系在这一方面做的很好，通过构建数据集，包括文档集、查询集和相关结果集，使得评估实验具有可重复性。Web检索下，这一方法面临的最大问题是数据规模难于扩展，特别是对适合Web数据评测规模的文档集，难于有效构造出其中查询对应的相关结果集。TREC的pooling方法提高了这一工作的效率，但仍然不能适应数据规模的进一步增长。实验中，可以由自愿参加评测工作的评测员，按相关性准则对查询结果的相关性评分。这一过程并不构建一个完全的相关结果集，对一个新的评估对象进行重复实验还必须让评测员重新对变化的查询结果进行相关性评分。 评估实验选择DCV(Document cut-off value)类型的评估指标。检索性能评估通常基于P(查准率)和R(查全率)，有两类指标，一是P-R曲线和根据P-R曲线计算的平均精度AVP，这一类指标对不同的查询在同一个查全率上计算平均精度；另一类是DCV，它使用相同的评测过的文档数量进行归一化，用以表达不同查询结果中用户在同样的浏览代价下的性能。 对大规模数据量的Web检索评估，建立基于Web的评测环境和招募大量的自愿者参加评估是解决评估的数据规模扩展性问题的一个可能方法。实验中，通过使用相关度评测环境和工具，由志愿评测员对查询集合由各个搜索引擎返回的检索结果进行相关性判别。 对实验结果进行分析：首先进行异常数据清理，然后根据评估指标计算出不同搜索引擎的分值，比较不同搜索引擎的检索质量优劣。由于实验过程存在的随机因素，在结果比较分析中，还必须做统计的显著性检验以及实验的错误率分析。对两个不同评估对象，假设根据评估指标计算出的指标得分的差异符合正态分布，可以使用成对数据的t测试进行显著性检验，在实际应用中，即使正态分布假设并不成立，t测试也基本有效。实验可以采用成对数据的t测试，通常置信度取95%，对通过测试的结果认为存在显著性差异，否则没有显著性差异。实验的错误率是指在重复实验中，不同次实验得到相反的评估结果的次数与实验总次数的比率，它代表一次评估实验得到错误结果的可能性，给出如下计算公式： 其中A,B为评估对象，&#124;A&#62;B&#124;表示重复实验得到A优于B的次数。如果实验在某一变化因素控制下，计算错误率，可以用来评估实验对这一变化因素的稳定性, 如对评测员、查询集合大小以及评测指标等。]]></description>
		<wfw:commentRss>http://scseoer.com/assessment-experimental-establishment-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>查询类别分析与查询集的构建</title>
		<link>http://scseoer.com/query-category-analysis-query-set.html</link>
		<comments>http://scseoer.com/query-category-analysis-query-set.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:48:16 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[搜索]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1668</guid>
		<description><![CDATA[用户信息需求千差万别，以不同查询表达，这种类型差异对于检索系统十分重要，因为不同类型的需求可以有不同的检索方法更好的完成，对系统评估也同样如此，不同类型的用户信息需求和查询需要采用不同的评估方法。 对用户查询有不同的分类方法。文献[eTesting,2000]从查询语法特征上划分为5类： 自然语言查询； 单个查询词的简单查询； 多个查询词的简单查询； 包含操作符的复杂查询和主页查询。 文献[Travis and Broder,2001]把用户信息需求分为三类：信息型，导航型和事务型。 信息型是寻找主题相关的文档，也就是传统TREC评估的ad-hoc任务； 导航型是寻找知道名称的站点或主页，对应TREC评估的homepage/named page任务； 事务型指用户期望找到一个服务入口，需要进一步进行服务访问，比如公交线路查询、歌曲下载、产品信息查询等。 文献[Kang and Kim,2003]也使用同样的三个类别，研究了具体的分类识别算法。TREC的评测不区分信息型和事务型。 可以通过对搜索引擎用户查询日志的统计分析，逆向推断用户的信息需求，得到查询类型的分布。对不同搜索引擎系统用户查询日志大量统计研究都表明，搜索引擎平均用户查询词长度很短，平均长度在2~3个词之间。短查询很难充分表达用户的信息需求，是搜索引擎为提高系统性能面临的一个重要挑战。这也为从查询日志中逆向推断用户信息需求带来了困难。短查询词在不同的上下文环境下存在多义，即使对相同含义，从用户角度也隐含着不同的信息需求。例如，查询“绿茶”，可能是指电影名，也可能是指茶叶；指电影名时，用户可能希望下载或观看，也可能希望了解影评等相关信息，这就分别对应上述事务型和信息型的查询类型。在统计过程中，使用普遍情况最大可能的用户需求作为查询类别的判断准则，如表10-4所示。 表10-4 用户查询信息类别 在一个查询样本中，可对不同类别的查询分别进行筛选，构建查询集。先去除那些可能对评测人员产生困扰的不良查询，比如性、暴力方面的查询；再各挑选查询意图明确的若干个查询（如50个），构成评估用的查询集。在Web搜索环境下，短查询现象普遍，因此很难对挑选出的每个查询补充上确切的查询意图描述，在实验过程中可以统一使用表10-4中的评估准则。]]></description>
		<wfw:commentRss>http://scseoer.com/query-category-analysis-query-set.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>搜索引擎系统质量评估</title>
		<link>http://scseoer.com/search-engine-system-quality-evaluation.html</link>
		<comments>http://scseoer.com/search-engine-system-quality-evaluation.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:43:10 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1665</guid>
		<description><![CDATA[公开有效的搜索引擎质量评估对指导用户选择搜索服务，对搜索引擎服务提供者与研究人员不断尝试新技术，提高服务质量十分重要。商业搜索引擎内部通常会有质量评估，一般不会公开。 这一方向的工作与研究主要由信息检索领域的研究人员推动。 信息检索可以看作这样的过程和方法，通过它，一个需要信息的用户可以把他的信息需求转换成为对数据集中若干文档的引用，从而找到有用的信息。评估从这个研究方向创立开始就一直为人们关注。 根据评估对象的不同，可以分为6个级别： 工程级关注系统的效率； 输入级关注输入数据的覆盖率； 处理级评估数据处理过程中的算法、技术和方法的效果； 输出级评估结果输出后的交互、反馈等； 应用级评估系统的应用和对生产率的影响； 社会级评估系统的应用和对生产率的影响。 其中前三个级别的评估以系统为中心，后三个以用户为中心。 进行评估有如下几个前提要求： 被评估的系统，包括算法和数据； 评估准则，如信息检索中的相关性； 评估指标，如信息检索中的查准率和查全率； 评估指标的获取，如信息检索中的相关性判别； 评估方法，包括整个过程的设计与组织。 目前信息检索领域最重要的评估工作由TREC组织。 TREC主要在处理级进行检索效果评估，把相关性作为评估准则。相关性是一种复杂的感知和社会现象，它不是简单二元的是否判别，和环境、上下文有密切联系。相关性判别通过专门的评估人员人工判断，在大规模数据集上进行检索系统评估时，这种人工的工作成为最大的开销，并且使得对整个数据集进行完全的相关性判别成为不可能。为了让评估实验可重复，TREC建立了大规模的评估数据集，包括数据集，查询集和相关结果集。 其中相关结果集通过一种称为pooling的方法构造，对每个评估用的查询，从所有参加评估的结果序列中挑选出前一部分，人工判断其相关性，其它文档作不相关处理。在TREC的推动下，评估方法的研究得到了很大发展。 文献[Zobel,1998]研究表明pooling方法下对系统相对性能评估具有稳定性，但同时查全率被估计过高。 文献[Voorhees and Buckley,2002]通过统计实验错误率研究了查询集大小对评估的影响，指出小的查询集会使评估结果具有高错误率； 文献[Buckley and Voorhees,2000]研究了查询集大小、评估指标对评估结果稳定性的影响，指出对于Web环境，适合使用P@10(前10个结果的精度)或P@20作评估指标，同时需要较多的查询以减少错误率，100个查询对P@20较合适。 文献[Voorhees,2001]研究了多级的相关性判别对评估的影响，指出Web环境下对高度相关的评估和一般相关的评估结果不一致，相比更不稳定。文献[Cormack, et al.,1998]研究了大规模评估数据集构建的技术，提出了改进的pooling方法。 Web搜索引擎与传统信息检索有许多不同的特点，这些给传统的信息检索评估带来了新的挑战。Web搜索处理的数据是整个Web，即使采用pooling方法，TREC建立静态评估测试数据集的方法也很难扩展到这样的数据规模。同时Web数据还在不断动态变化，对搜索引擎的评估很难建立在同样一个静态的数据集上，如何评估不同数据集上检索系统的质量也是一个新的研究内容。 文献[Hawking, et al.,1999]研究了TREC的信息检索方法在Web环境下是否有效，不过实验建立在TREC的大规模数据集上，具有一定的偏向性。 文献[Hawking, et al.,2001]对11个搜索引擎进行了评估，指出不同搜索引擎有显著性差异，不同评估指标间高度相关；特别提出了对未来Web搜索引擎质量评估需要针对不同用户的信息需求类型采用不同的评估技术。 文献[Singhal and Kaszkiel,2001]详细分析了TREC Web Track的评估方法在Web环境下的不足，包括查询类型、相关性判别是按文档为基础，还是以用户为中心，按站点为基础，不同数据集上的评估结果是否可以比较等问题。 文献[Craswell, et al.,2003]是2003年TREC Web Track的报告，分为主题提取类型和导航类型两种任务模式。主题提取类型以P@N(前N个结果的精度)为评估指标，返回结果以站点为单位，以主题相关性和内容质量为评估准则。 导航类型以MRR(第一个正确答案的平均序号倒数)和S@10(答案出现在前10个结果的查询比例)为评估指标。]]></description>
		<wfw:commentRss>http://scseoer.com/search-engine-system-quality-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页权重最终计算</title>
		<link>http://scseoer.com/webpage-weight-calculation.html</link>
		<comments>http://scseoer.com/webpage-weight-calculation.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:42:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页权重]]></category>
		<category><![CDATA[超链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1651</guid>
		<description><![CDATA[以上已经给出了如何得到一个检索的相关网页集合，下面的工作是计算每个网页和查询q的相关度。相关度运算依赖三个方面，它们分别是：基本权值、链接权值和用户评价权值。首先计算每一个结果网页p的基本权值WB(q,p)。 按照第一节的论述，每一个查询q可以被分解为m个特征项｛t1, t2, … tm｝的逻辑运算。因此，对于每一个结果网页p，都可以获得每一个特征项在该网页中的权值WB(ti, p)。我们按照如下方法定义权值的逻辑运算： 任何一个用户的检索都可以表示为特征项的与（∩）和或（∪）的运算表达式，因此我们得到相应的权值运算公式（10-6）。 R就是相应的逻辑运算表达。根据公式(10-2)，通过一定的运算过程，可以得到一个网页p的对应查询q 的基本权值WB(q,p)。 对于一个查询q，还需要考虑链接权值WL(p)和用户评价权值WU(q,p)。有两种方法来处理这三者之间的关系： 1、让WB(q,p)作为基准权值，而链接权值和用户评价权值作为比例系数： 2、每一种权值按照一定的比例重新构成新的权值： 天网选择了第二种方法。在这种方法里，每种权值都起到了影响结果权值的作用，但是，它们的影响又都被限制到一定的范围内。第二种方法的优点如下： 几乎所有的网页拥有者，尤其是商业网站，期望它们的网页被排在搜索结果的前列。一些网站就利用一些手段来欺骗搜索引擎。例如，它们通过向网页中加入一些不可见的文本来提高它们基本权值部分的值：一个旅馆为了扩大影响，将它们的主页中加入大量的不可见的词汇“计算机”。如果这样，当用户检索计算机时，这个旅馆的主页将堂而皇之的排在前几个结果中。利用方法第二种方法可以在一定程度上避免这种欺骗。 如果忽略一个站点内部的链接，这就使得网站的作者很难通过超链权值对搜索引擎进行欺骗。一般来讲，其它网页的编辑不会愿意以牺牲自己网页质量的代价来将一些不相关的超链加入到自己的网页中。 用户评价权值也是一个容易被用来欺骗搜索引擎的特性。一些网站的所有者或许会雇佣一些职员，不停的在检索结果页面中点击它们自己的网页。如果按照方法一，经过一定的时间，这个总被点击的网页最终将升到第一的位置。但如果使用方法二，就可以有效的避免这个问题，因为用户的影响已经被限定到了一个合理的范围。 总的来讲，结果排序是搜索引擎技术最重要的一个方面，从概念上讲，主体是本章第二节讨论的那些因素，但在实际系统中会衍生许多变化，其细节常常是商业机密。]]></description>
		<wfw:commentRss>http://scseoer.com/webpage-weight-calculation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>收集用户反馈信息</title>
		<link>http://scseoer.com/user-feedback-information.html</link>
		<comments>http://scseoer.com/user-feedback-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:36:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[用户评价]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1639</guid>
		<description><![CDATA[在搜索引擎中，当用户给出查询并得到一个返回结果列表之后，绝大多数的情况下他们都是扫描一下前面几个条目的摘要，感觉有他需要的内容，则点击对应的链接，去阅读网页全文。对来自于不同用户的同一个查询词来说，若某个链接虽然在返回结果表上出现的位置不太靠前，但被选取点击的次数比较多，于是系统应该感到该链接是比较受欢迎的，其位置应该往前调。举例来说，如果80%输入查询词“北京大学”的用户都点击了输出结果的第10项，则系统应该认为第10项对于查询“北京大学”来说才是最相关的结果，应该将它排在前面。 具体实现起来，我们的办法是通过用户点击数（User Hit Number, UHN）来达到这一目的。对于一个检索q，会得到很多的检索结果网页，将这些网页表示为p0, p1, p2, … , pn。假定检索q在一天内被提交了m次，定义WUHi如下： 之后，我们定义检索q对应的一个网页p的UHN： 但是，如果我们按照上述方法来统计用户评价权值的话，我们就忽略了返回结果中URL的位置信息。按照天网的统计，47.3%的用户只访问天网返回给他们的第一页（包含10个结果），12.2%的用户会继续访问第二页。这意味着一个结果在返回网页中的位置将会很大程度的影响用户点击的可能性。因此，如果一个结果网页在返回网页中排在尾部，即使这个网页和检索的相关度非常之高，它都只有很小的可能性被用户看到并点击。我们以一种补偿算法来弥补这个缺陷。这就是按照用户对每个返回页面访问的概率进行补偿。补偿因子c(pos(q,p))按照表10-3来定义。考虑到补偿因子，定义计算公式（10-1）。 公式（10-1）定义了检索q在一天的时间内，其结果页面p得到的用户评价，但是，这只考虑了一天的情况。应该如何来考虑长时期的用户评价呢？考虑n+1天的数据：WUD0, WUD1,&#8230;, WUDn。最简单的方法是将这些数据求和得到这段时间的用户评价。 表10-3 补偿因子定义表 但这是不合理的，因为用户在不同的时间感兴趣的网页是不同的。例如：当用户在奥林匹克运动会召开之前检索“奥林匹克运动会”，他会大量的点击那些讲述有关奥林匹克运动会准备情况和参赛运动员情况的网页。在奥林匹克运动会召开的过程中，大量的用户更关注关于世界纪录被打破的情况，各个国家获得的奖牌数和排名情况。当奥林匹克运动会结束后，他们的兴趣会转向一些有关奥林匹克运动会的评论的网页。如果仍使用公式（10-2），当用户在奥林匹克运动会进行时检索，他们将会看到大量的讲述有关奥林匹克运动会准备的网页排在前面，因为这些网页曾被给予了很高的用户评价。为了避免这个问题，我们使用一种衰减算法： 这里的k是衰减系数。系数k的值越大，先前的数据对结果的影响就越大。k=0和k=1是两个极端情况。k=0表示历史的数据不被考虑；k=1表示所有的历史数据都和现在的数据有相同的重要性。 搜索引擎面对的是数以亿计的用户，而上式需要搜索引擎保留所有的历史数据，这样的代价十分巨大。所以我们通过转化成公式（10-3）来解决这个问题。 利用一个递归程序，我们只需要记录两个数据：历史数据WUA1 和当前数据WUD0. 当一个新的网页刚刚被索引时，它没有被用户点击的机会，所以如果采用上述的方法时，它的用户评价值会是零，需要给予它们一些补偿。办法是给一个新的网页一个缺省的用户评价值： 补偿系数l反映了对于一个新的网页的重视程度。WUAmax(q) 是对于所有的p取值最大的WUA(q,p) 值。考虑了补偿之后，新的用户评价值由如下公式（10-4）计算。 我们仍然需要对这个值进行归一化得到公式（10-5），其中WUmax 代表对于所有的p的WU&#8217;(q,p) 的最大值。]]></description>
		<wfw:commentRss>http://scseoer.com/user-feedback-information.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>利用链接的结构</title>
		<link>http://scseoer.com/link-structure.html</link>
		<comments>http://scseoer.com/link-structure.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:23:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[超链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1633</guid>
		<description><![CDATA[网页之间的超链接是Web的基本特点，这也是从应用上区别现在的Web和以前的Internet最突出的特征。如果说TCP/IP协议组将上百万计算机无缝连接起来了，则HTTP/HTML协议组将上百亿信息（网页）无缝连接起来了。海量网页之间的相互链接形成了一个巨大的有向图，这个图的很多结构性特征既有趣，也有重要的意义。特别地，我们关心一个网页的入度。 图10-4 网页的互联结构示意 在这部分，我们主要考虑WWW中超链的互链关系对一个网页权值的影响。Web有两个基本的构成因素：网页和超链。如果我们将网页认为是节点，超链是有向边的话，就可以将整个网络抽象为一个巨大的有向图。从图中可以看到，每个网页的入度是不同的，我们称每个网页的入度为网页的链接命中数（Link Hit Number，LHN）。 为什么LHN应该影响一个网页的权值呢？我们知道这些超链都是网页的编辑加入网页中的。他们之所以加入这些超链，是他们认为这些超链是有价值的，值得他们网页的浏览者去深入浏览。如果一个网页被大量的其它网页所链接（也就是说，被大量的网页编辑推荐），可以确定，这个被链接的网页是相对重要的，它们会对上网浏览的用户有更大的帮助。 所有的链接都应当按照如上所述的方法考虑吗？经过分析，天网将超链分为两类：链接向本网站内部网页的超链（自我推荐）和链接向其它网站上的网页的超链（他人推荐）。我们忽略第一类链接，理由如下： 我们通过统计发现，很多网站的页面都是运用一定的页面模板实现的。在模版中会包含大量的该网站的索引超链，而这些超链会跟随模版被继承到该网站的每一个网页中。显然，这些超链不应该被考虑。 有些大型网站（含有大量的网页）的主页会被本站点的其它网页大量链接，而获得很高的LHN，尽管它有可能被极少的其它网站所链接。 我们还要考虑网页编辑的欺骗行为。例如，它们在某些网页中包含大量的不可见链接指向自己的页面，进而获得较高的LHN。 在下面的部分，我们将总的LHN值称作原始LHN，将被其它站点链接的LHN值称为LHN。 使用如上所述的策略，新网页将会面临不公正的待遇，因为一个新的网页，即使质量很高，由于知道它的网页编辑很少，也只能得到很小的LHN值。它们需要时间，才能被其他的网页编辑了解和评价。因此，对于新的网页，应用LHN去评价它们的优劣是不合适的。我们既然已经采用了LHN的方法，就应该按照一定的算法对新网页给以LHN的补偿。以下就是LHN补偿算法。 如果使用UNIX系统的时间格式(自1970年以来的秒数)，可以获得网页的发布时间T(p)，如果令当前时间为Tnow，补偿的阈值时间为Tst，用如下公式获得补偿权值： 考虑了补偿权值后，得到新的LHN值： 用WLmax来表示对于系统所有的p的WL&#8217;(p)的最大值，采用如下公式将LHN值进行归一化，得到期望的超链权值：]]></description>
		<wfw:commentRss>http://scseoer.com/link-structure.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>形成网页中词项的基本权重</title>
		<link>http://scseoer.com/word-basic-weight.html</link>
		<comments>http://scseoer.com/word-basic-weight.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:14:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[标签]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页权重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1627</guid>
		<description><![CDATA[前面提到了向量空间模型，但根据我们的讨论，并不能够将它完全照搬到搜索引擎系统中来。网页信息和正文文本最重要的差别就是在网页中含有大量的HTML标签（tag）。因此，我们在天网中提出了一个改进的TF*IDF算法用于检索和相关度评价算法。相对传统的IR而言，增加了对HTML标签和网页的可索引文本长度。可索引文本长度表示用户通过浏览器窗口看到的一个网页的文本内容长度。 考虑被HTML标签包围的一段文本内容，到底这些标签应该如何影响这段内容呢？天网将所有的标签分为两类：一类是影响文本权值的标签，如&#60;FONT&#62;、&#60;H1&#62;等；另一类是不影响文本权值的标签，如&#60;IMG&#62;、&#60;FRAME&#62;等。在此我们选择表10-2中的标签作为影响文本权值的标签。 表10-2 影响权值的HTML标签 对于一个网页，首先给予该网页中的每个特征项一个缺省的权值W0。如果一个特征项还被其它的有权标签包围，这些标签的权值将会影响到这个特征项的权值。例如，“hello”在&#60;big&#62;&#60;b&#62;hello&#60;/b&#62;&#60;/big&#62;环境中的权值应该为： WBT=W0+Wt(big)+Wt(b) 通过此式，可以获得每个特征项在网页中每次出现的权值。假设特征项t在网页中出现n次，每次出现的权值分别为WBT1, WBT2, … WBTn，就可以得到特征项t在整篇网页中的权值： 对于一个网页，应用上式对每个特征项进行权值计算是公平的。但是，考虑到相同的特征项出现在不同的网页中，网页的长度越长，特征项可能获得的权值也就越高。所以，一个特征项的权值应该在某种程度上受到网页长度的影响。另外，为了区分高频词和低频词对网页的影响程度，我们沿用IR中的IDF项： Smax表示最大的网页可索引文本大小；S(p)代表网页p的可索引文本大小；N代表被索引网页的总量；T(t)是包含特征项t的网页的数量。 通过以上的分析，可以看到一个特征项的权值由三部分组成：第一部分是考虑了HTML标签影响的绝对权值；第二部分是考虑网页大小对权值的影响；第三部分是特征项出现频率对权值的影响。 最后，对WB(k,p)进行归一化处理。其中WBmax代表对于所有的k、p而言WB&#8217;(k,p)的最大值。 WB(k,p)将作为基本权值来参与相关度评价的运算。]]></description>
		<wfw:commentRss>http://scseoer.com/word-basic-weight.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>相关排序的一种实现方案</title>
		<link>http://scseoer.com/relevance-ranking-scheme.html</link>
		<comments>http://scseoer.com/relevance-ranking-scheme.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:03:54 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1625</guid>
		<description><![CDATA[一个网页是否重要，我们可以从其它网页上找出相应的线索。如果一个网页十分重要，那么会有大量的链接指向这个网页。因此，需要对一个还没有搜集的URL 地址进行被链接次数的统计，以确定该URL 获得的其它网页的评价，我们同时赋予其相应的权值Wl。另外，可以根据我们日常在网上的访问，来获得一些有价值的网站，加入到配置文件中。当一个网页属于这些重要网站时，我们就赋予它另外一个权值Ws。还有就是网页的编码类型。作为一个主要为华人服务的搜索引擎，我们主要的关注点在中文信息，所以我们应该优先搜集那些中文网页。即便是中文，仍然有不同的编码类型。例如，中国内地主要以 GB为主，港台地区则以Big5为主，在北美及欧洲地区还存在HZ编码。按照搜索引擎服务的用户群，应该给相应的网页赋以不同的优先搜集次序，在我们的系统里，它体现为编码权值Wc。 基于以上三个主要方面的考虑，得到一个URL的权值评价： Wt(p)=Wl(p)+Ws(p)+Wc(p) 这样，每个待搜集的网页都有自己的Wt，超链选择程序根据这些权值，从中选出一个或一批权值最大的来搜集，即达到了我们期望的目的。]]></description>
		<wfw:commentRss>http://scseoer.com/relevance-ranking-scheme.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Web查询模式下的新信息</title>
		<link>http://scseoer.com/web-query-model-new-information.html</link>
		<comments>http://scseoer.com/web-query-model-new-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:58:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[数据特征]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1618</guid>
		<description><![CDATA[上述链接分析可以有效的计算网页的重要程度，但是带有明显的偏向，即不重视新出现的网页。新出现的网页，尽管可能很重要，但由于时间短，被链接的次数显然不可能很高，PageRank的值就不会高。因此需要来补偿这个问题，人们注意到，除网页本身特性外，搜索引擎的应用环境和传统信息查询也有些不同，这可以从两个方面考虑。 1、用户行为 和传统IR的用户群相比，虽然搜索引擎的用户群的经验少，但他们的数量却十分巨大。大型商业搜索引擎，如Google，AltaVista，百度等，每天都有上1000万次的用户检索。通过对这些用户检索行为的统计分析，我们可以从中获取许多有用信息，这些信息可以大大提高搜索引擎检索结果的准确率，提高检索的质量。 Direct Hit技术就是基于以上思想创立的。这项技术的主要特点是跟踪用户对检索结果的后继行为：哪些站点被用户选择浏览了？用户在这个站点上花费了多少时间？通过对这些数据的统计，搜索引擎就可以提高那些经常被用户选择，而且花了大量时间去浏览的站点的权值，降低那些不太被用户关心的站点的权值。对于新加入系统的网页，系统则先给它们一个缺省的权值，然后由用户来决定它们的重要性。另外，系统还可以利用以前的用户检索行为来对以后的相似检索进行优化，帮助用户尽快发现自己需要的信息。 这个技术的另一个优点就是可以对一个固定的用户的行为进行跟踪和统计，进而发现这个用户的喜好和对检索结果的期待，从而产生专门针对该用户的检索结果。这就是我们后面会提到的个性化检索。例如，一个做建筑材料的工程师，当他检索“windows”，他最大的可能是关注有关窗户的问题；一个计算机工程师，同样的检索则更关心微软的Windows产品。通过几次用户检索行为的跟踪学习，我们就可以获得这些信息，进而在以后的检索中，我们就对检索的输出结果进行针对用户的适应性调整。 图10-1 Inktomi提供的几种搜索引擎技术的比较 Direct Hit公司的Gary Cullis在搜索引擎1999年年会上将搜索引擎使用的四种技术，即： 根据网页本身信息（Author） 根据超链链接关系（Other Author） 人工编辑产生的目录系统（Editor） 根据用户行为（User） 进行了比较，如图10-1所示，得出根据用户行为的技术比其它几种技术无论在查准率和查全率上都有相当多的优势。 2、新词的产生 在本章的第一节，我们提到过词典Σ，但没有强调它的重要性。事实上，它是以关键词为查询表示的任何信息检索系统的基础，中文尤其如此。在传统信息检索场合，例如图书馆，信息资源相对稳定，信息内容相对成熟，词典也就相对稳定，没有表现出突出的矛盾。网络环境下，用户的信息需求很宽泛，特别是“时代感”很强，关注的内容与社会新闻和事件经常紧密相关，因此在查询中常常会有那些时髦的新词，例如“大腕”，“美眉”之类。从我们前面介绍的倒排表工作原理可知，如果词典中没有相应的词，就不可能查到含有它们的网页（严格说是“不能有效地”查到它们，原因见后）。因此，获得新词，将它们及时地加入词典中，是维护运行搜索引擎的一个重要工作。下面是关于这一问题的论述。 简单的讲，词典就是一个译码器，它分配给词典中的每一个条目一个唯一的整型编码。前面我们已经论述过词典在预处理和查询服务两个阶段的必要性。在这里，我们从系统设计的高度再分析一下词典的用途。我们将系统分为核心和外围应用，图10-2显示了词典的地位，它相当于系统内核和外围之间的一座桥梁。外围应用通常是和系统输入和输出（广义的）打交道的，它们面临的数据千差万别。如果让核心直接处理这些形态各异的数据，就会导致系统核心代码的急剧膨胀，系统运行效率迅速降低。通过词典的处理，将各种数据以统一的整型编码的形式交给系统内核，使得系统内核的处理简单，保证了系统的运行效率。 图10-2 词典在系统中的地位 既然词典处于桥梁的地位，那么词典本身的设计就十分的关键。天网系统采取了Hash表的方法来实现系统的词典。对于每一个输入数据Dinput，按照分布式搜集策略部分的分析，我们可以将其对应到一个大整数。我们记Hash表的大小为h_size，对任意一个输入数据，我们根据公式都可以获得它Hash表的入口地址： 其中的Fkey就是我们按照公式得到的Hash的散列函数。任何值域小于定义域的散列函数，都不能保证没有冲突，这就要求我们的散列函数造成冲突的概率尽量的小。通过选择适当的h_size和散列函数，我们可以控制Hash的平均拉链长度。 对于散列函数Fkey，我们把593,286个项数据放入特征项大小为100万的Hash表中散列，得到的平均拉链长度为1.32。这意味着，我们对任何一个数据Dinput操作时，需要的Hash相关的操作为1.32次。其它的相关操作，如Fkey的运算、Hash表的增删改查，都是常数复杂度。因此，我们可以获得词典的运算复杂度为O(1)。 在进行中文分词时，就需要依赖中文词典。复旦大学在它们的文档分类系统中，使用基于Church提出的计算互信息和χ2统计量的方法对文档进行专有词汇学习，所提取的专有词汇（5,000个）接近该系统使用的原始词典大小（11,000个词条）的一半。结合关键词筛选的专有词汇学习技术使系统对开放语料的分类准确率提高了15%。所以，按照需要不断扩大词典的容量是必须的。 如何扩大词典的容量？回顾我们对系统的分析，系统只有两个和外界数据的接口，即Web和用户检索。天网选择用户的检索进行学习，其理由如下： 首先，学习词汇是为了满足用户的检索需求，提高检索的质量。通过对用户检索数据的分析，从中学习新词，针对性强，更能提高检索的质量。 其次，从统计上来看，Web上的数据和用户检索的字符串有着很大的差别。Web网页中的中文大部分都是连写在一起的句子，以标点符号分开。而用户输入的检索字符串，根据我们的统计，大部分是词汇和词汇组成的短语。在网页中，面对一串连续的中文字符串，我们很难从中间提取出新词。而我们对用户的检索输入做一定的简单处理，即可以比较方便的学习到新的词汇。 我们可以通过如下步骤分析： 图10-3 新词学习 词汇统计部分将用户的检索字符串进行一定的分析和筛选处理，并对通过筛选的词汇进行频率统计。 1、用户输入的检索有一部分是复杂的逻辑检索（大约20%），我们应该首先将这些带有逻辑运算符号的检索字符串转化为简单检索形式。 2、我们发现，检索中有大量的英文检索和中英混合检索，我们这里处理的是中文新词学习，因此我们要将所有的英文词汇过滤。 3、我们前面已经提到，对于过长的中文字符串，它是一个词汇的可能性极小，为了提高学习的准确度，我们定义一个学习词汇的最大长度n，把所有检索字符串串长大于n的过滤掉。 4、我们对这些合法的“可能新词”进行学习，统计出每个词汇的检索频率。 词汇筛选部分主要有两个步骤。首先进行词频筛选，将低频的检索排除在新词之外。众所周知，搜索引擎用户可以随便的检索任何内容，对于那些只有极少数人关心的生僻词汇，我们不用加入到词典中，因为词典的过度膨胀会在一定程度上降低系统运行的效率。另外，有很多的用户不能十分确定他们要检索的中文的正确拼写，或者在检索时不小心输入错误，如将“搜狐”输入成为“搜虎”。通过词频的筛选，可以在一定程度上解决这些问题。另外，统计得来的候选词汇，有一部分在我们的词典中已经存在，需要将它们过滤；还有一部分是两个或多个合法词汇组成的短语，一样需要将它们过滤掉，如“计算机网络”。 学得的新词将和搜集端从网页中提取的特征项共同组成新的词典，为以后的搜集和特征项提取服务。通过新词学习技术，使得系统对于新词检索的准确率大大提高，表10-1给出了新词学习前后检索准确率的对比数据。 表10-1新词学习对检索准确率的影响 由于篇幅原因，我们仅列出了10个新词的检索结果. 通过我们对100个新词的检索结果的统计，我们获得更新前的平均检索准确率为49.7%，更新后的平均准确率为78.8%. 即搜索引擎系统对于新词的平均检索准确率提高了58.6%.]]></description>
		<wfw:commentRss>http://scseoer.com/web-query-model-new-information.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>链接分析</title>
		<link>http://scseoer.com/link-analysis.html</link>
		<comments>http://scseoer.com/link-analysis.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:30:13 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1613</guid>
		<description><![CDATA[从开发利用的角度看，网页和普通文本的不同主要反映在两个方面：HTML标签和网页之间的超链接。 我们知道，HTML设计有丰富的标签，是网页作者用于将网页的不同部分以不同的形式呈现给用户的手段，包括文字的布局，字体、字号的变化，等等，主要追求的是视觉效果。因此，标签能给我们提示其中文字的重要程度。例如，常识告诉我们，在同一篇文字中，比较大的字体往往是作者比较强调的内容；而在一版（以区别“一篇”，如同报纸）内容分块、且有一定布局的文字上，放在前面和中间的应该是作者比较强调的，等等。许多著名搜索引擎在网页的预处理阶段记录了这些信息，并用于结果排序。例如Alta Vista, Inktomi, Excite, Infoseek，等等。 链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系。可以合理的假设，若一篇网页被较多的其他网页链接，则它相对较被人关注，其内容应该是较重要、或者较有用。因此，可以认为一个网页的“入度”（指向它的网页的个数）是衡量它重要程度的一种有意义的指标。这和科技论文的情况类似，被引用较多的就是较好的文章。同时，人们注意到，网页的“出度”（从它连出的超链个数）对分析网上信息的状况也很有意义的，因此可以考虑同时用两个指标来衡量网页。这些想法即是斯坦福大学Google研究小组和IBM公司的Clever系统开发小组几乎在同一时间分别提出著名的PageRank技术和HITS技术的基础。 可以用一种“随机冲浪”模型来作为PageRank的理论基础，该模型描述网络用户对网页的访问行为，假设如下： 用户随机的选择一个网页作为上网的起始网页； 看完这个网页后，从该网页内所含的超链内随机的选择一个页面继续进行浏览； 沿着超链前进了一定数目的网页后，用户对这个主题感到厌倦，重新随机选择一个网页进行浏览，如此反复。 按照以上的用户行为模型，每个网页可能被访问到的次数越多就越重要，这样的“可能被访问的次数”也就定义为网页的权值，PageRank值。如何计算这个权值呢？PageRank采用以下公式进行计算： 其中Wj代表第j个网页的权值；lij只取0、1值，代表从网页i到网页j是否存在链接；ni代表网页i有多少个连向其它网页的链接；d代表“随机冲浪”中沿着链接访问网页的平均次数。选择合适的初始数值，递归的使用上述公式，即可得到理想的网页权值。 IBM研究院Clever系统中的相应技术称为HITS（Hyperlink-Induced Topic Search）。Clever 描述两种类型的网页： “权威型（Authority）网页”：对于一个特定的检索，该网页提供最好的相关信息； “目录型（Hub）网页”：该网页提供很多指向其它高质量权威型网页的超链。 进而在每个网页上定义“目录型权值”和“权威型权值”两个参数。当遇到一个检索时，Clever先利用检索的关键词得到一个网页的根集合，如从搜索引擎返回结果取前200个网页；然后根据这个集合在整个网页有向图中的位置来扩展这个根集合。具体办法是，将被链接（包括链出和链入）的网页加入到这个根集合中，形成一个新的集合；依据指定的网页规模进行扩展，如，使根集合扩展到一个包含1,000到5,000个网页的集合。 在得到这个集合后，就开始计算集合中每个网页的目录型权值和权威型权值。Clever的做法是采用目录型网页和权威型网页相互评价的办法进行递归计算。对于一个网页p，用xp来表示网页p的权威型权值，用yp来表示它的目录型权值，并且用如下公式进行计算： 这样的递归式也容易用矩阵方法表示。令所有选出来的网页都进行标号，我们得到所有网页的编号集{1,2,…,n}。令相邻矩阵A 为一个n×n的矩阵，如果存在一个从网页i链接到网页j 的超链，就令矩阵中的第（i,j）个元素置为1，其它各项置为0。同时，我们将所有网页的权威型权值x和目录型权值y都表示成向量形式x = (x1, x2, … xn)，y = (y1, y2, … yn)。由此我们可以得到计算x和y的简单矩阵公式：y=A⋅x， x=AT⋅y，其中是AT的转置矩阵。进一步，我们有： 经过一定次数的递归运算后，会得到集合中每个网页的权威型权值和目录型权值。按照这两个不同的权值，分别取出前k个返回给用户。根据Clever系统自己的测试数据，对于返回给用户的前10个检索结果，Clever系统在50%的情况下获得了高于Yahoo!和AltaVista的用户评价。 通过上面的分析，我们发现这两种方法有很多相似之处。它们都利用了网页和超链组成的有向图，根据相互链接的关系进行递归的运算。但是，两者又有很大的区别，主要在于运算的时机。 Google是在网页搜集告一段落时，离线的使用一定的算法计算每个网页的权值，在检索时只需要从数据库中取出这些数据即可，而不用做额外的运算，这样做的好处是检索的速度快，但丧失了检索时的灵活型。Clever使用即时分析运算策略，每得到一个检索，它都要从数据库中找到相应的网页，同时提取出这些网页和链接构成的有向子图，再运算获得各个网页的相应链接权值。这种方法虽然灵活性强，并且更加精确，但在用户检索时进行如此大量的运算，检索效率显然不高。]]></description>
		<wfw:commentRss>http://scseoer.com/link-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>传统IR的相关排序技术</title>
		<link>http://scseoer.com/traditional-ir-related-sorting-technique.html</link>
		<comments>http://scseoer.com/traditional-ir-related-sorting-technique.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:19:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[向量空间]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[词频]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1606</guid>
		<description><![CDATA[给定某个文档集合D，大小为M；设两篇文档d1，d2 ∈ D，一个查询q。用什么样的标准来讲“d1与d2相比，前者和q更相关”？这方面最经典、最有影响的工作是Gerald Salton等在30多年前提出的“向量空间模型”（Vector Space Model，VSM）。该模型的基础是如下假设：文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画。 这样，文档d和查询q就都被简化成词汇的集合（多重集）。不失一般性，令 Σ={t1,t2,&#8230;&#8230;tN} 为一个词典，ti为词项，N为它的规模，则： d=&#60;t1m1,t2m2,&#8230;&#8230;tNmN&#62; q=&#60;t1n1,t2n2,&#8230;&#8230;tNnN&#62; 其中，mi，ni，i=1, 2, …, N，表示相应词项出现的次数，即词频TF；如果次数为零，则表示该词项在文档或查询中没有出现。在实际应用中，人们通常去掉ti而直接用mi和ni来表示d和q。 d和q相关程度的评价就以这样两个向量的某种“相近程度”为基础，这其中，有一些细节的变化。 1、上述表示中，词项在文档和查询中出现的次数（词频）是一个基本量，我们称为“词频”模型。在实用中用规格化表示（以一篇文档为例）。 查询q也有同样的表达形式。这里，wi也称为词频，称这种方式为用词频来表示词项在文档或查询中的权重。 2、在许多情况下，为了简便起见mi, ni只在集合{0,1}中取值，表示词项的出现与否，不关心其次数；此时的模型称为“二元模型”。 3、若一个词项ti在许多文档中都有出现（例如“我们”，“大家”等），尽管它可能在文档内部出现的频度也很高，它对于不同文档的区分能力就不会很强，因此它的权重应该相对较小。将这种观念刻画出来，引入词项的文档频率DF的概念。用ki表示词项ti在文档集合D中涉及的文档个数，M是集合D的大小，则文档频率为。 我们需要的是和df成反比的一个量，称之为倒置文档频率IDF，常用的一种定义为，这样结合词频，就有了经典的TF*IDF词项权重的设计 给定某种权重的定量设计，求文档和查询的相关性就变成了求d和q向量的某种距离，最常用的是余弦（cos）距离 上述这些理论，源于传统信息检索领域，针对的是普通文本。这样一种理论虽然从根本上看起来比较粗糙（将文本近似成一个词项集合，完全忽略语法和语义），但几十年来在大量真实语料评估的驱动下，其不断完善的实现在实践中得到普遍认可。 从具体实现的角度看，这样一种理论在倒排文件的数据结构上能够很容易得以实现。给定文档集合D和词典Σ，对D中的每一个d得到其权重表示（那些wi）是预处理的工作，同时自然也得到了所需的M，N等。 现在的问题是，我们需要得到网页（用p来表示）和查询q的相关性。最初，一种简单的方法就是用普通文本作为网页的近似，即，p∝d，只考虑网页中那些用户可见的文字部分，忽略标记和超链等内容，于是上面的理论和实践都可以马上照搬。但人们很快发现这有很大问题，其原因在于传统IR方法的成功有两个重要的内在假设： 被索引的信息本身有很高的质量，至少在信息的组织和内容上有着比较高的质量。在Web出现以前，传统的IR之所以能够行之有效至少在部分上是依赖这一点的。很多的IR产品一般都是针对一个特定的领域，如法律信息、医疗信息、环保信息等等。这样它们可以针对这个领域进行算法的优化，同时，也避免了对一词多义的处理。 检索信息的用户有一定的相关技能和知识。也就是说，当用户面对一个很大的信息源时，他知道通过什么样的手段去提高检索的准确率，但同时又不降低系统的查全率。与此相对应的，传统的IR系统总是提供一套相当复杂的检索语法来满足用户的不同要求。 然而，这些假设在Web上都已不再成立： Web上网页的质量参差不齐，大量的网页组织性、结构性比较差。同时，Web又是一个无所不包的载体，它涉及到政治、经济、教育、生活等各个层面。这使得IR中的很多技术都没有了施展才能的余地。另外，网络上充斥着很多没有任何意义的网页，很多镜像的网页，如果不采取相应的技术处理，将会在很大程度上影响检索质量。 大部分检索用户是没有任何经验的。他们经常只输入一个或者两个检索词来检索他们需要的网页，但会得到大量的返回结果，很难达到满意的程度。很少有用户愿意使用逻辑运算来提高检索的质量。即使这样，在不少用户的输入表达中，依然存在各种各样的问题。 基于此，人们发现原有的IR技术已经不能适应Web的发展，必须改进原有的IR相应技术，研究新的适合Web的技术和算法，提高Web检索的质量。]]></description>
		<wfw:commentRss>http://scseoer.com/traditional-ir-related-sorting-technique.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>相关排序与系统质量评估</title>
		<link>http://scseoer.com/relevance-ranking-system-quality-evaluation.html</link>
		<comments>http://scseoer.com/relevance-ranking-system-quality-evaluation.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:01:24 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[排序]]></category>
		<category><![CDATA[相关性]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1604</guid>
		<description><![CDATA[传统上，人们将信息检索系统返回结果的排序称为“相关排序”（relevance ranking），隐含其中各条目的顺序反映结果和查询的相关程度。在搜索引擎的情形，人们也这么讲，但内涵其实是有了差别。 一方面，搜索引擎维护的内容十分繁杂且不规范，不像传统的图书、文献等有很好的分类体系管理。 另一方面，搜索引擎面对的用户背景广阔，层次多样，不像传统的图书馆所面对的用户通常有相对比较整齐的用户群。 因此，搜索引擎要给出的不是一个狭义的相关序，而是某种反映多种因素的综合统计优先序。检索质量评估的目标是对不同搜索引擎系统的检索质量评估其相对优劣次序。 本章的第一节介绍传统的相关排序技术； 第二节分析网络环境下影响排序的若干新的因素，并讨论如何利用Web间的链接关系进行相关度排序； 第三节给出了考虑这些因素后的一个结果排序的具体实现方案； 第四节介绍搜索引擎系统质量评估的一般技术与方法。]]></description>
		<wfw:commentRss>http://scseoer.com/relevance-ranking-system-quality-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>海量Web信息的特征分析</title>
		<link>http://scseoer.com/web-information-feature-analysis.html</link>
		<comments>http://scseoer.com/web-information-feature-analysis.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 07:59:20 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[访问次数]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1593</guid>
		<description><![CDATA[我们将天网 2000年4月上旬搜集的100万网页按照被用户访问的次数按降序排序，设该URL序列为U1,U2,…,U1000000，其对应的用户点击次数依次为V1,V2,…,V1000000，它们对应的网页入度为H1,H2,…,H1000000，网页镜像数为C1,C2,…,C1000000，URL目录深度是D1,D2,…,D1000000，另外，我们还增加了一个参照序列，它对每一个URL赋予同等重要度，即S1,S2,…,S1000000，其中Si=1。图9-14，图9-15，图9-16，图9-17分别示意了被用户访问的14万多网页按照用户行为（被点击次数）、网页入度、镜像度及目录深度进行排序后的分布情况。可以看出，被用户点击越多的URL，其网页入度和镜像度也相对地越高，目录深度表现的则不是很明显。 对这100万网页消除镜像网页后得到868,357个有效网页，这其中有131,906个有效的被访问网页，然后我们分别计算出有效网页和有效的被访问网页的入度总和、镜像度总和以及目录深度总和，列于表9-3中。从表中的比例关系可以看出，被访问网页的入度、镜像度都大于平均数（15.19%），而目录深度略小于平均数。如果我们根据入度H(P)、镜像度C(P)和目录深度D(P)来计算网页P的搜索权值W(P)，即： W(P)=f(H(P),C(P),D(P))                     (9-13) 则W(P)应当与H(P)和C(P)呈现某种正比关系，与D(P)成反比关系。这表明网页入度和镜像度越高，或目录深度越浅，网页重要度越大。我们优先搜集短目录的网页，还可以得到一个好处：避免了深度优先搜索，以搜集更多网站的重要网页。 表9-3 各网页参数的分布 图9-14 网页的被访问次数 天网系统的启发式搜集策略已考虑到目录深度这一因素，表明它的效果很好：当系统搜集到国内1/10的网页时已基本遍历完国内所有网站（CNNIC 2000年1月的统计信息表明当时国内有15153个站点）。另外，在制定搜索导向策略时，还可以考虑一些其他措施。比如我们可以配置一些导向词（如用户经常查询的关键词），当导向词和一个网页的相关度很高时，可以赋予它较高的搜索权值。而如果一个URL的父URL有较高权值，则它也应被赋予较高权值。这些因素不是本节的主要考察对象。 我们把URL序列{Ui}对应的用户点击序列{Vi}、入度序列{Hi}、镜像度序列{Ci}、目录深度序列{Di}以及参考序列{Si}分别进行规整化，得到新的序列{Vi&#8216;}、{Hi&#8216;}、{Ci&#8216;}、{Di&#8216;}和{Si&#8216;}。即采用公式（9-14）来计算{Vi}，可得到子序列{Vi&#8216;}（也可采用同样的方法得到其它规整化后的序列）： 图9-15 用户点击url对应网页的入度 图9-16 用户点击url对应网页的镜像度 图9-17 用户点击url对应网页的目录深度 对于{Hi&#8216;}、{Ci&#8216;}和{Si&#8216;}，我们分别求与{Vi&#8216;}的差平方和，得到： 可以看出，网页入度与访问次数的偏差最大，而镜像度与访问次数的偏差和参考序列与访问次数的偏差比较接近。这一结果出乎我们的预料，尤其是我们认为网页入度最有可能与被访问次数相一致，以后可以象Google系统或Clever系统那样被用作影响结果排序（result ranking）的因素，但它与被访问次数的差平方和反而最大。这说明了一般情况下，URL的入度与受用户查询相关度排序影响的用户点击行为呈现某种反比关系，在进行结果排序时不能简单地认为某个URL的入度越大，其检索权值就越高。 图9-18 站内网页的树状结构 通过对实际数据的分析，我们发现，国内有影响的网站的主页、技术文档和书籍的目录主页多获得了比较高的入度，而一般的网页入度都较低。 进一步分析发现，网站一般组织成类似树形的结构，如图9-18所示。大多数载有文章的网页（图中的空心矩形），它们极少被外站的网页所链接，在本站一般也只被一个网页所链接。而主页（图中的椭圆），它们既有超链指向站外，也被站外网页所链接。图中的实心矩形是目录网页，如时代商城目录主页，它们被站外网页所指向，但自己的超链不向外指。图9-18中的三角为一些专门向外指的网站，常被命名为“网络导航”，“友情链接”之类。 进而分析天网的用户查询日志发现，绝大多数用户查询是针对普通网页的，只有少量的是在查找一些站点主页，如北大、清华、中科院、新浪网和方舟等。因而对所有的网页都用入度来和被访问次数计算差平方和是没有什么用处的。在这一启发下，我们对一百万网页中的一万多个主页来求它们被访问次数的差平方和，得到： 从公式（9-18），（9-19），（9-20）可以看出，此时网页入度成为与用户访问次数相关度最好的指标，镜像度与用户行为的相关度也吻合的较好。 综合公式（9-15）至（9-20）的结果，我们得到如下启示：在搜索引擎提供服务时，应当将网站查询和一般网页的查询区分处理，这样一方面可以缩小输出结果范围，提高检索质量外，还应当为这两类查询采用不同的相关度排序算法。如用户在进行网站查询时，除了根据查询项与网页的相关度计算该网页的基本权值外，还要根据其入度和镜像度计算附加权值，检索子系统综合这两个权值以进行结果排序。而对于普通网页，计算附加权值时就可以不考虑网页入度。]]></description>
		<wfw:commentRss>http://scseoer.com/web-information-feature-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户行为与Web信息的分布特征</title>
		<link>http://scseoer.com/user-behavior-web-information.html</link>
		<comments>http://scseoer.com/user-behavior-web-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 07:31:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页信息]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1591</guid>
		<description><![CDATA[在2000年4月上旬，天网搜集了1,000,000 个国内网页，这些网页立刻作为新的数据对外提供服务。在随后的14天时间里，有141,779篇网页通过天网的引导被用户访问，总访问次数为400,641。哪些网页被访问，访问了多少次都通过日志文件被记录了下来。我们将基于这些信息来考察Web信息（主要是入度、镜像度和目录深度）的分布特征及其与网页重要度之间的关系。 这里对网页重要度的度量规则定义为：用户访问越多的网页越重要。需要指出的是，用户点击URL的行为是受天网系统的输出页面中结果排序的影响的，如75%的用户点击落在前5个输出页面中，输出页面中，某个URL的权值是使用文档向量空间模型和TF*IDF算法计算出来的，它反映了该URL和用户查询项之间的相关程度，这种排序本身就有其合理性。而且用户在点击一个URL之前，通常先浏览该网页的摘要等信息，如果他对该网页内容感兴趣才去点击它。所以这种受相关度排序影响的用户行为能够很好地反映网页的重要程度。下面我们首先定义几个网页参数—网页入度、镜像度和目录深度，然后具体考察其与网页重要度之间的关系。 “网页P的入度H(P)”是指整个网络中指向网页P的超链数目。正如SCI文章影响因子的计算，一篇文章若较多地被其他文章所引用，那它的影响因子就较大。同样地，我们也认为只有当其他网页的编辑者认为此网页重要时，才会在他们所编辑的网页中加入指向此网页的超链。 “网页P的镜像度C(P)”是指整个网络中网页P的镜像个数。对于一则新闻，我们常常用“被多家报刊杂志转载”来形容它的被关注程度。对于网上的各种信息，如新闻、文学作品、技术文档等，如果它真的被大量网民所关注的话，就会有很多网站把这篇网页拷贝过来，当然也许会被略加改动。 “域名深度”是指域名中包含的子域的个数，“目录深度”是指域名中所包含目录的层数。下面我们将域名深度和目录深度统称为目录深度D(P)。域名和目录都是人们用层次结构组织信息的一种方式。网页处在这种层次结构中的深浅是否与人们对它的关心程度有某种联系？]]></description>
		<wfw:commentRss>http://scseoer.com/user-behavior-web-information.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>缓存替换策略研究</title>
		<link>http://scseoer.com/cache-replacement-policy.html</link>
		<comments>http://scseoer.com/cache-replacement-policy.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 06:32:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1586</guid>
		<description><![CDATA[前面的统计分析表明了查询缓存和热点击缓存的可行性，下面以天网 1999年4月15日到1999年6月10日的查询日志作为输入来对几种缓存替换策略进行比较，选择一种最适合于搜索引擎系统的策略。我们评测的替换策略包括FIFO（First In First Out）、LRU（Least Recently Used）和LFU（Least Frequently Used）三种，其中LFU是带衰减的LFU，即每次发生替换时用某个衰减因子去衰减原来的查询次数并累加新的查询次数。 对于FIFO和LRU这两种替换策略，主要是考察在不同的缓存大小下的命中率，而对于LFU，还多了一个参数，那就是衰减因子，调整衰减因子的大小，LFU策略下缓存的命中率可以有很大的差别。 图9-12 FIFO、LRU和带衰减的LFU的缓存命中率比较 图9-13 3种替换策略的局部比较 表9-2 调整后的LFU与LRU命中率的比较 图9-12给出了FIFO、LRU和带衰减的LFU三种替换策略的缓存命中率，其中对于LFU，我们将衰减因子固定为0.998。从图中可以看出，当缓存的大小到达一定程度时，缓存的命中率可以很高，当缓存的大小为500时，这3种替换策略的缓存命中率都到了60%以上，几乎2/3的查询都可以在缓存中命中，平均的用户查询响应速度就会大大提高。这说明查询缓存的效果很好。同时，我们可以看出LRU和LFU替换策略下的缓存命中率要比FIFO好得多，而在0.998的衰减因子下，LFU比LRU的命中率相差不大，两条线几乎重叠在一起；我们把图9-12中的部分结果局部放大，得到图9-13，可以看出， LFU比LRU略好一些，但效果不是很明显。 实际上，LFU在不同的缓存大小下，取得最佳命中率的衰减因子都不同，如果在不同的缓存大小下调整衰减因子，LFU可以得到比LRU更好的命中率，表9-2是一些调整了衰减因子后的LFU的命中率，可以看出它要比LRU的效果好一些。 综合以上结论，LRU和LFU的缓存命中率要明显好于FIFO，LFU如果固定了衰减因子，其效果和LRU相差不多，如果选取好的衰减因子，可以得到比LRU稍微好一些的效果。考虑到实现的复杂性，LRU和FIFO都比较简单，而LFU在发生替换的时候要进行衰减，必须遍历整个缓存，其替换时间要远远大于LRU和FIFO，而其效果和LRU相差的又不是很多。所以，综合考虑这几种替换策略，LRU是最好的选择。]]></description>
		<wfw:commentRss>http://scseoer.com/cache-replacement-policy.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于用户行为的启示</title>
		<link>http://scseoer.com/user-behavior-inspiration.html</link>
		<comments>http://scseoer.com/user-behavior-inspiration.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 06:27:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[查询]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1582</guid>
		<description><![CDATA[用户查询分布的统计分析表明用户的查询词是非常集中的，这表明在查询中使用缓存的可行性：用户经常查询的词其实是很少的，把这些查询次数较高的词的查询结果放在缓存中，使用容量很小的缓存就能命中大部分的用户查询，这样就可以用较小的空间取得较大的缓存命中率。 假设在缓存中命中一个用户查询需要的延迟是Tm，在磁盘文件中查找一个用户查询需要的时间是Td，缓存命中率是p，这样在引入缓存后，用户查询的平均响应时间变为原来（即未使用缓存）的η倍： 在天网系统中，一次访问硬盘的时间大约是一次访问内存的时间的几十倍，这样就有： 由这个结果可以看出，如果在缓存中命中大部分的用户查询，即缓存命中率较高时，可以大大改善用户查询的平均响应时间。 用户雷同查询项的统计分析表明用户查询有一定的稳定性，这进一步说明了查询缓存的可行性，即在缓存中存放的查询信息及其结果不只是在很短的时间内才有效，可能经过一段时间后还被用户查询，这样缓存的实现就更加有价值了。而相邻N项查询项的查询频率偏差很小且非常稳定，从另一个角度说明了查询缓存的可行性：缓存替换过程不会因为用户查询短期内的变化而产生颠簸现象。 我们对用户在输出结果中翻页情况的统计分析表明用户通常只浏览前几页的内容，这说明了对输出结果进行排序的重要性，即应当尽可能地把用户最想要的网页放在前几页。Direct Hit技术能够跟踪用户对检索结果的后继行为，来获取大量的有用信息，以便提高查询结果排序的合理性。 例如，那些经常为用户所浏览的网页应该被赋予较高的权值。这样做是非常合理的，因为目前几乎所有的搜索引擎系统在响应用户的检索请求并输出结果时，其返回页面中都包含了摘要信息，用户点击一个URL，表明该URL符合他的要求。如果一个URL被很多用户所点击，表明该URL相对重要，我们应当提高其权值，使其排在输出结果的前面。为了根据一个URL被点击的次数来计算其权值，就需要在每次用户点击某个URL时，修改该URL的点击次数。如果计数器放在磁盘上，会引起大量的磁盘I/O，严重影响系统性能（一个大型搜索引擎每秒的访问量通常超过几百次）。 用户点击URL的局部性启发我们可以使用热点击缓存，即在内存中开辟一个空间，将用户点击过的URL放到里面，该URL若再次被点击，其点击次数和权值的修改都可以在内存中完成。因为用户的点击具有一定的局部性，所以只需要将很少的URL都放到内存中就可以在内存中命中绝大部分的用户点击，能够大大提高用户查询的响应速度。 然而如果在计算某个URL的被点击次数时没有具体到某个查询项，根据这样计算出来的URL权值来进行输出页面的URL排序显然是不合理的。然而如果对于用户提交过的每个查询项都维护一个URL列表，空间开销会很大。而我们对查询项考虑与否的URL点击分布的统计分析表明，大部分查询项下的URL点击频率和所有用户点击过的URL点击频率是大致相同的，这样我们在实现热点击缓存的时候，就没有必要再去记录查询项的信息了，只需要记录每个URL本身的信息即可，实现热点击缓存的空间代价和复杂程度就可以大大降低了。 另外，我们验证了搜索引擎系统中用户查询分布是一个自相似的随机过程，其自相关函数是以双曲函数衰减的，即其具备长期依赖性。查询分布的自相似性一方面表明查询分布的局部性特征是长期有效的，为引入查询缓存提供了理论基础，另一方面，类似于人们在发现了网络交通的自相似性后，利用自相似序列来测试Web服务器的性能，查询分布的自相似性对于设计和评价一个大型搜索引擎系统也具有重要的实用价值。]]></description>
		<wfw:commentRss>http://scseoer.com/user-behavior-inspiration.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>查询过程的自相似性</title>
		<link>http://scseoer.com/query-process-self-similarity.html</link>
		<comments>http://scseoer.com/query-process-self-similarity.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 10:06:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1561</guid>
		<description><![CDATA[我们在统计每相邻N项查询项之间的频率的差平方和的时候，发现差平方和在长时间内一直比较稳定，似乎具有自相似性的特征，于是可以对查询日志做进一步分析，以验证用户的查询是否具有自相似性。 自相似性直观上说就是一组序列在很长的时间范围内表现出结构上的相似性。自相似模型的主要特点是长期依赖性，而不象泊松分布那样只能体现出来短期的依赖性。下面我们首先引入自相似性随机过程的定义。 定义9-1设X是一个广义平稳随机过程，其均值为μ，方差为δ2，自相关函数为ρ(τ)，如果ρ(τ)具有以下形式： 其中L(τ)一个在τ趋于无穷大时缓慢变化的函数，即，对所有的x&#62;0成立。现将X分为大小为m、非交叠的子块（聚合过程），用每个子块的均值所组成的序列表示一个随机过程，即： 对每一个m，X(m)都表示一个广义平稳随机过程，而ρ(m)(τ)表示X(m)的自相关函数. 如果对所有的m，聚合过程X(m)有着和X完全相同的自相关函数： 则称X为一个（严格二阶）自相似的随机过程，其自相似系数为H=1-β/2。 验证一个随机序列的自相似性，直观上的办法是取不同的m值，看不同聚合过程的分布图形是否相似，是否仍符合一般自相似性的序列的图形特征。进而我们可以采用如下的数学方法从理论上验证一个随机序列是否是自相似性的： 设X = （X1，X2，……，Xn）为待验证的随机序列，μ是这个序列的均值，S2(n)为这个序列的方差。我们先按公式（9-10）计算R/S统计值（rescaled adjusted range statistic）然后计算log(R(n)/S(n))，对于不同的n，取横坐标为log(n)，纵坐标为log(R(n)/S(n))作图，各个点和原点的连线的斜率应该比较接近，如果用一条直线来拟合，这条直线的斜率如果在0.5到1之间，这个序列就满足自相似性，如果在0.7以上，这个序列就具有很强的自相似性了。 图9-8 相邻500项中不同查询项的分布 图9-9 相邻1000项中不同查询项的分布 我们首先从直观上观察查询分布图是否符合自相似性特征。先将用户的查询每500项分为一组，统计每一组中不同的查询项的个数，以组号为横坐标，不同的查询个数为纵坐标，得到图9-8。然后调整组的大小为1000（即m=2），2000(即m=5)，做同样的统计，得到图9-9和9-10。自相似性的序列其聚合后的分布图形仍能保持结构上的相似，其结果并不会因为聚合后就变的平缓了。而从图9-9和9-10中可以看出，用户查询分布满足上述特性。 图9-10 相邻2000项中不同查询项的分布 图9-11 查询项分布的自相似性特征 接着，我们采用前面讲过的数学方法来严格地验证查询分布的自相似性。以天网日志中的数据为基础，利用公式（9-10）分别计算出log(R(n)/S(n))和log(n)，并以为横坐标，log(R(n)/S(n))为纵坐标得到函数图像如图9-11所示。可以看出几乎所有点都在斜率为0.58和0.82的直线之间，我们通过用最小二乘法来做直线拟和，求出拟合直线的斜率（即Hurst参数）是0.67。当hurst因子介于0.5和1之间时，随机过程就是自相似的。这样，我们就验证了用户查询具备良好的自相似性。 本节的分析都是对天网某个时期的日志进行统计的，根据自相似性的特点，我们可以知道用户的查询是具有长期稳定性的，这样就可以将在前面的分析中得到的结果推广到搜索引擎长期以来的查询行为中，而且可以认为在今后相当长的时期，这些结果仍然有效。]]></description>
		<wfw:commentRss>http://scseoer.com/query-process-self-similarity.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>考虑与不考虑查询项时点击URL分布的对比分析</title>
		<link>http://scseoer.com/clicks-url.html</link>
		<comments>http://scseoer.com/clicks-url.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:50:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1555</guid>
		<description><![CDATA[对于点击URL的分布情况还有另外一种统计方法，即针对用户查询词的统计，因为用户的每一次点击都是在某个查询的结果中进行的，这种统计的方法就是把用户的点击和相应的查询联系起来。其具体方法是：将点击的URL按其对应的查询词分类，统计每个查询词下各个URL点击的次数。 图9-7 考虑查询项与否的URL分布情况 这样我们就得到了两种统计方法的结果，并且我们对这两种方法进行了比较。进行比较的方法是：在针对查询项的统计结果中，每个查询词Qi下每个被点击的URL页面Uj都有一个点击次数Wij，在不考虑查询的URL统计中，该URL也有一个点击次数Wj。在考虑查询项的点击次数的统计中，某个查询项Qi下的URL点击次数形成一个向量： 同时，这些URL在不考虑查询项时的URL点击次数也对应着一个向量： 对于每个查询项，我们计算这两个向量的夹角余弦值： 这个夹角的余弦值越接近1，说明两个向量的夹角越小，两个向量的角度越接近，两个向量中各个分量占的比率越接近，即两种统计中，各个URL的点击次数占的百分比越接近。我们对用户点击次数最多的10000个词按上述方法做了比较，比较结果如图9-7所示（横坐标是查询词的编号，纵坐标是该查询词按上面方法计算的余弦值）。由图9-7可以看出，针对大部分的查询词计算出来的余弦值都是在0.8以上，这表明，在大部分的查询项下URL的点击频率和在所有查询项URL的总点击频率基本上是一致的。]]></description>
		<wfw:commentRss>http://scseoer.com/clicks-url.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户点击URL的分布情况</title>
		<link>http://scseoer.com/clicks-url-distribution.html</link>
		<comments>http://scseoer.com/clicks-url-distribution.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:44:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1552</guid>
		<description><![CDATA[我们用2000年4月份天网的查询日志来统计用户点击URL的分布情况。这里我们假设用户点击的URL序列为S1={u1 , u2, … , un}，其中这n个URL中共有m个是不同的，按其被点击次数进行降序排序得到序列S2={U1, U2, … , Um}，而S3={C1, C2,…, Cm}是与S2对应的被点击次数序列。按公式（9-1）的计算方法，我们可以得到：统计序列S2中前某个百分比的URL其对应点击次数占总点击次数的比率Y，其统计结果如图9-6所示，其中横坐标表示所选URL的数目占用户点击的URL总数的比率，纵坐标表示所选URL的被点击数目占用户点击总数的比率。 图9-6 用户点击URL的分布情况 从图9-6的统计结果可以看出，用户点击的URL实际上也是非常集中的，2000年4月天网1.0系统的数据库一共维护了100多万有效页面，但是在统计数据中被点击的URL只有16万多个，还不到总的有效页面的1/6。而且在被点击的页面中常被用户点击的也是相当集中的，超过50%的页面只被点击了一次，不到1/3的页面的点击次数占到了总点击次数的2/3。这就表明了用户点击URL也具有很强的局部性。]]></description>
		<wfw:commentRss>http://scseoer.com/clicks-url-distribution.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户在输出结果中的翻页情况统计</title>
		<link>http://scseoer.com/page-statistics.html</link>
		<comments>http://scseoer.com/page-statistics.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:40:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1549</guid>
		<description><![CDATA[我们用2000年4月份天网系统的查询日志来统计用户点击URL的翻页情况，其中该日志记录了近50万的用户点击情况，包括用户点击的URL及该URL所在输出结果中的页号。具体做法是：统计相同页号的页面点击次数占总点击次数的百分比。假设天网系统中能够提供n个显示页面（在当时的实际系统中n=2000，每个页面包含10个网页信息），用{P1 , … , Pn}来表示，它们对应的点击次数分别为C1 , … , Cn。对第i个页面，我们根据公式9-5计算其点击次数占总点击次数的百分比Yi。得到的结果如表9-1和图9-5所示（横坐标是页号，纵坐标是该页面的被点击次数占总点击次数的比率）。 图9-5 用户翻页情况统计 其中前面5页中URL点击次数占总点击次数的比例列在了表9-1中，可以看出大部分的用户点击都落在前面几页中，象第一页的用户点击占总点击的47%，而前面5页的点击占到了总点击的75%以上。而图9-5表明用户很少浏览第100页以后的内容。这说明用户很少会在查询结果中翻很多页，用户一般就看看前面几页的内容而已。]]></description>
		<wfw:commentRss>http://scseoer.com/page-statistics.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>相邻N项查询词的偏差分析</title>
		<link>http://scseoer.com/deviation-analysis.html</link>
		<comments>http://scseoer.com/deviation-analysis.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:35:26 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1543</guid>
		<description><![CDATA[根据天网1999年4月15日到1999年6月10日的查询日志，对其中相邻N项用户查询词的频率的差平方和进行了统计。具体做法如下：将用户查询每1000项分为一组，对于相邻的两组A和B，假设A组中出现的不同的用户查询是(ab1，ab2，……，abk，a1，a2，……，an)，其中abi是A组和B组中所共有的，ai是A中出现但B中没出现的查询。而B组中出现的不同的用户查询是(ab1，ab2，……，abk，b1，……，bm)，其中bi是B组中出现而A组中没出现的。 A和B中的这些不同的查询项构成一个向量空间 我们假设某查询词qi在A中出现的次数为Fai , 对其规整化后作为其特征项Ai 这样就得到了A组的特征向量： (A1，A2，……，Ak，Ak+1，……，Ak+n，Ak+n+1, ……, Ak+n+m) ，其中Ai=Fai/1000。 同样我们可以对这些不同的查询项在B组中出现的查询频率进行规整化后，得到B组的特征向量： (B1，B2，……，Bk，Bk+1，……，Bk+n,Bk+n+1 ……, Bk+n+m) ，其中Bi=Fbi/1000。 图9-4 相邻1000项查询词的频率的差的平方和 我们计算以上两组特征向量的差平方和（如公式9-4所示），计算的结果如图9-4所示。该图显示：大部分的差平方和都是在0.02到0.06之间。它一方面说明了每相邻1000项之间的查询相差不是很大，二是说明了每相邻1000项之间的差别很稳定，即用户的查询不但在短时期内偏差不大，具有短期的相关性，而且这个偏差也比较稳定。]]></description>
		<wfw:commentRss>http://scseoer.com/deviation-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>雷同查询词的衰减统计</title>
		<link>http://scseoer.com/same-query-word-attenuation-statistics.html</link>
		<comments>http://scseoer.com/same-query-word-attenuation-statistics.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:05:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户查询]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1540</guid>
		<description><![CDATA[基于天网1999年4月15日到1999年6月10日期间的日志记录，对用户雷同查询项的衰减情况进行统计分析，这里，我们把序列S1进行了分组，每相邻1000项分为一组，并假设第i组的查询序列为Ai={qi1 , … , qi1000}，我们用T1表示A1中不同的查询项组成的集合，然后计算后面各组的查询项中有多少个查询项出现在T1中，即对于Ai，我们计算Yi的值： 图9-3 雷同查询词的衰减 当取不同的i值时就可以得到不同的Yi值，其结果反映在图9-3中，其中横坐标表示组号，即第几组1000项，纵坐标表示该组查询项落在第1组查询项中的个数。从统计结果可以看出，第1组查询中的部分关键词或多或少地在其随后的多组查询中也出现了，直到第48组才完全消失，这表明用户的查询具有一定的稳定性。]]></description>
		<wfw:commentRss>http://scseoer.com/same-query-word-attenuation-statistics.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户查询词的分布情况</title>
		<link>http://scseoer.com/user-query-distribution.html</link>
		<comments>http://scseoer.com/user-query-distribution.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:01:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[函数]]></category>
		<category><![CDATA[用户查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1535</guid>
		<description><![CDATA[我们以天网1999年4月15日到1999年6月10日期间的日志记录作为分析对象，首先统计了用户查询词的分布情况。这里我们采用本章开头介绍的那种统计分析思路，假设用户的查询词序列为S1={q1 , q2 , … , qn}，其中这n项查询词中共有m个不同的查询词，按其查询次数进行降序排列得到序列S2={Q1 , Q2 , … , Qm}，而S3={C1 , C2 ,…, Cm}是与S2对应的查询次数序列。我们希望考察序列S2中前某个百分比的查询词其对应查询次数占总查询次数的比率Y，即计算公式（9-1）的值: 图9-1 查询词的分布情况 通过对分析对象进行统计，我们得到n=9.6&#215;105，而m=1.6&#215;105。若以0.01作为x取值的跨度，可以计算得到一系列的Y值，如图9-1所示（其中X轴是用户查询词占查询词总数的百分比，Y轴是与X轴的百分比相对应的查询词的查询次数总和占总的查询次数的百分比）。该图显示，用户的查询词是非常集中的。例如，前20%的查询词的查询次数占了总查询次数的80%，即满足80/20规则，也就是商业贸易中常提到的：80%的交易来自20%的客户。 图9-2 查询词分布函数及其拟合函数 我们对图9-1中的查询词分布曲线进行函数拟合，得到其拟合函数，如图9-2所示。我们发现拟合函数具有幂函数的特征，其形式为： 这种幂函数具有这样一个特征(xa(a&#60;1)))：在x越接近0的地方，y值增长越快，在x接近1的地方y的变化趋于平缓。这也表明了查询词的分布具有很强的局部性：绝大多数用户查询的关键词落在了相对很小的一个集合上。]]></description>
		<wfw:commentRss>http://scseoer.com/user-query-distribution.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户查询与点击日志</title>
		<link>http://scseoer.com/user-query-click-log.html</link>
		<comments>http://scseoer.com/user-query-click-log.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:52:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志记录]]></category>
		<category><![CDATA[用户查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1531</guid>
		<description><![CDATA[一般的搜索引擎系统主要维护了两类信息，一类是和搜集到的Web页面相关的信息，另一类是在服务过程中收集到的用户行为信息（记录在所谓的日志文件中）。 前者指的是机器人从网上抓取的网页经过分析器分析处理后得到的信息，主要包括网页所包含的关键词、摘要信息、元信息（如网页作者、长度、修改时间等）以及URL超链信息，这类信息通常是作为输出信息给用户看的。而后一类信息主要包括用户输入的查询项，查询时间，用户的IP地址，用户在输出页面中所点击感兴趣页面的URL。这两类信息的数据量都很大，在天网系统中它们都已超过千万量级。 天网日志文件分为用户查询日志和用户点击日志。其中用户查询日志是在用户提交查询请求时记录的，它记录了用户查询时提交的关键词、提交时间、用户IP、页号（查询结果分页显示，每页显示10个查询结果，用户首次查询页号为1， 用户翻页时的页号即为用户选择的结果页面号）、是否在缓存中命中等信息。用户查询日志的一个简单的记录格式为： 用户查询日志的一个简单的记录格式 用户点击日志是用户浏览查询结果时点击页面时记录的，它记录了用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号（该页面在查询结果中的位置）、该点击对应的查询词等信息。用户点击日志的一个简单的记录格式为： 用户点击日志的一个简单的记录格式 根据天网系统维护的日志数据，如下统计分析了用户行为的分布特征，主要包括： 用户查询词的分布情况 雷同查询词的衰减统计 相邻N项查询项的偏差分析 用户点击URL的分布情况 用户在输出结果中的翻页情况 在分析上述统计结果时，我们发现用户行为表现出极为强烈的局部性，这启发我们采用查询缓存和热点击缓存来提高系统性能。我们以日志中的用户行为作为输入，模拟实现FIFO、LRU以及带衰减的LFU等3种缓存替换策略，测试了其缓存命中率，比较了它们的优劣。 另外，我们发现相邻N项查询项的偏差分布是稳定的，于是猜想用户查询项的分布过程符合自相似性，进而我们对此进行了验证，证明我们的猜测是对的。类似于互联网上网络流量的自相似性特征，该结论对于设计和评价一个搜索引擎系统具有很高的指导意义。 另外，我们还根据天网系统所搜集的网页信息统计分析了Web信息的一些重要参数的分布特征，这些参数包括网页入度、目录深度及镜像度等（这些参数将在后面第四节中定义）。随后我们分别求出了这些参数的分布与用户点击URL的分布的差平方和，依此来度量这些参数对网页重要度的影响。同时，我们也得出了URL的入度、镜像度等参数与用户行为反馈后的相关度的方差分析对搜索引擎结果排序算法（ranking algorithm）的一些启示。这些结论可以被用来提高搜索引擎的检索质量。]]></description>
		<wfw:commentRss>http://scseoer.com/user-query-click-log.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>用户行为的特征及缓存的应用</title>
		<link>http://scseoer.com/user-behavior-characteristics-application-cache.html</link>
		<comments>http://scseoer.com/user-behavior-characteristics-application-cache.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:46:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1522</guid>
		<description><![CDATA[通过对大量用户行为的统计分析，我们发现搜索引擎用户输入的查询词语和查询过程中所点击到的网页URL均表现出明显的时间局部性；而且用户查询的分布符合幂函数特征并具有良好的自相似性。这些规律可能有多方面的价值，其中之一就是用来指导查询缓存的设计。而搜索引擎所访问数据的特殊性使得我们在缓存设计中有必要重新考察相关的细节。 因此，本章除通过数据具体展示上述规律外，作为应用，还比较了查询缓存设计中FIFO，LRU及带衰减的LFU等3种缓存替换策略。最后，本章还讨论了基于用户行为考察海量网页信息的分布特征，并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析, 阐明其对优化搜索引擎系统排序算法的启示。 在对一些观察数据（或者测试数据）进行统计分析，以得到关于这些数据的某些总体性质的时候，问题常常可以如下抽象：给定一个集合，S={e1,e2,&#8230;&#8230;en}，，假设对其中的元素总共进行了N次观察（或者说这些元素在实验中总共出现了N次）；这N次出现分布到具体的元素上就形成了一个整数序列：C=&#60;c1,c2,&#8230;&#8230;cn&#62;，其中。将C的元素降序排列，可得到，其中，，亦即。 根据不同的需求，我们可能关心如下几个统计量： 1、集合S中元素出现频度（相当于概率密度）分布的递减情况，亦称为频度频级分布。 2、集合S中元素出现频度按降序排列后的前缀累积分布情况（相当于概率分布函数） 3、有时为了需要，对（2）中的i做变换：i=n⋅x,即有（相当于规格化） 在直角坐标系内画出有序对(x,y)的散点图，就可以很容易得到“A%的元素覆盖了B%的观察”之类的结论。这样的统计分析方法在这一章会多次用到。 本章的主要内容安排如下： 第一节简要介绍了一般搜索引擎系统中用户的查询日志与点击日志所记录的基本信息； 第二节对近两个月的天网日志进行了分析，得到了用户行为的一些重要的统计特征； 基于这些特征分析，第三节讨论了搜索引擎系统使用查询缓存的必要性，并比较了几种数据替换策略； 第四节基于用户的行为对海量Web信息的分布特征进行了分析。]]></description>
		<wfw:commentRss>http://scseoer.com/user-behavior-characteristics-application-cache.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>高性能检索子系统小结</title>
		<link>http://scseoer.com/retrieval-system.html</link>
		<comments>http://scseoer.com/retrieval-system.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:35:19 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[检索]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1520</guid>
		<description><![CDATA[第一节通过分析天网检索子系统的设计与实现，概述了检索系统所要关心的若干基本技术。检索系统的设计目标围绕检索效果和检索效率两个方面展开。系统通过一个集成框架把多种技术融合到一起，包括中文文本自动分类技术、中文信息提取技术等，以求能不断提高检索质量。天网检索分布式系统构架有效解决了系统可扩展性问题，它是高效检索系统实现的物理基础。而检索系统在索引创建和检索上的相关实现技术，则是高效检索系统实现的保证。 第二节着重从 I/O 数据量的角度分析了影响倒排文件查询效率的各种因素，以及提高系统效率的一些技术，试图定量化地描述数据规模和查询效率之间关系。所得到的结论可以指导在计算机系统硬件、数据规模、系统性能（响应时间、吞吐量）之间做预测和评价，作为评估信息检索系统设计的一个依据。我们同时指出，所讨论的模型没有涉及其他一些优化技术，特别是压缩技术和缓存技术。这样一些优化技术实际上能够在相当程度上有效提高系统吞吐率。在这个意义上，依据该节模型所得的结论会比较偏于保守。 第三节在天网实践的基础上，提出了一种基于自动识别新词技术的混合索引技术。与其它几种常用索引词选择技术相比，这一技术能够有效提高搜索引擎检索效率，同时不会导致检索效果下降。 第四节研究了搜索引擎中倒排文件缓存技术。通过分析数据访问序列的局部性特征，以及基于真实数据的缓存仿真实验，探讨了倒排文件缓存优化设计中的性能指标选择问题、替换算法、页面大小和倒排文件组织方式等对缓存性能的影响，得到如下结论： 通过缓存变长的 IO 序列对象，采用 GD-SIZE1 替换算法，可以明显减少磁盘系统 I/O 访问的次数； 通过按页面对齐方式组织倒排文件，选取大的页面作为访问倒排文件的单位，可以使磁盘系统带宽利用率得到优化。]]></description>
		<wfw:commentRss>http://scseoer.com/retrieval-system.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>缓存策略的选择</title>
		<link>http://scseoer.com/cache-strategy-choice.html</link>
		<comments>http://scseoer.com/cache-strategy-choice.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:29:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[性能]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1518</guid>
		<description><![CDATA[我们注意到，现代操作系统的文件系统通常都提供I/O数据的缓存功能，通常以页为单位。也就是说，如果在应用层不安排缓存，应用中发生的I/O操作物理上也都可能在内存发生。文献[彭波,2004b]通过四组缓存仿真实验，验证了倒排文件缓存经过优化设计，可以比文件系统缓存性能更好。 具体的方法可以通过缓存变长的IO序列对象，选择性能更好的GD-SIZE1替换算法，从优化磁盘系统I/O次数的角度来提高系统性能；也可以通过选取大的页面作为访问倒排文件的单位，从优化磁盘系统带宽利用率的角度提高系统性能。 最后按页面对齐的方式组织倒排文件可以进一步优化缓存和系统性能。而这一组织方式下，可以直接把倒排文件页面存放在磁盘设备上，通过直接的设备访问接口，越过文件系统read/write调用来访问倒排文件数据。再加上优化设计的倒排文件缓存，使得索引服务的性能得到进一步的提高。]]></description>
		<wfw:commentRss>http://scseoer.com/cache-strategy-choice.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>负载特性</title>
		<link>http://scseoer.com/load-characteristic.html</link>
		<comments>http://scseoer.com/load-characteristic.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:28:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[序列]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1514</guid>
		<description><![CDATA[这一部分分析负载数据的性质，讨论它们对倒排文件缓存和缓存替换算法的影响。 1、I/O序列对象大小 I/O序列中的对象大小不同，其中由位置数据访问产生的部分是固定长度(32KB)，而对文档数据访问产生的对象大小分布很不均匀，以4KB为单位对其分布统计如图8-8所示。其中值为7.59KB，79%的请求对象长度在64KB以下，同时也有少数较大的数据访问。有效的缓存替换算法需要考虑对象的大小。对大量的小数据对象优先缓存，可以提高缓存的命中率，而对大对象优先缓存可以提高缓存的字节命中率。因为I/O序列反映的是系统I/O请求的次数，所以缓存命中率更为重要。在考虑缓存替换策略时，偏向小对象的方法预计可以获得更好的性能。 2、序列中对象的频度分布 对象被访问的频率是缓存设计的一个重要因素。如果序列中对象访问频率分布非常不均匀，则需要考虑两个问题，一是缓存少数高频对象可以提高性能，另一个是不区分出大量低频对象将降低性能。实际上对象的访问频率和访问的时间局部性是相关的，可以推导出高频的访问对象也会具有较高的访问时间局部性。 I/O序列和PAGE序列的访问频度对其访问频度的序号的分布如图8-9。在计算数据点序号时，对同频度的数据使用最后一个数据点的序号，这样图中曲线平滑，没有尾部数据点堆积，便于分析和比较。总体看，两个序列都存在访问频度分布不均匀的现象，但和通常的Zipf’s分布相比，这种差异还算是很平缓，可以预期频率是倒排文件缓存替换算法应该考虑的一个因素。但只考虑频率的替换算法，如LFU，效果不会很好。两者间，I/O序列的频率特性比PAGE序列更有利于缓存应用。 3、序列中对象的时间间隔分布 序列的时间局部性可以从序列中对同一个对象的两次连续访问的时间间隔分布来考察。使用访问在序列中的位置间隔，而不使用绝对时间，可以屏蔽用户查询密度在各个时间段内的周期性对分析的影响。 I/O序列和PAGE序列的时间间隔分布如图8-10。由于直接的时间间隔分布十分散乱，图中的处理是把距离数据按2000为单位分组，表现的是各组的频度。可以看到对数坐标下，序列的时间间隔分布接近直线，说明具有良好的时间局部性。I/O序列的斜率为1.039，PAGE序列为0.764，表明在同样的缓存大小比例下，I/O序列可以预期得到比PAGE序列更高的缓存命中率。较强的时间局部性有利于缓存设计，对象访问的时新性(freshness)是替换算法需要考虑的一个重要因素。 4、序列的重复模式 序列的空间局部性是指序列中固定模式的重复，这可以通过原始序列和随机排列处理后的序列中的唯一的定长串的个数来说明。空间局部性也是缓存设计需要考虑的因素。 取I/O序列和PAGE序列前10万个数据，处理得到其中长度从1到9的连续串，统计唯一串的个数。再把序列进行随机重排，重复统计。得到序列中指定长度的唯一串的个数如图8-11。随机排列破坏了序列中的重复模式，即破坏了序列的空间局部特性。图中随着串长度的增加，唯一串的个数也增加。随机排列的序列增加速度最快，其空间局部性最差；I/O序列增加得最为平缓，其空间局部性较强，PAGE序列次之。]]></description>
		<wfw:commentRss>http://scseoer.com/load-characteristic.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件缓存</title>
		<link>http://scseoer.com/inverted-file-cache.html</link>
		<comments>http://scseoer.com/inverted-file-cache.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:24:06 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[结构]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1510</guid>
		<description><![CDATA[体系结构 天网检索系统采用分布式体系结构，按文档划分的方式组织数据到多个索引服务节点，它们独立的并行执行用户查询，把各自检索结果提交给查询服务器汇总返回给用户。各级缓存的位置如图8-7。 图8-7 搜索引擎检索系统缓存结构 倒排文件缓存位于索引服务节点上，对查询执行器在执行用户查询过程中访问的倒排文件数据进行缓存。大量统计研究表明用户查询词序列具有良好的局部性，可以预期查询执行器发出的读取这些查询词倒排数据序列也具有同样的性质，这是人们研究倒排文件缓存的基本出发点。 在搜索引擎应用环境下，用户提交的查询中包含查询词个数通常很少，而词间的位置邻近关系对结果排序十分重要。与[Saraiva, et al.,2001]的过滤向量空间模型查询处理技术不同，天网使用带位置数据的全文倒排索引，对多个词的用户查询计算邻近权值。查询执行器访问倒排文件的数据分为两类，一是查询词对应的倒排表中的文档编号和文档内权值数据，称为文档数据；另一部分是查询词对应的出现在每篇文档中的位置数据，称为位置数据。 执行过程中，各个查询词按倒置文档频率降序处理，先读取文档数据，执行文档集合的布尔运算（通常搜索引擎默认为AND），得到一个小的结果集合，同时使用文档内权值数据计算每个结果文档对查询的相关性权值；再读取对应的位置数据，对结果集合进行邻近权值排序。通过索引压缩技术，再结合对高频词使用位图记录文档数据，可以有效控制文档数据的长度。一般情况下，位置数据总量是文档数据量的3～4倍，查询执行中不必全部读取，通过随机访问的倒排索引组织技术，可以减少数据读取量。 天网查询执行器读取倒排文件的数据序列包括文档数据序列和位置数据序列。每次读取的数据长度不固定，但基本可以在一次磁盘系统I/O操作下完成（不考虑文件系统开销和数据组织碎片的条件下），这样的数据序列总称为I/O序列，它的项数代表磁盘系统执行的I/O次数。另外，以固定页面为单位，可以把I/O序列转换为页面访问序列，称为PAGE序列，它的项数对应磁盘系统实际读取数据总量，这可以衡量磁盘系统的带宽使用效率。搜索引擎的查询执行属于磁盘密集型应用，和数据库系统的事务处理应用类似，瓶颈在于磁盘系统每秒能够执行I/O次数的能力，即其IOPS参数；但平均每次访问的数据量比数据库事务处理要大，磁盘系统带宽参数也不能忽略。从实际系统的性能角度分析，与考察PAGE序列相比，考察I/O序列对缓存系统的性能评估更为有意义。 负载数据 我们采用踪迹驱动（trace driven）的方法来研究倒排文件缓存的性质。采用天网2002年11月的用户查询日志，在北大燕穹提供的数据产品中的编号为YQ-QUERYLOG.021203。查询日志记录了用户查询是否被天网的查询结果缓存命中。把被结果缓存命中的查询剔除，就得到实际到达索引服务节点图8-7所示的查询序列。 表8-3  数据集基本统计信息 同时，还需要形成一个该查询序列所针对的文档集合。为此，我们从天网搜集的网页集合中随机抽取一批网页，建立索引，修改查询程序，把访问倒排文件的每次操作记录到日志文件，内容包括访问数据的索引词编号、文件偏移、数据长度、访问类型。其中访问类型采用位置数据块的编号。取经过过滤的查询序列中连续的10万个查询，送入查询程序执行，记录得到此查询序列在天网查询执行器下的倒排文件访问序列。根据访问日志中的索引词编号、访问类型与数据长度可以得到I/O序列，根据文件偏移和数据长度和指定的页面大小(例如4KB)，可以得到PAGE序列。 最后，为了更有效的数据处理，把两个序列中的对象标识（I/O序列中是索引词编号与访问类型，PAGE序列是页面编号）转换为从0开始的连续整数。数据集的统计信息如表8-3所示。]]></description>
		<wfw:commentRss>http://scseoer.com/inverted-file-cache.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件缓存机制</title>
		<link>http://scseoer.com/inverted-file-cache-mechanism.html</link>
		<comments>http://scseoer.com/inverted-file-cache-mechanism.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:19:10 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排文件]]></category>
		<category><![CDATA[缓存机制]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1508</guid>
		<description><![CDATA[缓存技术是提高系统性能和可扩展性的一种重要手段，在计算机各个应用领域都有广泛的应用。如何有效的在搜索引擎检索服务系统中使用缓存技术也是近年来学术界广泛关注的问题。 缓存技术的有效性建立在被缓存对象访问序列存在的局部性特征上。与操作系统内存管理、数据库系统和Web代理缓存这些领域大量的研究相比，搜索引擎检索系统上的缓存研究相对较少。它们之间有共性，但由于被缓存对象特征和对象访问模式的差异，又各自具有自己的特点。搜索引擎检索系统中通常被研究的缓存对象可分为三种，即查询结果、布尔操作的中间结果、以及倒排文件。 文献[Xie and O'Hallaron,2002],[Wang, et al.,2001]详细分析了搜索引擎用户查询日志，发现用户查询具有很强的局部性，提出了缓存查询结果的可行性。在文献[Wang, et al.,2001],[Markatos,2001],[Saraiva, et al.,2001]中，进一步研究了缓存替换算法、缓存大小等因素对系统性能的影响。 天网在[Wang, et al.,2001]的基础上实现了查询结果缓存，有效的提高了系统性能。文献[Chidlovskii, et al.,1999]提出语义缓存，把布尔查询的中间结果作为缓存对象，并利用查询结果间的语义关系加速后续查询的执行。这种方法可以充分利用不同查询之间的相关性提高缓存命中率，缺点是限制在布尔查询上，可能影响结果相关性排序。 第三种是倒排文件的缓存，用户查询经过查询器执行，转换为对倒排文件数据的访问序列，这些数据也可以作为缓存对象。[Jonsson, et al.,1998]研究了IR背景下用户交互式查询的倒排文件缓存与查询执行结合的方法，[Saraiva, et al.,2001]研究了一个实际搜索引擎（TodoBR）中的倒排文件缓存对系统效率的影响。 下面我们基于天网的实际运行数据，重点讨论倒排文件缓存的优化设计。与[Saraiva, et al.,2001]相比一个差异在于它使用的是过滤向量空间模型查询处理技术，而天网的查询处理考虑查询词位置邻近关系，使用带位置数据的倒排索引，并使用索引压缩和块随机访问技术提高性能。这种查询处理技术的不同，导致所产生的访问倒排文件数据序列性质的差异。文献中对倒排文件缓存的研究，基本以固定大小的页面为单位，忽略了倒排文件访问数据是变长这一特点；并且缺乏替换策略、数据组织对缓存效率影响的分析。本节就如下问题展开讨论。 缓存性能评估的指标如何选取？ 倒排文件缓存与操作系统的文件缓存相比是否有优势？ 倒排文件的数据组织方式对缓存效率及系统性能的影响如何？]]></description>
		<wfw:commentRss>http://scseoer.com/inverted-file-cache-mechanism.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引实现</title>
		<link>http://scseoer.com/hybrid-index-realization.html</link>
		<comments>http://scseoer.com/hybrid-index-realization.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:16:19 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1504</guid>
		<description><![CDATA[混合索引的实现主要包括未登录词识别、扩展词典组织和分词两个部分。除了两趟分词和扩展词对基本词条的覆盖处理外，索引系统的创建过程和检索过程同一般的索引实现没有区别。 1、未登录词的识别 目前，从语料库中自动识别或者学习词典未登录新词，特别是面向领域的专业词汇以及人名、地名、机构名等专有名词等方面，已经有了大量的研究工作和实用的技术。对文本数据常规的未登录词识别算法一般包括如下步骤： 提取n元组：使用基本词典，将文本进行部分分词，从部分分词结果中提取n元组，即包含n个相邻基本词条的字串。一般n元组的规模很大，不利于后续处理，常通过设定n元组的提取规则加以限制。例如可以设置如下规则：对单字，只有连续出现的单字才能生成n元组；形成新词的n元组必须包含一个单字等。 噪声剔除：删除那些包含低构词能力字的n元组，例如常见的助词“的”、“得”，介词“在”“把”等。对于这些字，由于数量少，可以人工收集包含它们的词。 剔除n元重叠：把那些在n取不同值情况下重复被提取的n元组剔除。 最后剩下的n元组按出现频次降序排列，为识别结果。 未登录词可以从网页文档集合与用户查询日志两种基本语料数据中得到。网页文档集合规模很大，用简单的n元组提取方式执行完整的未登录词识别算法会产生数量巨大的候选元组，难以处理。实际实现时，通过加入一些提取规则限制提取范围，使得在识别效率和识别效果间取得平衡。 第一个规则的基本出发点是，常被用户查询的词或短语应该在文档集合中比较重要，而重要的词往往会在网页中的一些特殊位置和标签中间出现，例如标题，H标签，加重的文字等。网页中这些文字首先被选择执行n元组提取。 第二个规则，网页和普通文本不同，网页中通常会有大量已经被自然分隔的较短的字串，分隔包括标点，网页标签，例如导航链接上的文字，选择框中的文字，表格等等。 这些较短的字串极可能就是一个词，被选取执行n元提取。第三个规则是从网页原文摘要文字中提取n元组。天网搜索引擎使用了文档模型技术对搜集系统得到的网页进行预处理，提取了网页正文的摘要。摘要文本是正文中最重要的内容，而且长度相对于正文全文小很多。通过上述三个规则，可以有效控制未登录词识别执行的数据规模，提高识别效率，而且提取的是整个文档集合中重要的文本内容，对识别效果没有太大损失。 从用户查询日志中识别未登录词，除了使用基本的识别方法外，还可以利用查询日志数据的特点。例如，直接从网页文档语料库中学习新词需要较复杂的处理算法，处理数据量大，而日志文件中用户的查询词通常比较简短，几乎没有完整的句子，只需做一些简单的处理，即可方便地学习新词。而且，如果用户查询词在词典内没有收录，很有可能就是潜在的新词，所以学习新词的准确率也比较高。搜索引擎日志中用户查询词在频度分布上是高度集中的。通过对天网用户查询日志的统计分析表明，前5%的高频词占据了64%以上的总查询次数；前20%的查询词占据了83%以上的总查询次数。我们可以利用查询词的频度分布特性来大量地减少n元组提取过程中处理数据量。而且从提高系统检索效率的角度，对长期保持高频度的用户查询可以直接加入到扩展词典里，越过识别过程。 2、扩展词典组织与分词 识别出的新词保存在扩展词典中。基于扩展词典的分词实际上是一个对基本分词结果序列在扩展词典上的最长匹配查找过程，即输入基本分词结果序列，找到序列中在扩展词典里的所有最长的匹配词条。为了高效实现对分词的支持，先把每个新词字串用基本词典进行分词，转换为一个基本词条的序列。再使用一个散列查找表把基本词条的字串转换为连续的整数编码。扩展词典保存每个词条中基本词条的整数编码，这相当于一个由数字组成的n元组的集合： 图8-5 扩展词典树结构示例 系统中n取2到6，式中t为基本词条编码，D表示扩展词典。在扩展词典保存时，各元组按第k（1≤k6）个元素的t值进行基数排序。再把排序结果每一层上相同t值的节点合并，转换为树结构保存。示例如图8-5所示。 图8-6 扩展词典匹配查找算法 在图8-5中，树节点保存实际上是基本词条的编码，且每一层的兄弟节点按节点内编码数值有序。基于这样数据结构的扩展词典匹配查找算法如图8-6所示。]]></description>
		<wfw:commentRss>http://scseoer.com/hybrid-index-realization.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引原理</title>
		<link>http://scseoer.com/hybrid-index.html</link>
		<comments>http://scseoer.com/hybrid-index.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:09:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[原理]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1501</guid>
		<description><![CDATA[混合索引是在建立倒排索引过程中的一种索引词选择方法与技术。索引词的选择是检索系统实现的一个重要环节。现代搜索引擎普遍采用全文索引技术，把网页文档中提取出来的所有词语都选择参与索引。 在理想情况下，索引词应该是表达文档内容的语义单位，对应着语言学里的词汇词的概念，它是专门表示含义，而其实际意义无法由组合成分相加得到的最小语言单位。但对于自动文档索引过程，识别文档中的词汇词，例如短语十分困难，因此通常选取语法意义上的最小语言单位为索引词。对英文文档，这一过程相对容易。对中文网页文档的索引过程，词间没有空格自然分隔，为索引词的选择带来了新问题。 文献[Nie, et al.,2000]研究表明相对于按字索引，基于自动分词的索引方式具有良好的检索效果。对搜索引擎系统，更出于检索效率的因素，通常通过自动分词来选择索引词。在文档索引过程中，先通过中文自动分词程序的处理，把文档正文分割成为独立的分词单位，然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功能的基本单位，通常被直接选作索引词。 目前，中文自动分词的成熟技术都是基于分词词典的机械型分词方法，这一方法的主要难点在于分词歧义处理和未登录词的识别，其分词词典规模是制约分词精度的重要因素。我们使用北京大学计算语言所的中文自动分词软件，该分词软件的基本词典规模为6万词。中文自动分词软件使用的词典选词十分严格，随意加入新词将影响分词软件的歧义处理过程，导致分词精度下降。文献[Stokoe, et al.,2003] 研究表明对英文文档数据，信息检索系统加入词歧义处理可以提高检索精度。 对于中文文本，这一问题更加突出，任意扩大分词词典规模而忽略对分词精度的影响会对检索系统的检索效果带来负作用。同时，对处理Web数据，分词基本词典的规模是远远不够的。 一方面，网上大量的常用词、新出现词、专业词汇等没有被收录，从而会被分词程序切分成分离的单字，每个单字被分别索引。这样的词在检索时会按短语查询执行，虽然可以检索出基本相同的结果集合，但执行过程需要从倒排文件中读取多个索引词的倒排项数据，然后执行位置检查，这大大降低了系统的检索效率。 另一方面，分词词典中的分词单位一般很短，常用的短语也会被分词程序切分开，同样这一方式在对短语的查询上效率很低。如果分词程序使用的词典中分词单位过长，切分出短语，又可能使得组成短语的词无法被检索，导致检索系统召回率下降。如何扩大分词词典的规模，使得分词程序能够切分出更多的词，甚至短语，同时又不降低分词程序的分词精度，不降低检索效果是中文搜索引擎检索系统面临的一个基本问题。 天网检索系统采用混合索引技术解决上述问题。这一技术首先用统计方法对索引文档中的未登录词进行识别，把识别出的新词（不被基本词典收录的字串）放入一个扩展词典。这可以有效扩大词典规模，但由于统计方法识别未登录词存在相当的错误率，扩展词典里面也存在不少被错误识别的词。系统目前控制扩展词典规模在50万词语左右。扩展词典在保存时，把识别的新词词条使用基本词典进行分词，保存切分开的基本词序列。 在索引创建过程中，对文档正文进行两趟分词。首先是基于基本分词词典的常规中文分词，采用北京大学计算语言所的分词软件。分词执行中包括复杂的歧义处理过程。第二趟再对基本分词结果使用基于扩展词典的分词，这一分词过程的最小单位是基本词典里的词条，采用正向最大匹配分词算法。两次分词的结果都被选择作为索引词，在倒排文件的创建中都被放入倒排索引词典，这一方法即混合索引。例如：基本词典有“国家”“图书馆”两个基本词条，无“国家图书馆”；系统通过识别，发现“国家图书馆”极为可能是一个词语，于是把它加入到扩展词典。对文档中出现的“…国家图书馆…”字串，第一趟基本分词步骤把它切分为“国家”和“图书馆”两个基本词条，第二趟扩展分词再把它切分为“国家图书馆”，最终索引词包括“国家”“图书馆”和“/2国家图书馆”这样三个单位。扩展分词结果使用转义符“/”标识，转义符后紧接扩展词包含的基本分词词条个数，用于查询时位置关系的计算。 混合索引的检索过程对用户输入的查询串执行同样的两趟分词。首先是基本分词，第二趟再对基本分词结果使用扩展分词。根据扩展分词结果词条包含的基本分词词条个数，标记被扩展分词结果覆盖的基本词条，它们在查询执行过程中无需处理。如上例，当用户输入查询“国家图书馆”，经过两趟分词，被切分为：“国家”“图书馆”，“/2国家图书馆”。其中前两个基本词条被第三个扩展词条覆盖，查询执行中只需直接读取索引词“/2国家图书馆”对应的倒排项数据，即可完成查询执行过程。相对于分别读取“国家”和“图书馆”的倒排项数据，然后按其中的位置数据验证短语关系的方法，使用混合索引大大提高了检索效率。在混合索引条件下，当用户查询“图书馆”时，检索将按正常的查询过程执行，混合索引也不会降低系统的查全率。 与文献[Bahle, et al.,2002] 的短语索引相比，混合索引使用统一的倒排索引词典，没有额外的二级索引词典访问开销；并且混合索引不限制扩展词条为两个基本词条长，可以索引更长的短语，更加灵活。与词索引+Bi-gram索引相比，混合索引使用了未登录词的识别技术，可以有效控制倒排索引词典规模，避免了Bi-gram词典膨胀的问题。 混合索引也是索引结构的规模与检索效率间的一种折衷。一方面，文档中的词被重复索引导致索引结构增大，占用更多的存储资源，另一方面，这些增加的索引，使得更多可能形成词语或短语的字串被索引，可以大大提高对它们的检索效率。实际环境中，系统存储开销相对于检索效率不是那么重要，所以混合索引成为一项可用的技术。]]></description>
		<wfw:commentRss>http://scseoer.com/hybrid-index.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引技术</title>
		<link>http://scseoer.com/hybrid-indexing-technique.html</link>
		<comments>http://scseoer.com/hybrid-indexing-technique.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:06:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1499</guid>
		<description><![CDATA[大量的统计研究表明，搜索引擎用户输入查询长度平均较短，并且很少使用系统提供的查询操作符。这种情况下，检索结果排序考虑用户输入的查询词之间的短语关系或者位置邻近关系，对提高检索结果的效果十分重要。 通过丰富倒排文件的数据结构内容，这样的关系有可能在预处理阶段充分地表达出来，从而为检索服务算法的运行提供数据基础。文献[Anh and Moffat,2002]中介绍倒排索引的几种常见级别和索引的压缩技术，其中词级（Word-Level）的倒排索引记录索引词在文档中出现的每个位置信息，检索时通过这些位置信息来执行短语或邻近关系的检查。 词级索引是倒排文件实现短语或邻近查询的一般组织方式。 文献[Sadakane and Imai,2001]提出了邻近查询的通用算法，给出了最短邻近距离定义下的最优解算法。不过这个算法开销太大，在实际系统中并不实用。 文献[Brin and Page,1998]介绍了邻近查询的一种近似实现方法，具有更好的检索效率。 文献[Bahle, et al.,2002]，[Williams, et al.,1999] 提出了一种新的短语索引技术，对倒排索引词典里每个索引词，按其后续词组织倒排数据项，即为每个索引词与其后继的索引词建立辅助倒排索引。 这一方法可以提高短语查询的效率，但它的缺点是基本索引词典和后继词词典分开存储，在查询过程中需要增加一次对后续词的词典数据读取，一定程度上抵消了对短语查询效率的提高。 在中文信息检索领域，什么是最佳的索引单位一直是困扰中文全文检索的一个问题。研究表明使用中文分词，按词索引结合二元组(Bi-gram)索引是检索效率和效果较优的索引方式。这实际上是一种混合索引，不过对大规模文档集合，二元组索引的倒排索引词典膨胀迅速，索引文件中包含大量无用内容，对检索效率也带来有负面影响。 在天网搜索引擎的实践中，针对上述各种技术的优劣，采用了一种基于未登录词自动识别技术的混合索引方法。实践表明，这一方法可以有效提高搜索引擎检索效率。]]></description>
		<wfw:commentRss>http://scseoer.com/hybrid-indexing-technique.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>结合计算机性能指标的考虑</title>
		<link>http://scseoer.com/combined-performance-consider.html</link>
		<comments>http://scseoer.com/combined-performance-consider.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:03:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内存]]></category>
		<category><![CDATA[吞吐量]]></category>
		<category><![CDATA[检索]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1493</guid>
		<description><![CDATA[在诸如搜索引擎和数字图书馆等信息检索应用中，主要特点是数据密集型，处理算法比较简单。因此与CPU、内存等因素相比，I/O乃是决定系统性能的关键。进而，在网络访问条件下，I/O实际包含两个阶段，一是磁盘和内存之间，二是内存和网络之间。在不同条件下的，这两个阶段分别都可能成为系统性能瓶颈。下面主要讨论磁盘I/O。 表8-2 一些典型磁盘的性能数据 SCSI是服务器常用的I/O总线，除了有较高的速度外，在I/O高负载下消耗CPU时间少也是一个重要优点（SCSI消耗CPU时间5%，IDE可以达到60-100%）。现在常用的Ultra320 SCSI，最高带宽可达320MBps。表8-2是一些高性能磁盘的相关数据，IOPS项表示磁盘每秒钟可以执行的随机I/O操作，它与磁盘平均访问时间、读写的数据块大小、内部传输速率有关。 总的来说，因为磁盘结构中存在机械装置，决定了它的平均响应时间在毫秒级（平均10ms），每秒钟可以完成的I/O操作也很有限（IOPS平均是100，即达到平均每秒种100次I/O访问，这个估计忽略了每次读写的数据块大小产生的影响）。当前单个磁盘的平均数据传输速率在20-50MBps之间，并没有完全利用SCSI总线的全部带宽，解决这个问题的方法是采用冗余磁盘阵列技术（RAID）。N个磁盘组成的数组可以使数据传输速率获得接近N倍的提升，并且可以改善I/O请求的响应时间（同时也增加了IOPS），不同的配置方案对I/O系统这两方面的影响可参考[Scheuermann, et al.,1998]。显然，这种提高I/O性能的方法是以增加系统硬件成本为代价的。 在检索系统的两个效率指标中，响应时间作为个体性能指标相对比较容易满足，它也受到系统吞吐量的影响，如果用户查询数量超过了系统可能的负载，会造成查询响应延迟增大。因此，吞吐量对系统设计和运行更为重要。根据前面论述，我们将查询词项的平均频率和I/O性能作为查询效率的决定因素，用它们估计系统的吞吐量和数据规模的关系。用户的大部分查询中的词项数量比较少，查询一个主题时用2-3个单词就可以描述，查询文章的题目时可能有10个词项以上。不妨设Lq表示用户查询中的词项个数，估计平均Lq等于5。得出如下不等式： 在这个不等式中，对词项的倒排表长度只考虑主要部分(TN×TF)，将I/O时间估计为磁盘访问平均延迟时间和数据传输时间。假设将每个倒排表读入内存只需一次I/O，花费时间可以估计为，每次读取倒排表的时间乘Lq×m必定不大于1秒。当系统的I/O性能（Tlatency、IOBandwith）和TF确定下来后，我们就得到TN与m之间的反比关系。 更简化的模型是忽略数据块大小不同造成的传输时间变化，利用前面得出的一个磁盘的IOPS=100，可以计算出在不考虑资料缓存情况下，系统平均每秒钟处理查询的上限m=IOPS/Lq=20。根据磁盘的可用带宽大约是20MBps，得出每个查询的I/O应不大于1MB，也就是满足如下条件： 代入以上得出的估计参数，有如下结论： 对汉语字符： TN≤400MB （TF=0.05%，Lq=5 ） 对英语单词： TN≤4GB （TF=0.005%，Lq=5 ） 由于在这个条件下，每个词项的倒排表长度达到200KB，对20MBps的硬盘读取时间大约是10ms，忽略它不太合适，因此实际中吞吐量要低于每秒钟20个。 依据上面结果，可以估计出能够索引的数据量。汉语的一个字符占两个字节，如果对汉语字符建索引，要维持每秒20个查询的系统吞吐量，最多只能索引大约800MB的文本数据库。英语的一个单词平均占用字节6-8个（包括空格符），同样情况下可以索引24-32GB的英语文本。由于汉语字符的ITF分布规律，对单个字符建索引难以提高检索系统的规模，解决的方法是对汉语文本做切词处理，按照词组建索引，有效地改善单词项的频率分布情况，能够取得和英语单词同样的结果。 这种方法比用冗余磁盘阵列提高I/O性能的代价要小得多，效果也更显著。从成本上考虑，一台机器索引的数据量不应低于它内存的10倍，即在10GB以上，实际中要根据上面的结论在硬件设备选用、数据规模、响应时间、吞吐量之间做折中选择。]]></description>
		<wfw:commentRss>http://scseoer.com/combined-performance-consider.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件的一种性能模型</title>
		<link>http://scseoer.com/inverted-file-performance-model-2.html</link>
		<comments>http://scseoer.com/inverted-file-performance-model-2.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 07:44:48 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排文件]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1471</guid>
		<description><![CDATA[所谓性能模型，在此就是要给出关于N，M，p(i)，d，B，r和k的一种关系，从而能够在给定系统内部参数的条件下对其外部行为（吞吐率）进行估计。 需要对p(i)和B，以及几个假设进行一下说明。p(i)是倒排表长度的统计分布函数，即M×(pi)的长度表示i的记录表的个数，i∈[0, N]。于是倒排表的平均长度为。 B是支持倒排文件运行的下层系统的瓶颈带宽。取决于不同的情况，可能是磁盘的I/O带宽，也可能是网络带宽，我们不做区别。这里讨论的模型的思路是根据同时到达的查询量k，得到一个数据量D，然后看能否有。 为简单起见，我们假设查询q1, q2, …, qk都是单纯的，即它们都直接属于集合TERMS；同时假设它们是在TERMS上随机、独立的分布。 现在考察k个查询所导致的输出数据量，D。每个查询都可能落到M个词项中的任何一个中，k个查询可能涉及M的任何1, 2, …, 或者k项，于是对应不同的数据量。如果能算出涉及i项的概率，记作fM,k(i)，i = 1, 2, …, k, 则我们就能有 D = 一个倒排表的平均数据量 × k个并发查询平均涉及的倒排表个数 下面集中考虑fM,k(i)。 首先看k个查询随机落在M个词项的所有可能总数，这相当于从集合{1,2,…,k}到{1,2,…,M}的映射的个数，即Mk。 然后对i = 1, 2, …, k，考察k个查询恰好落在i个倒排表上的情况，这相当于是考虑集合{1，2，…，k}的i-划分的个数，再加上这i个倒排表可能落在M中的任意i个上；前者即第二类斯特林数S(k, i)。注意到查询在不同倒排表之间是可区分的，因此需要考虑的是排列，于是我们有 注意到， 还有， 于是， 这样， 此即为我们得到的一种倒排文件性能基本模型。它直接给出的是k个并发查询所导致的数据量。基于倒排文件的查询处理算法通常不复杂，不是计算密集型的任务。对于大规模倒排文件来说，数据从磁盘移动到内存，或者从内存通过网络送出是主要时间消耗所在，而D/B即为响应输出完成所需时间。如果我们设D/B≤r，即D≤B*r，我们就有可能对D中的各种情况进行讨论，诸如M的影响，p(i)的影响，等等。下面做些讨论，针对数据在磁盘和内存间的移动。 系统对文档信息检索的支持粒度，通常可分为“全文索引”和“非全文索引”两类。非全文索引只需告知哪些文档含有特定的词项，而全文索引则还需要给出该词项在相关文档中出现的位置等信息，多次出现就要多次记录。这样，对于公式（8-1）中的d来说，它的大小在全文索引情形下和词项在不同文档中出现的平均次数成比例，即，而在非全文索引情形下则基本上是常数（核心信息是一个文档编号），我们记做c，通常也就是几个字节。也可以将α×d一并考虑。对于每一个倒排表（对应于一个具体的词项tj）来说，它的数据量在全文索引情形下正比于N×DF(tj)+ TN×TF(tj)，前一部分是倒排表中文档号和频率占用的长度，后一部分是位置信息占用的长度。因为TN要远大于N，所以系统中每个词项倒排表的长度主要是由它的词频率TF和数据规模TN决定的。非全文索引的情况下则只有N×DF(tj)。在平均情况下， 为理解这个公式，对其中的符号所代表的量的数量级有些具体的概念是有益的。以天网搜索引擎的中文部分为例，c≈101,α≈105,M≈5&#215;104,N≈3&#215;107,TN≈1010。非全文索引的倒排表数据量在106数量级，而全文索引是它的若干倍。由此我们也能估计出，作为整个倒排文件的记录文件，即使非全文索引，内存也是放不下的。 另外，α也可以单独考虑。按照我们的定义，它是倒排文件中倒排表长度的平均值，也就是和词表中词项的文档频率相关的一个量，即。 由于TF和DF常常是和应用相关的统计量，可以在具体实现之前进行估计，从而使我们有可能在设计倒排表应用时就能根据式（8-1）对查询导致的数据量有个估计。 在标准的倒排文件查询处理算法中，系统要将用户查询中单词项对应的倒排表读到内存中执行集合操作，因此倒排表的长度将首先影响操作执行的时间。当索引网页量增加时，高频词项的倒排表将急剧膨胀，占用大量I/O带宽、内存空间以及CPU时间，严重降低系统效率。理想情况下，所有词项的频率应该尽可能低，而且大小相近，使得所有倒排表保持同步增长，系统性能不会因为一部分单词记录表的长度快速增长而受损。实际情况中，词项的频率分布和文件的语言有关，下面我们以英语单词和汉语字符为例分析。 表8-1 英汉词频统计排序对照 为更好地表示它们的分布情况，取相应的ITF和IDF研究。将所有单词按照它们的ITF（IDF）值从小到大排列，赋予[0，T]的序号x，作为坐标图的横轴，ITF（IDF）值作为坐标图的纵轴，就得到单词的ITF（IDF）分布图。图的起点越高，同时越平滑，单词的记录表长度趋于平均，越有利于索引更多的文件。 我们以[CCF,2004],[EF,2004]统计出的英语单词和汉语单字的频率作为原始数据进行分析，两个统计结果都是按照单词的出现频率从高到低排序，表8-1是对它们进行数据抽样的结果，表示降低到某一个频率数值时的单词序号。 可以看出，使用的汉字比英语单词要少的多（5,299对16006），汉语的高频字比英语的高频单词要多（指使用频率高于万分之一），低频词则反之。在万分之一频率处，两者的数量近似。在十万分之一处，英语有六千多个单词，汉语单字却不到三千个。在根据表8-1资料绘制出的ITF分布图8-4所示，两条曲线在接近ITF=4处相交，汉语字符的曲线比英语单词的曲线要陡峭的多。这种特性决定了索引同样数量的单词（TN相等），汉语字符的倒排表平均长度要大于英语单词的，而且增长更快（随着TN的增长）。 用户在实际查询中词项的频率决定要读取的记录表长度，为了得到它们和系统吞吐量的关系，必须估计系统运行时查询词项的平均频率。汉语字符在0.05%频率处的累计频率（Cumulative frequency，大于此频率所有单词出现频率累加）达到76%，在0.01%频率处的累计频率则达到94%，这从侧面反映了在汉语查询中，用户查询词的平均频率要大于0.01%，估计为0.05%。根据英语单词的累计频率和实际情况，估计英语中用户查询的单词平均频率为0.005%。 图8-4 英语单词和汉语字符的ITF分布 在本节的最后，我们指出关于D的两个近似表达式，只要M相对于k较大，都应该是很有效的： 这个结果和直觉如此相符：总数据量是文档单元数据量、倒排表长度和并发查询数的乘积。 在有些场合；例如面向领域的主题搜索引擎中，M可能就没有必要很大（例如我们在有关中学数学网页搜索引擎的构建中，M为200左右），此时α也不会很大，于是k有可能做得较大。]]></description>
		<wfw:commentRss>http://scseoer.com/inverted-file-performance-model-2.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件的概念</title>
		<link>http://scseoer.com/inverted-file.html</link>
		<comments>http://scseoer.com/inverted-file.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:39:04 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排]]></category>
		<category><![CDATA[检索]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1462</guid>
		<description><![CDATA[这一节的内容在信息检索算法的教科书中有不同形式的介绍。为本章的完整起见，在此给一简要概述。 所谓倒排文件（inverted file），是描述一个词项2集合（TERMS）元素和一个文档集合（DOCS）元素对应关系的数据结构，记： 当我们以“文档”为出发点时，我们可以讲di中包含哪些tj，或者某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中，进而还可以有它在某一个di中出现在哪些位置（含多少次）。用PL（tj）表示tj出现于其中的文档记录的集合，称为对应于tj的倒排表（inverted list），下面是信息检索研究中常用的几个相关量。 N：文档集合的大小 M：词项集合的大小 词项tj所涉及文档的个数 词项tj的文档频率 IDF(tj)=-logDF(tj)：倒置文档频率；其值越小表示出现频率越高。 fi,j：倒置文档频率；其值越小表示出现频率越高。 ：系统所有文档分解后包含词项的总量（包括重复，即一个多重集（multi-set）） ：词项tj在所有文档中出现的频度（词频） ：倒置词频；越小表示出现频率越高。 作为数据结构，倒排文件分两部分：第一部分是由不同词项组成的索引，称为词表(vocabulary)，第二部分由每个词项出现过的文档集合构成，称为记录文件(posting file)，每个词项的对应部分称为倒排表，亦称记录表(posting lists)，可以通过词表访问。图8-3是一个示意。 图8-3 倒排文件结构示意图 图8-3的左边是词表，中间是记录文件。对应于词表的每一项，记录文件中有若干个倒排表，一般长度记为sj；统计分布为p(i)。至于PL（tj）的每一项，取决于信息检索的方式（例如是否全文检索），内容会有不同，我们在此只用d表示其平均数据量，后面讨论中会适当展开。图8-3的右边我们还表示了查询的到达量k、响应时间要求r和系统的最大输出能力B，这是我们讨论性能模型时需要的。]]></description>
		<wfw:commentRss>http://scseoer.com/inverted-file.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件性能模型</title>
		<link>http://scseoer.com/inverted-file-performance-model.html</link>
		<comments>http://scseoer.com/inverted-file-performance-model.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:23:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒序]]></category>
		<category><![CDATA[性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1459</guid>
		<description><![CDATA[上一节，我们已经多次提到了倒排文件，可以说它是现代大规模搜索引擎工作的一个核心技术。虽然原理简单，但它灵活而高效，可以根据需要做不同的变通。本节结合检索系统的宏观需求和实现倒排文件的硬件参数，建立起倒排文件的一种性能模型，该模型对于在设计阶段估算倒排文件的运行效率有一定的指导意义。 评价一个大规模信息检索系统，有两个方面基本的考虑：效果（effectiveness）和效率（efficiency）[Frieder, et al.,1999]。“效果”常常也称为“质量”，指检索返回结果集合的准确性（或者相关性）和完整性，通常有两个指标：查准率和查全率，是第十章的内容，本章将不涉及。“效率”，我们在此也称“性能”，最重要的指标就是系统的查询响应时间（response time）和系统的查询吞吐率（throughput）。 响应时间是指从用户向系统提交查询到他开始看到结果的时间间隔。对于面向普通用户的网络查询系统来说，这个时间在“秒”量级是比较合理的；例如Web搜索引擎和数字图书馆，用户通常不会有耐心在一个查询上等待超过10秒钟还不见任何回应1。 吞吐率是指系统在单位时间（秒）里可以服务的最大用户查询数量。这里实际上有两个层次的含义。 一是在单位时间里系统能够承受、不至于导致“拒绝服务”的查询的数量; 二是在单位时间里能够接受、并满足服务质量的查询数量。 前者往往和系统硬件与底层软件有关，是在构造实际的信息检索系统时必须考虑的；本节主要涉及后者，并假设在第一种含义上的“查询数量”是足够大的。对于第二种含义来说，所谓“满足服务质量”指的就是满足响应时间要求。例如，若一个系统设计的平均响应时间为3秒，它的“吞吐率为20”意味着它每秒钟能接受20个查询，并在3秒钟左右都能给出查询结果。 显然，这两个指标既独立，也相关。前者是对单个用户查询表现出的性能，后者表示的是系统的整体性能，也称作系统的并发度。因此，对性能问题的讨论可以归结为系统在满足一定响应时间条件下的吞吐率。在Web环境下，好的信息资源总是有大量用户同时访问，吞吐率应该是需要考虑的一个重要问题。大型门户网站如此，搜索引擎、数字图书馆也如此。只是前者要简单些，由于主要提供的是HTTP服务，吞吐率基本就是在上述第一种含义上的；后两种应用不同，它们要涉及在服务器方比较复杂的操作，需要有更深层次的考虑。 倒排文件是大型信息检索中使用最广泛的文件索引方法。所谓“倒排”表示依据检索属性来列举相关文件，是计算机科学中基本的信息查询方法之一[Knuth,1973]，当前也在搜索引擎和数字图书馆中广为使用。但我们发现，尽管人们围绕倒排文件作了不少研究工作，不少也是旨在提高其性能，但尚未见到关于倒排文件（及其实现）性能的一般性讨论，从而使我们依然难以回答下面的问题：给定一个倒排文件（规模，结构参数等）和它将在其上运行的计算机的基本性能（CPU，硬盘指标等），系统能够提供什么样的响应时间和吞吐率？如下我们将围绕这一问题的解决展开讨论。]]></description>
		<wfw:commentRss>http://scseoer.com/inverted-file-performance-model.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>检索过程</title>
		<link>http://scseoer.com/retrieval-process.html</link>
		<comments>http://scseoer.com/retrieval-process.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:20:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1457</guid>
		<description><![CDATA[天网分布式检索系统执行查询时，由WWW查询服务器通过多播把用户输入的查询串发送给每一个索引节点。各索引节点独立在本机上执行查询，再把检索结果中排序最前的K（K=100）个结果返回给WWW查询服务器，在K值控制合理情况下，可以把返回结果数据包控制在一个以太网数据帧大小内，使系统具有很小的网络通信开销和延迟。WWW查询服务器上。 RetrievalAgent负责结果数据的收集、合并、重新排序，并访问文档服务器、提取摘要，格式化生成查询结果页面返回给查询用户。 文献[Wang, et al.,2001]通过分析搜索引擎用户查询日志，提出并在天网WWW查询服务器上实现了检索结果缓存。使用LRU缓存替换算法，缓存容量为500个检索结果时，缓存命中率能达到60％左右，有效提高了系统整体性能。 在天网的分布式检索结构中，系统性能瓶颈最终在索引节点。通过实验发现，索引节点的检索效率瓶颈在于磁盘系统的性能，检索算法中对倒排文件中查询词对应的倒排项数据读取是检索效率优化的重点。首先采用的是系统级优化措施。注意到操作系统中I/O系统的实现特点，采用C函数库提供的带缓冲的文件访问接口效率最差，操作系统提供的底层文件访问接read/write效率较好，而使用内存文件映射或者直接设备访问可避免多次的内存拷贝问题，从而大大提高I/O访问的效率。其次再通过对倒排文件的组织优化，通过减少每次访问倒排项数据的数量和访问次数来提高检索效率。天网系统中采用了三种基本技术：索引压缩、随机访问的索引组织和重要索引词单独索引。 1、索引压缩 倒排索引压缩可以减小倒排项数据长度。在检索过程中可减少内存和I/O带宽的使用，但同时要对压缩数据解码，增加了CPU时间耗用。实际系统中，I/O是系统的瓶颈，而且CPU和I/O之间性能差距还在不断扩大，所以索引压缩技术作为一种有效提高检索效率的技术被普遍采用。 倒排索引压缩的方法基于“游程编码”，增量整数序列被变换为差分序列。组织倒排索引文件，可以把倒排项中的文档号和出现位置编号，都按递增序排列，这样可以通过“游程编码”变换，把大整数序列变换成较小的整数序列，再选取一种整数编码方案实现高效的倒排项数据压缩。 文献[Witten, et al.,1994]中给出了多种变长编码方法，其中Golomb编码是压缩效率较优的一种。 文献[Williams and Zobel,1999]比较了多种编码方法的编码和解码效率。在搜索引擎应用中，检索效率是主要优化目标，而索引数据的空间占用相对并不重要。变长编码有解码慢的缺点，天网系统实际采用字节对齐的定长编码ByteCode。实验测试得到ByteCode和Golomb的平均压缩比率分别为0.3359和0.2635，解码时间两者的比例为1:6。 2、随机访问的索引组织 文献[Navarro, et al.,2000]提出了对倒排索引的索引项建立二级索引，使得可以随机访问倒排项数据块。在一般情况下，这一技术可以减少倒排项数据的访问量，但同时可能增加I/O访问的次数。在采用这一技术时需要确定随机访问倒排项数据块的大小，在节省I/O带宽与I/O访问的次数的开销之间取得最好的折中。具体来说，小数据块访问会带来更多次系统调用，带来更多次的寻道时间消耗；大数据块访问读入冗余的数据，带来过多的数据传输时间消耗。根据磁盘访问性能分析的实验表明，使用较大的数据块系统性能较好，因此天网检索系统目前采用32KB为最小块单位。 在二级索引之外，倒排项数据还使用数据块自索引技术。选择32KB为二级索引块大小，每32KB的位置信息记录一个开始文档号。每块数据内部使用512字节作为自索引的段长，使用ByteCode压缩编码。自索引技术不减少I/O数据访问量和访问次数，但使得检索算法在处理倒排项数据时，可以跳过一些压缩的数据块，节省处理时间。 3、重要索引词单独索引 对重要索引词单独索引，这样可以产生一个小的倒排索引文件，控制其大小能保存在内存中，如果有相当的查询在这个小索引文件中获得足够的返回结果，则查询结束；当检索得到的结果不足时，才去访问磁盘上的整个倒排文件。通过这一方式，系统可以节省大量磁盘的访问开销，大大提高效率。 这一技术有效应用的前提是小索引中查询得到的结果文档在整个倒排文件的查询结果集合中排序在最前面，否则会降低系统检索质量。这一点可由排序算法保证。被选择的重要索引词包括Anchor text，Title还有利用天网文档模型技术提取的正文摘要中的词。]]></description>
		<wfw:commentRss>http://scseoer.com/retrieval-process.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>创建索引</title>
		<link>http://scseoer.com/index-create.html</link>
		<comments>http://scseoer.com/index-create.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:16:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网页编码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1455</guid>
		<description><![CDATA[对一个中文搜索引擎，索引创建不仅仅是一个高效的倒排算法，它还包含许多重要的方面：索引词的选择，中文分词、编码识别与转换、网页净化、强健的页面分析等。 1、索引词选择 索引词的选择是检索系统实现的一个重要环节。现代搜索引擎普遍使用全文索引技术，即网页文档中所有词都参与索引。理想的索引词应该是表达文档内容的语义单位，即语言学里的词语，是那些专指义，而实际意义无法由组合成分相加得到的最小语言单位。但实际系统中中文文本必须通过自动分词程序的处理，分割成为独立的分词单位，再从分词结果中选择索引词。自动分词算法有两大类，普遍采用的方式是基于词典的分词方法，这一方法效率高，但分词精度受词典规模制约；另一种是基于统计语言模型的方法，可以发现一些新词。实际应用是两种方法的不同程度的组合。 除了中文分词外，对英文单词、数字、英文缩写词、特殊专有词的识别由一个词法分析器完成，通过不断完善词法规则，就可以支持如“C++，C＃，AT&#38;T”这样的一些特殊词。英文单词统一转换为小写，但不作词根和词形变换。 2、网页预处理 创建索引需要对网页进行分析，其中编码转换是一个重要步骤。Web上的网页包含多种字符集和编码，搜索引擎的索引系统必须对它们转换，采用统一字符集和编码方案。UNICODE是一种兼容性较好的字符集选择，而且可以使用不同的编码方案，比如UTF8,UTF16等。但由于程序移植和编程习惯上的困难，天网目前仍然使用了GBK为系统的内部编码，这对于主要面向中文的搜索引擎已经足够了，但如果进一步考虑国际化，UNICODE应该是更好的选择。常见的中文编码包括简体中文的GBK , GB2312, ISO-2022-CN , GB18030，还有繁体中文的BIG5 , BIG5HKSCS和EUCTW。 在GNU的GLIBC库中有对这些编码的转换支持，但是对于简体、繁体转换是简单的基于字－字映射，准确度不高。在网页分析中，识别网页的编码方式也比较繁琐。按HTML的规范[W3C,1999]，页面内容的编码依次由Web服务器返回的HTTP头信息中的charset字段；网页中meta标签里的charset属性以及每个网页元素的charset属性确定。但在实际情况中，网页存在许多编码设置错误的现象，尤其是那些由简繁体自动转换而生成的中文网页。这时需要有一个自动识别编码的模块，按统计的方法自动识别网页的正确编码。 此外，大量网页中存在不符合HTML规范的错误，这要求网页分析模块十分健壮。同时许多网页中存在大量无用的信息，比如广告、导航条等，这一现象在大型网站使用相同模板的网页中普遍存在。这些网页噪音对用户的信息检索没有意义，因此不应该被包含到索引范围内。 3、索引创建算法 天网检索系统采用带位置信息的词级全文索引。系统采取了按站点划分网页数据的分布式方案，各个索引节点相互独立，索引创建过程在每个节点上独立进行。采用两趟的内存倒排创建算法，依次为每个小文档集倒排，最后执行多路归并，生成总的倒排文件。主要步骤如下： 页面分析。按HTML语法规则分析网页标签结构、调用中文分词和英文词法分析器提取索引词。分析过程中记录每个索引词的文档频率df和在文档内的词频tf，通过散列表转换为索引词编码，保存得到词典文件(lexicon file)，并保存页面分析的结果到临时文件。 按统计得到的索引词的tf和df属性,可以估计出对应倒排项数据的长度，以此预申请整个文档集合倒排需要的内存空间。重新读取页面分析保存结果的临时文件，在内存中执行倒排，把结果保存到临时倒排文件中。 对生成的多个临时倒排文件，执行多路归并，压缩编码，输出得到最终的倒排文件。 在索引创建过程中，页面分析，特别是中文分词为主要时间开销。算法的后两步相对很快。这样创建算法的优化集中在中文分词效率上，而没有采用效率更高的倒排创建算法。]]></description>
		<wfw:commentRss>http://scseoer.com/index-create.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>检索系统设计与结构</title>
		<link>http://scseoer.com/retrieval-system-design-structure.html</link>
		<comments>http://scseoer.com/retrieval-system-design-structure.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:13:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[检索系统]]></category>
		<category><![CDATA[网页数据]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1451</guid>
		<description><![CDATA[搜索引擎检索系统的设计围绕检索效率和检索效果这两个指标展开。对一个成功的搜索引擎来说，首先必须具有相当高的检索效率。由于通用搜索引擎是面向大众的，其信息需求的重要性参差不齐，绝大多数可以说是“随心所欲”的，其价值不值得等待很长的时间，因此一个响应迟缓的系统只能意味着较少的用户。 按一般的习惯，搜索引擎对用户查询的响应时间应该不超过秒级，这相对于搜索引擎需要处理的海量网页数据而言是一个挑战。而如何提高搜索引擎检索效果，更是人们不断研究的课题，但它是要在保证检索效率的前提下才有意义。因此，信息检索领域有一种观点，认为搜索引擎的检索技术相对于最新的信息检索研究成果是一种倒退。 如果仅从检索效果上看，确实如此，但由于搜索引擎面临的效率压力，使得在实现上往往需要在效率和效果之间折衷，而不一定采用效果最好的技术。同时，有统计表明在Web搜索环境下，用户普遍使用短查询、不做查询优化,这些特点也是搜索引擎提高检索效果面临的主要困难（因为用户向系统提供的信息太少）。但在另一方面，传统信息检索只从文本内容上计算文本和查询的相关程度，而Web环境下，除了网页文本数据，还有大量其它信息可以为这一相关性的计算提供辅助支持，比如网页内的HTML标记，URL，链接关系，Anchor text，网站目录数据等。如何有效利用这些信息是搜索引擎提高检索效果的一个重要途径。 天网的检索系统设计原则有两个： 一是追求系统效率和可扩展性。 二是力图通过一个集成的框架结构，能够有效地把各种有利于改善检索效果的技术集成起来， 如图8-1所示。这样一个框架结构体现在三个方面： 文档表示。对一个网页文档可以有多种角度的表示方式，包括索引词、半结构化的元数据以及全局的网页属性。 用户信息需求的类型识别，以求能为不同类型的信息需求选择最佳的检索方式。 不同检索排序方式得到的结果的融合。 图8-1 检索系统集成框架结构 在图8-1中，方框表示检索系统，在服务点（SE ServicePoint）接受用户的查询请求（User InfoNeed）。用户请求经过检索代理(Retrieval Agent)分类，进行检索策略的选择，调用索引服务提供的相应检索机制来完成检索。通常，搜索引擎提供的最基本检索方式是基于关键词的布尔查询(Boolean OP)。但通常用户输入的查询为自然语言词语或者短语，并不是一个布尔表达式。一般情况下，搜索引擎默认用户的输入查询词之间为与(AND)关系。 为了提高检索效果，有些搜索引擎也采取查询词扩展（query expansion）和相近(Proximity)计算技术，并用这些计算的结果来驱动后台的结果提取过程。Google成功的使用了链接分析技术为每个网页赋予一个全局的权值（PageRank值）来表示网页的重要程度。网页的这种全局属性的检查在图8-1中由GlobalProperties模块执行，除了PageRank，还可以包括根据权威的网站目录数据、用户反馈或人工编辑等方式得到的网站权值。 Meta是元数据查询的执行模块，可以包括时间、文档格式、站点名称、分类类别等各种网页元数据，针对网页数据的信息提取技术可以融合到这一模块中。天网在中文网页自动分类方面有一个研究小组，其网页文本自动分类技术已经应用在天网目录服务和检索中。在检索系统框架中，网页文档的分类类别起着重要的作用。利用Meta模块返回的网页类别信息，Retrieval Agent可以进行类别聚合，把相同类别的网页集中显示给用户，这样一种方式可以更好的组织检索结果，改善检索效果。 Semantic Constrains模块是语义的约束检查模块，它建立在对网页文本中特定语义关系识别的自然语言处理技术之上，是实现回答自然语言问题的必要技术，第十二章将要介绍的“天网知名度”就是这样一种技术的成功应用。 天网检索系统的具体实现同样基于信息检索技术。 首先是排序算法和检索模型的选择。在图8-1的框架结构中，检索系统的相关性排序由多种因素综合决定。这其中，最基础的排序建立在信息检索的布尔模型和向量空间模型基础上。在BooleanOP模块中，首先执行布尔查询，得到的结果作为候选文档集合，然后按向量空间模型的相似度算法计算各个文档与查询的相似度，结果作为排序的基础。最后由RetrievalAgent综合其它模块返回的信息，再进一步排序。典型的一种情况是，当查询词在AnchorText或者Title中出现时，把全局属性里的PageRank值与文档的相似度权值通过线性组合方式相加得到最后的排序权值。排序采用一种分级算法，分为三个级别：查询词的邻近关系运算结果；查询词出现的位置，包括Title、AnchorText；相似度权值与其它的权值，如全局属性的PageRank权值。各种权值通过线性方式组合起来。 其次是索引的实现技术。天网检索系统采用倒排文件索引。对于大规模文档数据，倒排文件是经过大量实践检验的一种高效率的索引组织方式，能够很好的支持多种检索模型，提供高性能的检索。人们对倒排文件的组织和检索效率做了大量的研究工作，文献[Moffat and Zobel,1996],[Witten, et al.,1994],[Navarro, et al.,2000]对天网的索引实现有重要的影响。[Moffat and Zobel,1996],[Witten, et al.,1994]重点在倒排索引的压缩，[Navarro, et al.,2000]在倒排索引的随机访问技术，它们都被应用到天网的索引系统中。由于搜索引擎的责任是索引不断变化着的海量网络信息，倒排文件的组织还需要在检索效率和更新效率上进行折衷。一般倒排索引的索引项数据用链表方式分块存放有利于提高更新效率，但这会降低检索效率；反之，索引项数据连续存放有利于检索，而不利于更新。天网检索系统以检索效率为主要优化的目标，索引更新采用部分索引重建的方式。 整个检索系统采用分布式系统结构。搜索引擎的海量网页数据索引无法在单台机器上集中完成，分布式系统是解决数据规模和系统可扩展性问题的基本方法。天网检索系统的系统结构如图8-2所示。 图8-2 天网WWW检索分布式系统构架 现在运行的检索服务系统共使用20台PC(PIII733/1GB)，其中一台为WWW查询服务器，其余19台为索引服务器，文档服务节点和WWW查询服务器使用同一机器。文献[Lu,1999]通过性能仿真实验对分布式信息检索系统的可扩展性进行了深入研究。我们注意到，在学术界当人们谈及“分布式信息检索”时指的是研究不相交数据集在分布环境下的数据集选择和检索问题，和这里谈的搜索引擎检索的分布式系统结构不是一回事，但其提出的部分复制技术有很好的参考价值。文献[Tomasic and Garcia-Molina,1993]研究了倒排索引的物理组织对分布式查询的性能影响，认为最好的数据分布方式是“host index organization”,也就是每一个文档的全部索引项应该都分布在同一台处理机上。 这种数据组织方式不仅可以最大限度降低节点间通讯开销，而且由于索引节点之间相互独立工作，整个查询系统有很好的容错性。天网的分布式检索系统设计就以此作为出发点。 前面我们从总体上描述了天网检索系统的设计思想和系统结构，下面两部分分析天网的索引创建和检索实现技术。]]></description>
		<wfw:commentRss>http://scseoer.com/retrieval-system-design-structure.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>高性能检索子系统</title>
		<link>http://scseoer.com/high-performance-retrieval-subsystem.html</link>
		<comments>http://scseoer.com/high-performance-retrieval-subsystem.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:05:54 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[预处理]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1449</guid>
		<description><![CDATA[以Google为代表的商业搜索引擎获得了很大成功。到2004年4月，Google已经索引了全世界42亿个页面，每天接受上亿次查询请求。但是商业搜索引擎的核心技术属于商业机密，在激烈的竞争环境下不会公开。而在研究领域，因为受到条件的限制，对大规模通用搜索引擎系统的技术探讨也较少。 在第二章我们介绍过，搜索引擎包括搜集子系统，预处理和服务子系统三大部分。有时候为方便起见，将建立索引和提供服务放在一起，称为检索子系统。搜集系统研究如何更快速抓取更多高质量网页的相关技术，检索系统研究如何进行网页文档索引，为用户提供高性能的检索服务。后者主要建立在信息检索领域的相关技术之上，同时根据Web自身的特点也发展了一些新技术。 文献[Brin and Page,1998]是Google在斯坦福大学的原型系统的一个较全面技术介绍，其中重点介绍了其检索系统的设计与实现，验证了使用链接分析技术可以有效提高搜索引擎检索效果。和传统的信息检索系统相比，大规模搜索引擎的检索系统面临许多新的挑战。 本章以天网Web服务检索系统为基础，分析搜索引擎的检索系统设计与实现的基本技术。 本章内容安排如下： 第一节围绕检索效率和检索效果这两个最基本的指标，介绍了天网检索系统的软件集成框架结构和分布式硬件系统结构，并从索引创建和检索过程详细分析了高效检索系统的相关基本实现技术。 第二节讲述了一种倒排文件基本性能模型，给出了响应时间、吞吐率和系统内部参数之间的一种关系。并结合计算机的性能指标，对模型进行了精化。 第三节详细阐述了天网中所采用的混合索引技术。首先介绍了索引词选择对检索系统的影响，以及一般的索引词选择方法存在的优缺点，然后给出了一种基于倒排文件实现的混合索引方法，它可以有效提高在搜索引擎中进行短语查询的检索效率，同时不影响系统检索效果。 第四节阐述了倒排文件的缓存优化设计技术。通过对真实搜索引擎系统的倒排文件访问数据序列的特性分析和仿真试验，考虑不同的系统性能参数优化目标，得到了一种倒排文件缓存的优化设计方法。]]></description>
		<wfw:commentRss>http://scseoer.com/high-performance-retrieval-subsystem.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>算法评测</title>
		<link>http://scseoer.com/algorithm-evaluation.html</link>
		<comments>http://scseoer.com/algorithm-evaluation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:58:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1431</guid>
		<description><![CDATA[评价方法 我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面，其中算法复杂度又包括时间复杂度和空间复杂度。在本节中，查全率是指消重算法所发现的转载网页占总网页的百分比，而准确率反映了算法所发现的转载网页中有多少是真正的转载网页。假设要处理的网页数为N，后4种算法使用的关键词个数为M，每个关键词的权值占4个字节，MD5摘要占16个字节，则算法1、2和5的空间复杂度约为(16×N)，算法3和4的空间复杂度约为(N×M×4+N×16)。可以看出这5种算法的空间复杂度都很小。本节将重点考察算法的时间复杂度、查全率和准确率。时间复杂度和查全率将直接基于天网系统2000年5月份的数据并运行算法来得到。由于算法输出的转载网页太多，我们无法一一判断每个网页是否是真正的内容转载网页，因而对于准确率的计算我们采用了如下的估算方法：先将算法的输出结果（即算法求出的转载网页）分为n段，在每段中对镜像随机取100个采样，用人工确认的办法得到每100个采样的准确率，最后用这n个准确率的平均值来作为算法的准确率。 实验结果 在2000年5月上旬，我们使用天网的搜集子系统从国内的2万多个Web站点上搜集了1,182,899个网页，对于每个网页我们都保存了其摘要、关键词及其权值等信息，依此作为我们的实验对象。这5种算法运行的机器是一台PC机，配有双CPU，内存为256MB，硬盘36G，运行的操作系统为Turbo Linux 6.0。 基于上述实验环境，我们分别使用上述5种算法来消除转载网页。当关键词个数N取10、向量偏差度阈值δ取0.01时，得到了第一组实验结果如表7-3所示。其中“总和”是指只要某个网页被五种算法中的任一种检测为转载，它就被确定为转载。实际上这里的“总合”等价于算法1和算法5的“总和”，因为算法2、3和4发现的转载网页都能够由算法5所发现。 算法1与其它算法的差别较大，这是由于它们所选取的判断对象的不同造成的，前者选用了512字节的摘要，而后者用的是一组关键词。 从表7-3可以看出，这五种算法的准确率都很高，而其中第5种具有最高的查全率，而准确率的损失又不是太大，我们认为效果是最好的。同时，也可以看出“总和”的查全率要比5种算法中的任意一种好得多，而其准确率也很高。这启示我们可以结合使用算法1和5来消除转载网页。 表7-3 当N=10、δ=0.01时5种算法的查全率和准确率 由于算法3和4的效果受向量偏差度阈值δ取值的影响，我们令δ=0.1，N=10重复了上述实验，得到的结果如表7-4所示。可以看出δ的取值对算法的查全率和准确率影响不大。 表7-4 考察δ的取值对算法3和4的影响 关键词个数N的取值是影响后4种算法效果的一个关键因素，因而我们针对效果最好的第5种算法，通过取不同的N值，得到了查全率的变化曲线，如图7-10所示。从图中可以看出，当关键词取得极少时,镜像算法的查全率很高,这无疑是用极低的准确率作代价的。关键词慢慢增多，查全率迅速下降，当选取到9个或10个关键词时，这种下降趋势变得很平缓，同时准确率达到一个比较高的水平。当选取到二十个以上的关键词时，有些低频词被选取，一部分转载网页的差别被反映出来，于是查全率有较大下降。随着选取的关键词继续增多，有差别的转载网页全部被认为是不同网页，剩下的完全相同网页使查全率不再随选取关键词的多少而变化。我们得到的结论是，关键词取10个左右最恰当，在较高的准确率的基础上，获得了最大的查全率与最小的运算量（主要是指关键词排序和签名运算）。 图7-10 查全率随选取关键词个数的变化 与现有算法的比较 为了与现有的算法进行比较，我们把文献[Shivakumar and Garca-Molina,1998]的实验结果（主要包括查全率和运行时间）列于表7-5中。我们的实验结果列于表7-6中。其中文献[Shivakumar and Garca-Molina,1998]的实验平台为带双CPU的SUN UltraSPARC工作站，内存为256MB, 对换工作区大小为1.4G，机器运行的操作系统为SunOS 5.5.1。可以看出其运行环境是优于我们的。基于关键词的消重算法有一个优点，就是只用一次签名就可以很好的判断某网页是否为转载，这样对N个网页计算其网页转载的复杂度为O(N)。通过比较表7-5和表7-6的数据，可以看出，算法1和5平均处理一个网页的时间总和不到“分段签名算法”的十分之一。我们的算法在时间上有明显的优势。另外，从这两个表可以看出，算法1和5总和的查全率要好于分段签名算法的，这表明消重的效果也略好于文献[Liu, et al.,2000]的分段签名算法。 表7-5 分段签名算法的时间复杂度及性能 当然我们的算法也有其局限性。如算法1要求事先知道各个网页的摘要信息，而后4种算法则要事先知道每个网页的关键词。但是目前绝大多数的搜索引擎是基于关键词匹配的，系统本身已为我们找出文章的摘要和关键词。而对于数字化图书馆项目而言，大多数数字化文档的摘要和关键词也是事先知道的，因而我们的算法仍然是适用的。 表7-6 基于关键词的各算法的时间复杂度及性能 (N=10, δ=0.01) 小结 本节描述了5种网页消重算法，并使用天网系统对之进行了评测，体现了这些方法的优越性。我们的实验也进一步表明在WWW上存在大量的镜像和转载网页，如下为比较常见的几类： 政府部门的法令、通告。例如，公安部颁布的《计算机信息网络国际联网安全保护管理办法》在国内的网站上有120个镜像。 重大新闻、热点新闻。例如，《中欧WTO谈判取得进展但未达成协议》有75个镜像。 技术文档。如：TUCOWS WinSock utilitics 有一百个镜像，Micorsoft Internet Information Server 2.0 Manuls有90个镜像。 提供一定服务的网站和网页。例如，“黄金书屋”的镜像有30个，而列出了国内各所大学URL的网页有上千个。 除了采用本节的消重算法来提高搜索引擎系统的输出质量外，还可以研究以网页的镜像度为参考来判断网页的重要度，进而提高Web搜集系统的搜集质量和效率。同时，这些算法若应用于数字化图书馆项目，也将是行之有效的。]]></description>
		<wfw:commentRss>http://scseoer.com/algorithm-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>消重算法</title>
		<link>http://scseoer.com/duplicate-elimination-algorithm.html</link>
		<comments>http://scseoer.com/duplicate-elimination-algorithm.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:45:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页消重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1425</guid>
		<description><![CDATA[算法基础 当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间模型来完成用户的检索请求的。典型的系统包括Google和天网系统。通常这类系统在对已抓取回来的网页进行分析时，要提取网页中出现的关键词和摘要信息，并以关键词作为网页的特征项。 天网系统在搜集并分析一篇网页时，提取并记录了网页中出现的关键词，同时根据公式赋予每个关键词一个权值，这些关键词的权值构成一个向量空间，可以用来表示该网页。另外，我们还从网页中提取了512个字节的有效文字（指用户实际访问该网页时能看到的文字，在html和其他格式的网页中，有一些用户看不到的文字，它们告诉浏览器该执行什么样的操作及如何显示网页，包括字体、颜色、排版等信息）作摘要。当用户查询时，摘要同网页的标题、URL等信息一起显示给用户，供用户了解网页的内容，选择感兴趣的进行浏览。 算法描述 考虑到基于关键词匹配的搜索引擎系统的特点，结合使用网页的向量空间模型，我们提出了5种网页消重算法，用于快速、有效地发现Web上的转载网页。下面逐一介绍这几种算法。在以下的描述中，用Pi表示第i个网页，其权值最高的前N个关键词构成的特征项集合为Ti={t1,t2,&#8230;,tin}，其对应的特征向量为Wi=&#60;Wi1,Wi2,&#8230;Wim&#62;，其摘要用Abstract(Pi)表示，前N个关键词拼接成的字符串用Concatenate(Ti)表示，而先对N个关键词按字母序排序后再拼接成的字符串用Concatenate(sort(Ti))表示。另外，用MD5(X)来表示字符串X的MD5散列值，用Mirror(Pi,Pj)表示Pi和Pj互为转载网页，用A→B表示“若A成立则B成立”。 算法分析 可以看出，我们设计的第1种算法采用了对网页摘要求MD5散列值的方法，当两个网页的散列值（占16个字节）相同时，就认为二者是互为转载的。由于MD5算法的严格性保证了当两个网页的摘要内容有一个字节不同时，其散列值就不同，这样就使得本来应作为转载处理的却没有被确定为转载网页。为此，我们又基于向量空间模型理论，提出了第2种和第5种算法。第5种算法表明，当两个网页的权值最高的前N个关键词集合相同时就认为二者是互为转载的网页。第2种算法比第5种要严格一些，它不仅要求两个转载网页的前N个关键词相同，其顺序也是一致的（按权值排序），因而第2种算法有可能会漏掉一些转载网页。 算法2和算法5都只是要求转载网页的前N个特征项相同，没有考虑到这些特征项所构成向量的夹角大小。算法3和算法算法4则分别在算法2和算法5的基础上分别考虑了两个网页特征向量的相似度。但向量相似度的计算并没有使用夹角余弦值来定义，因为它只度量了两个向量的夹角大小，而没有考虑向量的长度。我们认为只有当两个向量的夹角小，同时其长度相差也小时，二者才是相似的。针对这一点，我们又设计了判断两个向量相似度的方法，即算法3和4的第二个条件： 可以看出，SIM能够同时兼顾向量的夹角和长度两个因素。当两个网页内容毫不相关时（即它们的关键词集合没有交集），Wi与Wj垂直，SIM的值为1。当两个网页相同时，SIM为0。当两个网页相似而不相同时，SIM的值介于0和1之间，于是SIM的值成为判断两个网页相似度的标准。另外，类似于算法5是对算法2的条件放松，算法4也是对算法3的放松。 后四种算法都对向量空间模型理论作了较大的简化。首先，我们只从网页中出现的所有关键词组成的M个特征向量提取了前 N个(N&#60;M),这把理论模型的限制放松了。只所以可以这样做是因为： 1、特征向量的前N个分量绝对值大，基本能确定特征向量的方向。取较少的关键词能减少算法的复杂度。尽管有可能降低其准确度，降低多少，后面的实验将对其作出评测。 2、转载网页的制作人，对网页稍加改动变成相似网页时，不能改变其基本意思。而网页的基本意思一般通过其中出现的高频词来反映。后面的(M-N)个词出现的次数为1或2，相对而言，这些词的出现是不稳定的，当使用这些词来判断相似网页时，反而会漏掉一大批相似网页。 其次，后4种算法都要求前N个关键词组成的集合要相同。这却把理论模型的限制加强了。这主要是由于对算法复杂度的考虑，判断两集合交集大小需要先求出它们的交集。求交集运算的复杂度较大，而把一百万网页两两求交集，其1012量级的运算量是我们不敢提及的。我们只能考虑用MD5算法对集合签名，实际上就是对关键词序列签名，来表示集合的相同与不同。签名算法有极高的敏感性，作用对象稍有不同就会给结果带来很大的差异，并且不可能从签名差异的大小来判断原签名对象差异的大小。作这样的简化后，有可能出现这样的情况，位置在N附近的词在排序上出现的微小变动，如第N 个词与第N+1个词位置互换了，本来是两篇相似度很高的文章，可能会被我们的算法漏掉。这对算法的影响到底有多大，我们仍需通过实验来评测。]]></description>
		<wfw:commentRss>http://scseoer.com/duplicate-elimination-algorithm.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>网页消重算法</title>
		<link>http://scseoer.com/webpage-duplicate-elimination-algorithm.html</link>
		<comments>http://scseoer.com/webpage-duplicate-elimination-algorithm.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:18:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页指纹]]></category>
		<category><![CDATA[网页消重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1423</guid>
		<description><![CDATA[如前所述，我们粗略地将内容完全相同的网页称作镜像网页，主题内容相同的网页称作转载网页。就消除主题内容重复的网页而言，我们完全可以把镜像网页看作转载网页的特例来处理。由此，所谓网页消重就是指去除网页集合中转载网页的过程。 国际上对转载文档消重算法的研究最初主要是针对大型文件系统的，后来又被拓展应用于数字化图书馆项目和搜索引擎系统。美国Arizona大学的研究人员采用计算文档的重叠程度的方法来发现一个大型文件系统中的相似文件。Stanford大学的研究人员开发了SCAM (Stanford Copy Analysis Mechanism)原型系统用于发现相似的数字化文档，后来在对其消重算法作了改进之后应用于Google搜索引擎系统。几乎所有的上述消重技术都基于这样一个基本思想：为每个文档计算出一组指纹（fingerprint），若两个文档拥有一定数量的相同指纹，则认为这两个文档的内容重叠性较高，也即二者是内容转载的。 由于上述系统的应用目标不同，它们计算文档指纹的方法以及在如何度量两个文档的相似程度方面有较大差别。文献[Shivakumar and Garca-Molina,1998]采用了一种对全文分段签名的算法。这种算法把一篇网页按一定的原则分成N段（如每n行作为一段），然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用N个签名后的指纹来表示。对于两篇文档，当它们的N个签名中有M个相同时（m是系统定义的阈值），则认为它们是互为转载的网页。 该算法使用对&#60;文档标识(DocID),段标识(ChunkID),指纹(Fingerprint)&#62;三元组排序的方法避免了对所有网页作两两比较，使算法复杂度有所降低。但是该算法的空间复杂度和时间复杂度仍然是相当大的，若应用于海量的搜索引擎系统（通常包含上亿个Web页面），仍然难以取得理想的效果。我们结合基于关键词匹配的搜索引擎系统的特点，提出了5种网页消重方法，实验表明这些方法的效果很好，目前已被成功地应用于北大天网搜索引擎系统，用于消除转载网页。]]></description>
		<wfw:commentRss>http://scseoer.com/webpage-duplicate-elimination-algorithm.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>模型应用及实验研究</title>
		<link>http://scseoer.com/model-experimental-research.html</link>
		<comments>http://scseoer.com/model-experimental-research.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:16:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容重复]]></category>
		<category><![CDATA[网页噪音]]></category>
		<category><![CDATA[网页重复]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1417</guid>
		<description><![CDATA[DocView模型在网页自动分类中的应用及实验分析 网页与传统文本的一个重要区别是网页内容的随意性，这就导致网页内容中的噪音内容很多，因此，在网页分类过程的开始首先对网页作适当的净化，可以在一定程度上改进分类的准确性。将DocView模型中正文要素和相关超链要素重新组合就得到了净化的网页。在本实验中，我们以一个现有的分类器作为基准，提取基准分类器的训练集和测试集中网页的DocView模型，并用模型中正文要素和相关超链要素组合成的新网页替换原始网页，从而形成净化的训练集和测试集。然后，通过对净化后的训练集学习得到新的分类器，并用净化后的测试集进行测试。通过比较新分类器与基准分类器的测试结果，证明模型中正文要素和相关链接要素提取的正确性以及用它们代替原网页的合理性。 1、实验数据集 实验中用北京大学网络实验室开发的分类器作为基准分类器，该分类器支持的分类体系中共有733个类别，分为三层，其中顶层类有12个，该分类器的训练集和测试集共有15570个网页，这些网页就是按照上述分类体系组织的。 2、如果DocView中正文要素和相关超链要素提取的正确性足够高，那么把DocView中正文要素和相关超链要素组合起来生成的新网页将有效的消除噪音内容，因此用新网页代替原网页后的新训练集会使得各个类别的主题更为明显，而新测试集中网页的类别也更为清晰。所以，基于新训练集和测试集的测试结果也会得到提高。 3、实验评测标准 对分类效果的评价采用传统的查准率、查全率、F1 值。 4、实验结果及其分析 图7-9是新旧分类器的性能比较，横轴表示不同的类别编号，对应上面式子中的下标i（最后一项是关于所有12类的平均值），表7-1是图7-9中类别编号对应的类别含义。 图7-9 网页净化前后分类效果对比 通过图7-9我们看到，所有类别的分类结果均比原来有所改善。由于我们并没有对分类器的特征项提取算法和分类算法作任何改进，所以，图7-4所示的提高完全是从网页本身的改进得到的。因此可以得到两条结论： 净化过程中，没有出现明显的信息遗漏。 广告等噪音信息确实得到有效的去除。 表7-1 类别编号对照表 由于人工选取训练集和测试集的网页时已经做到尽量选取正文信息多、噪音信息少的网页，因此，网页净化在实际应用中的效果要比该实验的结果更为明显。 DocView模型在网页消重中的应用及实验分析 在本实验中，我们将DocView模型应用于预处理环节中的网页消重1。消重是指将搜集到的网页中的镜像或转载网页去掉的过程（镜像网页可以理解为一种特殊的转载网页），在消重后的网页集上建索引再提供服务可以保证用户查询时不会出现大量内容重复的网页。由于大量的转载网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰消重程序对转载网页的判断，从而导致错误消重。常见的错误消重有以下两种情况： 相同的内容，由于放在了不同的模板中导致应该被消掉但实际上被消重程序判断为非转载网页而保留。 不同的内容，由于放在了相同的模板中导致不应该被消掉但实际上被消重程序判断为转载网页而消掉。 从实际系统中也可以看出，模板因素是导致消重不够准确的一个主要原因。鉴于此，本实验中首先提取网页的DocView模型，然后将模型中的正文要素取代原始网页作为判断转载网页的依据。 1、实验数据集 实验中使用三组网页：基准网页集、转载网页集、非转载网页集。 基准网页集是用来模拟Web上被转载的原始网页，该集合中的每一个网页都存在一个或多个满足特定条件的转载网页在转载网页集中，也存在一个或多个满足特定条件的非转载网页在非转载网页集中。 转载网页集是用来模拟Web上的转载网页，该集合中存放基准网页集中每个网页对应的转载网页，这些转载网页满足如下条件：与对应的基准网页使用不同的模板。该集合用来测试上述情况一。 非转载网页集是用来模拟Web上使用相同模板但内容不同的网页，该集合中存放基准网页集中每个网页对应的非转载网页，这些非转载网页满足如下条件：与对应的基准网页使用相同模板而且内容属于同类。要求与基准网页内容属于同类是因为属于同类的网页容易被误消，所以使用同类的网页能更好的说明问题。该集合用来测试上述情况二。 理想情况下，转载网页集中的网页应该全部被消掉，而非转载网页集中的网页应该全部保留。因此，我们可以通过计算一个消重算法对转载网页集和非转载网页集消掉的网页个数来评价该消重算法。 我们人工为基准网页集、转载网页集、非转载网页集三个集合选取了网页，网页内容覆盖体育、娱乐、新闻、科技、社会、财经、教育、医学、IT、游戏等领域，目的是为了让实验网页的正文内容覆盖面足够广从而避免模板内容与网页正文内容有特殊关系。三个集合中共有79个网页，其中基准网页集有26个，转载网页集有26个，非转载网页集有27个。 2、实验思想 由于消重的目的是消去主题内容相同的网页，而DocView模型中的正文要素正是去掉网页中模板内容后的主题内容，因此，在使用相同的消重算法的前提下，用DocView模型中的正文要素代替网页原文参与消重，消重准确性应该有所提高。 3、实验结果及分析 表7-2中的数据是使用同一种基于关键词的消重算法但基于不同内容的消重结果。表中的数据是被消掉的网页数。 表7-2 消重实验结果 从上表中的数据可以看到，在基于网页原文的消重方法中，由于模板因素的干扰，导致消重算法将模板不同的转载网页作为不同网页而没有消掉。而用DocView模型中的正文要素代替网页原文参与消重，可以很好的克服模板因素的干扰，从而提高消重准确性。]]></description>
		<wfw:commentRss>http://scseoer.com/model-experimental-research.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>提取DocView模型要素的方法</title>
		<link>http://scseoer.com/extraction-docview-model-element-method.html</link>
		<comments>http://scseoer.com/extraction-docview-model-element-method.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:08:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页噪音]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1411</guid>
		<description><![CDATA[对Web上的网页，我们根据其网页类型可以将它们分为三类：有主题网页、Hub网页和图片网页。针对三类网页的信息提取算法各不相同，因此在对网页进行深入分析之前首先要判断网页的类型。为此，我们首先描述这三类网页的特征及判断方法，然后将对面向有主题网页的模型提取算法进行详细的讨论，最后简要的介绍面向Hub网页和图片网页的算法。 1、网页类型判断方法 在视觉上，大多数网页是容易区分类型的，因为三种类型的网页有着较为明显的视觉特征。在有主题网页中通过成段的文字描述了一件或多件事物，虽然也会有图片和超链，但这些图片和超链并不是网页的主体。图片网页中内容是通过图片体现的，而文字仅仅是对图片的一个说明，因而文字不多。Hub网页通常不会描述一件事物，而是提供指向相关网页的超链，因此，Hub网页中超链密集。 虽然视觉上判断网页的类型是比较容易的，但让计算机自动做到这点却不容易。下述的量化方法可以在绝大多数的情况下准确的识别网页的类型。网页都是有一定布局的，比如分左右两边或是中间和边缘。网页作者通常将重要的内容放在网页的中间部分，而边缘部分内容的重要性相对较低，这也是符合人的浏览习惯的。因此，依据网页中间区域的内容判断网页的类型是相对合理的，而网页中内容的位置信息在本节中构造的标签树中是通过内容块的属性记录下来的。 本节前面提到，在构造标签树时，依据内容块中词项数与图片数的比值以及内容块中词项数与anchor text中词项数的比值将网页中的内容块分为topic、hub和pic三个类型，基于内容块的类型，我们可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值来判断网页是否为hub类型。同理，使用网页中间区域pic内容块包含的词项数与网页中间区域词项数的比值可以判断网页是否为pic类型。实际效果表明，该方法判断网页的类型是较为准确的。 2、有主题网页的信息提取算法 该算法以一组启发式规则为指导，首先提取出网页的正文信息，然后以正文信息为基础，提取DocView模型中其它的要素。过程如图7-5所示。下面按照各个要素的生成过程分别描述。 正文： 一篇有主题网页中的正文通常是用成段的文字来描述，中间通常不会加入大量的超链，而非正文信息通常是伴随着超链出现的。基于此，我们提出了正文选取的规则（称为正文规则）。 正文规则：有主题网页中，如果一个内容块是topic类型的，则该内容块中的内容为正文的一部分。 依据正文规则，深度优先遍历标签树并依次记录topic类型的内容块，就得到该网页的正文，也就是该网页的主题内容。 图7-5 有主题网页DocView模型生成过程 关键词： 关键词选取的依据是特征项的权值，因而特征项权值的合理计算是正确提取关键词的保证。以标签树为基础，结合HTML网页的特点以及提出的量化方法，可以按照下述过程得到网页主题内容的特征向量。 图7-6 计算网页特征项权值的算法 使用图7-6所示算法得到特征项向量后，我们可以用两种策略决定选取关键词的数量。 绝对数量策略。首先定义好DocView模型中关键词的个数α，严格选取权值最大的α个特征项作为该网页的关键词。 相对数量策略。该策略中不需要规定要选取的关键词的个数，而是依据特征项权值的绝对大小。该策略首先定义了一个阈值β，而后计算所有特征项权值的算术平均值avg，选取特征项中权值大于avg * β 的作为该网页的关键词。这种策略虽然会导致每个网页中被选取关键词的数量不均，但它却可以更准确地提取关键词。 内容类别: 内容类别是通过对正文分类得到的。网页的量化表示是网页分类过程中必不可少的阶段，而在前面关键词提取过程中已经得到了正文的特征向量，于是直接使用正文特征向量进行分类可以节省网页量化过程的时间开销，这正是将共性需求的信息一次性提取的优势之一。仅对网页的正文分类有效的排除了噪音内容的干扰，从而提高了分类的准确性。我们使用的是北京大学网络实验室开发的分类器（详见第十一章）。 标题: HTML网页中，网页的标题由&#60;title&#62;标签标识。通过统计我们知道，94.12%的网页是有标题的，但在这些标题中，有很多是如下标题：“Untitled Document”、“New page”、“welcome”、 “欢迎访问”。这其中有的是网页制作工具为新创建的网页赋予的初始名称，有的是网页制作者较为常用的网页标题。它们是没有任何网页描述能力的，因而并不是合格的标题。针对没有标题或者使用上述无描述能力标题的网页，我们从关键词集合中选取权值最高的作为网页的新标题。 摘要: 摘要的提取基于这样的事实：文章都是按内容分段组织的；阅读者通常是根据一段文章中某几个子句来得到该段文章的大意，而这几个子句的选择通常是通过扫描某些关键词来定位的。因此，如果可以自动识别文章中不同的段落，那么基于上述得到的关键词，就可以得到能够模拟读者浏览文章过程的摘要提取算法。 图7-7 正文段落识别过程 识别文章段落: HTML网页中的结构信息是对网页版面的描述，这使得自动识别文章的不同段落成为可能。在正文提取部分已经得到了网页的正文，在网页的标签树中，所有正文块也构成了一个树状结构，称之为正文树。在正文树中，首先找到所有叶子节点的最近共同祖先结点作为正文根结点。正文根结点的各个子结点对应的正文块就是正文的不同段落。段落识别过程如下图所示。图7-7中的&#60;tr&#62;内容块就是正文根结点，其下面三个&#60;p&#62;内容块就是三个段落。 基于段落的语句提取： 以正文的段落为单位，在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值；最后在每个段落中限量选取权值大的语句，就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系，但能作到简短的摘要能覆盖整个文章的内容。 相关超链： 在超链选取的过程中，我们基于这样一个假设：网页中的超链在网页排版时通常按照主题聚集，换言之，相同主题的超链在网页中的位置是相近的，通常放在一个最里层的内容块（该内容块中不再包含其他内容块）中或并列的几个最里层内容块中。这就意味着我们可以以内容块为单位对超链进行取舍。对于超链的选取，我们实验了两种策略。 1、基于anchor text的超链选取策略 anchor text是对超链所指向网页简短、概要的说明，在一定程度上体现了被指向的网页的内容。基于anchor text的超链选取方法是通过比较每个hub类型内容块中anchor text集合与正文的相似度来决定该块中链接的取舍。 图7-8 基于anchor text的超链选取算法 通过这一算法，我们可以对hub类型内容块中的超链进行取舍，而其它类型内容块中的超链通常是对正文中某些信息的详细说明，因而其它类型内容块中的超链通常是内容相关的。因此，整理上述算法保留的Hub类型内容块中的超链和其它类型内容块中的超链就构成了整篇网页的相关超链集。 2、基于分类的超链选取策略 基于分类的超链选取方法是通过判断一个Hub类型内容块中某个超链（通常是第一个）指向的网页与本网页正文的类别是否相同来决定该块中所有链接的内容相关性。该方法可以有效的解决上述方法中anchor text信息过少的不足，而且实验结果证明，该方法确实比基于anchor text的方法准确，但需要动态的从Web上抓取并分类，因而时间开销很大。 [...]]]></description>
		<wfw:commentRss>http://scseoer.com/extraction-docview-model-element-method.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>网页的表示</title>
		<link>http://scseoer.com/webpage-representation.html</link>
		<comments>http://scseoer.com/webpage-representation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:56:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[标签]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1405</guid>
		<description><![CDATA[网页的表示是网页内容分析的基础，在网页内容分析过程中通常需要两个层次的表示，抽象表示和量化表示。 抽象表示是以网页制作规范（如HTML规范）为依据和出发点，构造出能体现网页内容结构和内容重要性等信息的表示模型，其目的是充分利用网页制作规范，挖掘出网页中隐含的信息，为后续量化表示提供更多可利用信息。对于HTML网页，最常用的方法是构造网页的标签树。 量化表示则是从计算机处理的角度出发，利用信息检索领域的技术和从网页中挖掘的隐含信息，生成计算机可以直接用于计算的表示模型，如向量空间模型等。下面对这两个层次的表示方法做详细描述。 1、抽象表示 HTML通过定义一套标签来刻画网页显示时的页面。因此，对于HTML网页最常用的抽象表示方法是构造网页的标签树。 依据标签的作用可以将HTML的标签分为三类： 规划网页布局的标签：在视觉上，网页是由若干提供内容信息的区域（我们称之为内容块）组成的，而内容块是由特定的标签规划出的（称之为容器标签），而且容器标签是允许嵌套的。常用的容器标签有&#60;table&#62;、&#60;tr&#62;、&#60;td&#62;、&#60;p&#62;、&#60;div&#62;等。因此，依据容器标签可以将网页表示成树状结构，虽然该树状结构描述的是网页内容的布局结构，但布局信息中隐含着网页内部各部分内容的相关性信息。 描述显示特点的标签：在HTML标准中定义了一套标签来规范其包含的内容的显示方式（比如：字体变大、粗体、斜体），我们称之为重要信息标签。常用的重要信息标签有&#60;b&#62;、&#60;I&#62;、&#60;strong&#62;、&#60;h1&#62;、&#60;h2&#62;等十几种。这类标签中的内容通常是网页作者希望引起读者注意的，因此隐含着一定的内容重要性信息。 超链相关的标签：超链是HTML网页区别于传统文本的最明显的特点之一，表示着网页间的关系，因此整理出超链标签并作合理的分析可以挖掘出网页间的内容相关性信息。 目前，有很多构造标签树的工具（如：W3C HTML lexical analyzer和HTML Tidy），它们各有特点，W3C HTML lexical analyzer有很强的通用性，适合各种标识语言；HTML Tidy则能够自动发现并修正标签的错误。由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各部分内容的重要性，因此，用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念，倾向于以内容块为单位的内容组织方式。另外，内容分析过程中经常会关心这样一些信息：标签树的规模（结点个数）、每个内容块包含的各种类型信息（如：文本、超链或图片）及其数量等。鉴于此，我们自行开发了更适合内容分析的标签树构造工具。 下面简要的描述标签树。给定一篇HTML网页，顺序整理出容器标签就得到了对应的标签树的框架。而后，整理每个内容块（对应标签树的一个结点）中的超链标签、图片标签和重要信息标签，并在标签树中对应的结点中记录下来。这样就构造了一棵基本的标签树。对上述基本标签树信息作适当的分析、整理就可以得到内容分析过程中需要的一些描述信息。譬如，依据内容块中词项数与图片数和超链数的比值可以为每个内容块设定一个类型，分为topic、hub、pic三种。如果内容块中词项数与图片数的比值小于某个阈值，该内容块就是pic类型，如果内容块中作为anchor text出现的词项数与该块中总词项数的比值小于某个阈值，该内容块就是hub类型，否则为topic类型。这样，标签树中每个结点都有类型和属性集两组描述性信息，以及超链集和重要标签集等数据信息。 图7-3是一个标签树的图例，其中link_list表示该内容块中超链集合；weighty_tag_list表示该内容块中重要标签集合。 图7-3 HTML Tree 结构 2、量化表示 1、合理利用网页的特点 在传统的文本处理领域中，一个文本被看作是一个特征项向量（w1,w2,&#8230;&#8230;,wn），其中wi是第i个特征项的权值，n是特征项的总数。这样，每个文本就被映射到了向量空间中的一个点，因而向量空间中的点的距离就可以用来衡量其对应的文本的相似性。在量化方法上，对权值的计算，比较常用的是采用TF*IDF方法。在量化方法上，我们可以充分的利用HTML网页中的重要信息标签信息以及HTML网页内容的布局结构。 为了体现重要信息标签中内容的重要性，通常的做法是对重要信息标签中的内容加权值。但重要信息标签中包含的并非都是重要内容，其中的噪音信息非常多，例如：“Tel”、“Fax”、“联系电话”、“传真”、“广告服务”、“前一页”等等。我们对此做了这样的统计，从Web上随机抓取的20000个网页中，包含在我们定义的重要信息标签中的内容有9091条，其中上述的噪音内容（共定义了22个）出现了1200条，也就是说，重要信息标签中的噪音信息至少占13.2%。因此，简单的对重要信息标签中的内容加权是不合理的，整理噪音词集合并对重要信息标签中的内容进行过滤，对过滤后的真实重要内容加权值可以避免噪音扩大化。 由于网页中的标签结构是对页面布局的描述，我们不难得到这样的结论：如果某个内容块中存在真实重要信息，那么这个内容块的重要性也相对较高；如果一个内容块的重要性较高，那么这个内容块的外层嵌套块的重要性也相对较高。可以看出，导致网页中内容块重要性增加的是包含真实重要内容的重要信息标签。基于这个结论，我们给网页中每个内容块赋予一个权值，用来表示这个内容块的重要性，并提出内容块权值的传递规则（我们称其为权值传递规则）。由于内容块与标签树中结点是一一对应的关系，以下对权值传递规则的描述统一使用标签树的结点而不使用内容块。 权值传递规则： 标签树中每个结点的初始权值为1。 每个重要信息标签都有一个影响因子。如果标签树某个叶子结点中存在重要信息标签并且重要标签中的内容是真实重要内容，那么累加重要信息标签的影响因子，得到的和就是该叶子结点的影响因子。没有出现重要标签的叶子结点的影响因子为1。 对于每一个叶子结点，如果影响因子为λ且λ &#62; 1，则该叶子结点的权值变为当前值的λ倍，它的父结点以及父结点下的其他子树中的结点均变为当前值的倍，然后以该父结点为变化源，按照上述规则再向外扩展一次。每一次扩展过程中，遇到父结点为&#60;body&#62;或父结点权值超过预定上限就结束整个权值传递过程。过程如图7-4所示。 图7-4 内容块权值传递过程 不难证明，“权值传递规则”有以下两个性质： 性质7-1 对于初始的标签树，无论从哪个结点开始、以什么顺序执行“权值传递规则”，标签树最终的权值结果都是相同的。 性质7-2 如果初始标签树中叶子结点影响因子的分布不同，那么标签树最终的权值结果一定是不同的。 其中，性质7-1是保证规则正确的基本条件，性质7-2则说明，“权值传递规则”可以保证：初始标签树中叶子结点影响因子的分布与最终标签树中权值结果是一一对应的。另外，可以证明，“权值传递规则”的两个性质与权值向上传递的层数是无关的。 2、适合内容分析的HTML网页量化表示 内容分析过程中的处理对象是网页中的内容块，对于内容块的表示，特征向量方法同样是适用的。但在具体的量化方法上有所不同。一个最重要的区别在于，内容分析过程中侧重的是一张网页内部各个内容块之间的相似度比较，而不是网页间的相似度比较。因此，在特征项权值的计算方法上，我们更侧重特征项在一张网页内部的重要性，而不是特征项在一个文档集合上基于统计的重要性。基于上述分析，我们使用公式（7-1）来计算特征项权值。 其中，Bweightj表示内容块j的权值，它的值由一个内容块中的重要标签来决定的；BN表示网页中内容块的总数；n表示网页中不同关键词的总数；BTfij表示关键词i出现在内容块j中的词频。 3、量化表示方法分析与改进 分析上述的特征项权值公式可以知道，如果网页中没有出现重要标签信息，则所有内容块的权值均为1，那么公式（7-1）就变为完全依赖于词频的计算方法。统计发现，只有19％的网页中有重要标签，这就是说，公式（7-1）对大多数网页而言，是简单使用词频来衡量特征项的重要性；但是，文档中很多高频词并不是真正重要的。基于上述分析可以知道，必须要对高频词做特殊的处理。 所谓“高频无关词”，是指虽然在文档中词频很高，但却没有主题描述能力和区别能力，例如：“中国”、“可以”。在基于词频的权值计算方法中，该类词的权值将会很大；另外，“高频无关词”很容易出现在重要标签中，因而对重要标签中的信息加权也使得这种词的权值很大。因此，在内容分析之前去掉“高频无关词”，既可以提高网页内容表示的准确性，又能减少网页向量中的维数，提高效率。 “高频无关词”最明显的特征是：在大量的文档中都以高频词的角色出现。基于这个特征，我们可以通过词频和文档频率确定某个文档集合的“高频无关词”集。如果使用网页集合并且该集合的规模足够大，那么就可以得到近似Web上的“高频无关词”集。实验数据表明，“高频无关词”与非“高频无关词”在作为高频词出现的文档频率上有很大的差别。因此，我们可以依据该跳变的位置确定高频无关词集。]]></description>
		<wfw:commentRss>http://scseoer.com/webpage-representation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

