飞龙博客

妙法莲华经

搜索引擎如何识别网页关键字堆砌

feilong.org 修订于2008-10-29 08:26:39 176 次浏览

合理优化网站有助于搜索引擎识别网站内容,但是关键字堆砌,作为早期SPAM作弊方式,有些过分,特别是那些直接用软件拼凑关键字形成的所谓文章。这种关键字堆砌,企图让搜索引擎增加页面收录和页面排名,可是搜索引擎已经能识别了。

搜索引擎如何识别网页关键字堆砌的?首先,现在搜索引擎都有网页质量监控部门,比如百度,人工参与搜索引擎,用户发现垃圾文章后投诉到相关部门。其次,类似谷歌,可以自动识别关键字堆砌。本日志更新网址:http://feilong.org/keyword-stuffing飞龙第3次修订于20100812

搜索引擎如何自动识别呢?一般采用统计分析的方法。

一、N/L值

1、首先将网页进行分词,分词完成后可以得到:词的数量N和文章长度L。
2、从大量统计中发现,文章长度L和词的数量N两个数字之间存在一定的关系,一般L/N的值界于4至8之间,均值大约在5-6之间。如果一篇有1000字节,那么应该有125-250个分词。由于中文和英文组词方式不一致,这个比值范围会有所不同。
3、如果搜索引擎发现L/N值太大,那么这篇文章就存在关键字堆砌的嫌疑。如果L/N特别小,那么这篇文章可能是东拼西凑的所谓文章。

统计发现,文章中密度最高的几个关键字出现的次数之和 与 N/L值,也有一定关系。

二、停顿字

搜索引擎还依据停顿字的比例来判定文章是否为自然文章,停顿字包括“的、我、是”这些普遍用词。如果文章中停顿字比例在正常范围之外,那么这个网页会提交到网页质量监控部门进行审核。

三、当然还有更多算法,可以对是否是自然语言的文章进行分析。

有些作弊者放弃了单词组成文章的作弊方式,而改用句子组成文章。作弊者通过爬虫或其它方式获得网上文章句子,用软件将数十篇文章中的某几句拼凑成一篇文章。这就需要搜索引擎做语义分析。目前语义分析还处于研究阶段,这也是下一代搜索引擎的方向。

如果到最后,软件能生成人类能够理解的文章,这是SPAM还是精华?你能说RSS聚合的文章一定是SPAM吗?但是如果这样的聚合出现太多,谁又来手工撰写原创的文章?

更新网址:https://feilong.org/keyword-stuffing
最初发布:20081029 08:26:39 feilong.org 于广州

加入收藏夹,查看更方便。

所在分类: 网站优化

新作:

旧文: