飞龙博客

feilong.org

搜索引擎如何识别网页关键字堆砌

feilong.org 修订于2008-10-29 08:26:39 422 次浏览

合理优化网站有助于搜索引擎识别网站内容,但是关键字堆砌,作为早期SPAM作弊方式,有些过分,特别是那些直接用软件拼凑关键字形成的所谓文章。这种关键字堆砌,企图让搜索引擎增加页面收录和页面排名,可是搜索引擎已经能识别了。

搜索引擎如何识别网页关键字堆砌的?首先,现在搜索引擎都有网页质量监控部门,比如百度,人工参与搜索引擎,用户发现垃圾文章后投诉到相关部门。其次,类似谷歌,可以自动识别关键字堆砌。本日志更新网址:http://feilong.org/keyword-stuffing飞龙第3次修订于20100812

搜索引擎如何自动识别呢?一般采用统计分析的方法。

一、N/L值

1、首先将网页进行分词,分词完成后可以得到:词的数量N和文章长度L。
2、从大量统计中发现,文章长度L和词的数量N两个数字之间存在一定的关系,一般L/N的值界于4至8之间,均值大约在5-6之间。如果一篇有1000字节,那么应该有125-250个分词。由于中文和英文组词方式不一致,这个比值范围会有所不同。
3、如果搜索引擎发现L/N值太大,那么这篇文章就存在关键字堆砌的嫌疑。如果L/N特别小,那么这篇文章可能是东拼西凑的所谓文章。

统计发现,文章中密度最高的几个关键字出现的次数之和 与 N/L值,也有一定关系。

二、停顿字

搜索引擎还依据停顿字的比例来判定文章是否为自然文章,停顿字包括“的、我、是”这些普遍用词。如果文章中停顿字比例在正常范围之外,那么这个网页会提交到网页质量监控部门进行审核。

三、当然还有更多算法,可以对是否是自然语言的文章进行分析。

有些作弊者放弃了单词组成文章的作弊方式,而改用句子组成文章。作弊者通过爬虫或其它方式获得网上文章句子,用软件将数十篇文章中的某几句拼凑成一篇文章。这就需要搜索引擎做语义分析。目前语义分析还处于研究阶段,这也是下一代搜索引擎的方向。

如果到最后,软件能生成人类能够理解的文章,这是SPAM还是精华?你能说RSS聚合的文章一定是SPAM吗?但是如果这样的聚合出现太多,谁又来手工撰写原创的文章?

更新网址:https://feilong.org/keyword-stuffing
最初发布:20081029 08:26:39 feilong.org 于广州

加入收藏夹,查看更方便。

所在分类: 网站优化

新作:

旧文:

AI音乐 blog money bui 教程 echarts 教程 eclipse 教程 html css 教程 IT趋势 js 教程 json 教程 mysql 教程 nodejs npm 教程 onblog SQLite 教程 tutorials vscode 教程 wap网站 winpe启动盘 wordpress 主机推荐 人工智能 前端开发 博客 名企名网 域名注册 常用软件 建站程序 操作系统 教程 数码 无线上网 日记 电子商务 电脑笔记本 网站 网站优化 网站开发 网站推广 网站策划 网络 虚拟现实 默认