学习推广技术网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 1164|回复: 0
打印 上一主题 下一主题

完美解析网站收录问题

[复制链接]
跳转到指定楼层
楼主
发表于 2012-8-17 17:23:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
     原创、多样化内容信息对搜索引擎的收录排名起到越来越重要的作用!俗话说“磨刀不误砍柴工”,方向正确,正确执行是经营的核心所在。为了更好地协助经营商铺,提高产品信息在搜索引擎的收录排名效果,下面给大家介绍搜索引擎如何识别“原创、多样化”内容的算法以供参考。
     第一,搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的对排名无帮助的无用词语。
     第二,这里要谈为什么有时候转换近义词无效。既然市场上有一些伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”,那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的,搜索引擎一定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,所以很多情况下的近义词伪原创、类同信息不收录的原因。
     第三,这里要谈为什么有时候不仅近义词转换了并且打乱句子与段落依然无效。当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的内容和原信息对于搜索引擎来说是会认为一模一样的。
     第四,这段更深层次解释为什么几条内容段落重组的信息依然可能会被搜索引擎识别出。首先既然百度能够生成指纹自然也能解码指纹,段落重组的信息不过是重要关键字的增加或者减少,这样比如有两条供应信息,第一条重要关键字是ABC,而第二条是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出信息并且给予权重,如果相差的百分数高于某个值那么就会判断为重复信息从而不放出快照,也不给予权重。这也就是为什么几条内容段落重组的信息依然可能会被搜索引擎识别出的原因。
     第五,最后要解释下为什么有些伪原创、类同信息仍然可以被收录的很好。上面的推理只是对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创、类同信息依然可以被收录的很好。只有两个原因:
     1.网站自身权重高,哪怕不为原创照搬别人内容的信息还是百分之百会被收录给予权重,同时具有一定的随机性。 这就是同样的一条新闻,放在大型门户网站就是头条,而放在小网站就是条垃圾新闻、小道消息。
     2.搜索引擎绝对不可能完美到过滤所有伪原创,这是不可能的,就好像人工智能的图灵永远无法完美到拥有人类的情绪一样。


文章出自香港废品回收处理www.xgfphs.com

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 分享到新浪微博
您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|学习推广技术网 ( 沪ICP备12001518号-2  

GMT+8, 2024-5-18 13:20 , Processed in 0.169539 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表