百度谷歌识别伪原创算法浅析网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>信息图>百度谷歌识别伪原创算法浅析

百度谷歌识别伪原创算法浅析

作者：来源：发布时间：2011年03月03日 09:42:15

(电子商务研究中心讯)　　首先我写的这篇文章完全源自本人长期观察总结，如果有何不妥请指正。毕竟我研究SEO也有一段时间，虽然说SEO的最高境界是忘记SEO，但是SEO技术也还是非常有趣的，我研究SEO技术纯粹是个人兴趣，写这篇文章也是给各位站长做一个很好的参考。

　　第一，搜索引擎会过滤“的，了，呢，啊”之类的重复率非常之高的对排名无帮助的无用词语。

　　第二，这里要谈为什么有时候转换近义词无效。从这里开始就算是我个人的经验总结了。既然市场上有一堆伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”，那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的，搜索引擎一定会近义词伪原创，当搜索引擎遇到“电脑”和“计算机”时，会将他们自动转换这里姑且假设为A，所以很多情况下的近义词伪原创不收录的原因。

　　第三，这里要谈为什么有时候不仅近义词转换了并且打乱句子与段落依然无效。当搜索引擎过滤掉无用词，并将各类近义词转化为A，B，C，D后开始提取出这个页面最关键的几个词语A，C，E(这里举个例子，实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说，近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。

　　第四，这段更深层次解释为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出。首先既然百度能够生成指纹自然也能解码指纹，段落重组的文章不过是重要关键字的增加或者减少，这样比如有两篇文章第一篇重要关键字是ABC，而第二篇是AB，那么搜索引擎就可能利用自己一个内部相似识别的算法，如果相差的百分数在某个值以下就放出文章并且给予权重，如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照，也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。

　　第五，我要解释下为什么有些伪原创文章仍然可以被收录的很好。我上面的推理只是对于百度识别伪原创算法的大致框架，实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多，谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创的文章依然可以被收录的很好。只有两个原因：

　　1.网站自身权重高，哪怕不为原创照搬别人的文章还是百分之百会被收录给予权重。

　　2.搜索引擎绝对不可能完美到过滤所有伪原创，这是不可能的，就好像人工智能的图灵永远无法完美到拥有人类的情绪一样。（编选：中国电子商务研究中心勇全）

网经社联合A股上市公司网盛生意宝（002095.SZ）推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点，解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库（DATA.100EC.CN，注册免费体验全部）基于电商行业12年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。