Google如何判断伪原创的算法

做英文网站的朋友都会遇到语言的问题,完全原创的的难度比较大,所以一般会做一些伪原创处理,但是google的算法已经很强大,对于文章伪原创也有是别的一套算法。

Google主要是通过相似度、搜索指纹和代码噪音来判断文章是否原创。

相似度是搜索引擎去重用的最多的算法,主要依靠词频和反文档频率两个来判断。词频指的是某一个给定的词语在该文件中出现的次数。反文档频率指的是:如果包含词条的文档越少,反文档频率越大,则说明词条具有很好的类别区分能力。大概意思是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。

数据指纹算法:当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,因为对于两篇不同的文章,标点符合不太可能是完全一致的。指纹算法其核心在于统计出段落之中的标点符号有多少来分辩出原创还是伪原创,算法认为没有一篇的文章的标点符号数量一样的,只要算法中统计所有文章的符号和数量进行比对就能分辩出原创和伪原创的文章来,如果想避开这一算法可采用在伪原创文章中再插入其它段落,增加段与段之间的标点符号和数量来扰乱算法的对符号的计算工作。

Google

但是指纹算法肯定不只标点符号这一点这么简单,猜测文字信息提取指纹的要素一般为下面信息:标题、作者、发布时期、修改日期、主要关键词。其中关键词的选取可以有几种方法:提取网页中设置的keywords与description、信息中出现频率高的8个关键词、文章开头或结尾一段话、文章中固定位置的一段话。

有了这些代表信息后,便可以形成指纹信息,若再对这些信息进行Hash运算、MD5等方式加密、变化,生成一段定长(如256字节)的信息,就可以作为该信息的“指纹”,经过加密主要是防止对信息内容的篡改和对指纹的替换。这种方法有些象数字签名技术,但要相对简单,并且不进行加密运算时的标题等信息可以直接作为检索的关键字使用,统计信息表明:对一个文本信息提取指纹,当选取8个关键词及其词频作为其指纹时,准确度在98%以上,查全率在30%左右。这说明要能“概括”该信息,找出其8个使用频率最高的词汇,基本可以代表这个信息。

所以在我们进行伪原创或使用一些伪原创工具的时候,如果只是把关键词进行了替换,标点符号指纹是不变的,甚至连词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。

代码噪音:前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。

 

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: