百度原创识别“起源”算法知识解读

[db:摘要]

百度一直在致力于对原创内容的鼓励与保护,然而百度的原创识别“起源”算法打响了原创保护的第一枪。下面就给大家分析和解读“起源算法”。起源算法是百度工程师LEE在发布文章中提到过相关细节。致力在互联网上构建原创环境从而推动中文互联网前进。起源算法原文这里我就不讲了只讲一下其中关于算法中我认为比较重要的几点。

百度原创起源算法解读
 

起源算法工作原理简介

百度利用云计算平台能够快速的对互联网网页进行重复聚合以及链接的指向关系分析。先对相似程度的原创文章和采集文章进行聚合作为原创候选,然后根据相关规则比如发布时间,原创作者,站点的整体情况以及历史状况,用户评论以及连接指向等等进行判断最后进行排序。

 

搜索引擎为什么要推出“起源算法”

搜索引擎的最终目的都是为了净化互联网环境,用户体验,内容原创。起源算法为的解决的问题就是原创问题。如今互联网发展速度快,文章采集现象泛滥。所以百度为了避免这样的情况继续恶性循环下去采取了一套措施就是“起源算法”!

 

互联网采集泛滥

根据百度的调查被人工或者机器采集的文章包含资讯和新闻在内超过80%,并且采集的内容五花八门。由于采集的低成本化,相比人工创作原创文章采集更加方便所以一般站长在搭建网站的时候内容都会选择采集。从而导致如今互联网中原创文章很少,已经是沧海一粟。浪费了互联网的资源,又是搜索引擎寻找原创文章更加的艰难。
 

用户体验的提高

互联网降低了传播成本,软件减少了采集的成本,并且互联网上采集工具琳琅满目,但是真正可以做到人性化的采集软件非常少。软件采集内容或多或少会出现采集页面残缺,或者排版混乱。所以采集造就了大量的垃圾内容,影响了用户体验。推出“起源算法”就是为了提高用户体验,鼓励站长们多弄些高质量的原创内容!
 

鼓励站长创造高质量原创内容

大量文章被转载或者采集不仅仅影响了原创作者们网站的流量,因为文章在采集或者转载之后不带有原创作者的名称或者原创标识。所以会影响原创作者的收益以及原创作者的积极性。这样容易导致互联网的原创内容越来越少,采集越来越多。所以为了尽量避免这个现象的发生百度为了鼓励作者原创给予原创作者应该有的流量。“起源算法”诞生了!
 

百度识别原创的困境

采集内容修改,冒充原创 

目前许多采集软件在采集文章的时候都是可以对文章内容进行替换,比如作者信息,发布时间,发布来源等,这些重要信息被替换了就需要搜索引擎识别出来进行调整。
 

伪原创生成器,独创"原创"

除了了文章采集器,目前互联网上面还存在着大量的伪原创工具,这些工具对近义词,形近字等等的替换让一篇文章的内容完全失去了原有的价值,并且还读不通。甚至有的伪原创工具只要你输入标题和相关关键词,锚文本,作者,等信息然后就可以批量生成大量的文章。但是这些文章根本读不通,虽然符合百度要求的“独特”,但是全部都是文字组合插入你所写的一些信息形成的垃圾文章。这种文章对于百度来说是严重打击的。
 

网站机构标签识别

为什么在写文章的时候要求要合理的使用好标签,在建设网站的时候也说过此类的要求,就是为了让百度更好的识别网站的信息和结构,每个标签具有每个标签的含义,所以标签的使用要符合W3C的标准,有利于搜索引擎的识别。

在后面百度又根据原创推出了星火算法,飓风算法,熊掌号!可见百度对于原创的保护是非常的重视的!

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.sumedu.com/faq/1368.html

发表评论

邮箱地址不会被公开。 必填项已用*标注