伪原创猖獗,真正的作者何去何从?

自媒体产业近年蓬勃发展,尤其是在移动互联网时代,自媒体运营者通过发布文章,聚集粉丝,获得阅读量,再通过平台支持、广告、电商等各种方式进行变现,但是,从互联网产生的那一刻起,内容就是互联网的重要组成部分,而内容的产生,是非常困难的,从早年的网站运营时代,就产生了一种叫做伪原创的东西,技术本身无罪,但这个技术的产生,确实使得很多人动起来了歪脑筋,形成了一条黑色产业链。

现在在互联网上,有大量的软件和网站提供一键伪原创的功能,什么“一键伪原创”,“篇篇十万加”的广告口号,甚至一些网站使用爬虫技术,自动抓取当前热门新闻和文章,自动生成,这些内容是怎么产生的呢,又会对原创作者产生哪些影响呢?

伪原创的技术原理

颠倒语句顺序,变换段落,照搬逻辑,关键同义词替换

伪原创又被称为“洗稿”,这其实是对别人的原创内容的内容进行篡改,删减,近义词替换,使得生成后的文章,与原文具有较大差异,从而欺骗系统,让系统认为是一篇原创文章的一种行为。无论伪原创工具如何对文章进行修改,其根本内容还是原创作者的思想和内容。

颠倒语句顺序,伪原创工具会把一些语句的顺序进行颠倒,当然这样的技术是系统来做的,他并不能非常好的识别语句的上下文,只是简单的把句子的顺序前后替换,虽然对文章的对比会产生影响,但实际上对原文的更改并不是非常大,而且大部分时候由于上下文的关系,会让文章失去可读性,让人感觉逻辑混乱。

变换段落,跟颠倒语句顺序类似,主要是把段落的顺序进行更换,这样的做法可能对句子内容意思影响并不大。

照搬逻辑,这个相对复杂一些,是对很多文章内容的意思通过一些同类型语句进行替换,用系统实现难度较大,更为整体的思路,这种做法大部分在人工的“伪原创”时候会用到的多一些,基本上就是用我自己的话把你的意思说一遍。这部分内容后面会再说。

关键同义词替换,这可是伪原创的根本技术,这个比较简单,但算法的水平就差别很大了,比如我们可以举一些例子,比如一篇文章中,我可以把“晚上”换成“夜里”,把“报纸”换成“报刊”,把“共计”换成“一共”,但是,由于中华语言博大精深,字、词、句很多是根据实际的语境来的,单纯的更换为近义词的话,很多时候会让文章变的及其古怪,难以阅读,甚至有的时候完全意义不对了,笔者曾经随便找了个文章(涉及一些互联网专业词汇),伪原创后无法阅读,无法理解意义,当然了,这可能是我选择的是比较古老,技术比较落后的软件的原因。

伪原创其实还有种高级的技术,但这个并不是毫无门槛的,因为这种伪原创,其实也是另外一种原创,这就是上面提到的照搬逻辑的高级层次的做法,比如我看到了一个文章,写的非常好,那么我看完了,有了我自己的理解,我就可以把这个事情按照自己的逻辑和思维从新写出来,这种方式其实严格意义上不算伪原创,也是原创,当然了,这要看你引用原文的内容有多少。

伪原创的现状

在我选择尝试自媒体号运营的时候,加过不少群啊,社群什么的,也看了一些自媒体运营的文章和视频教程,最终发现,这些大部分并不是在做自媒体作者的,而是搬运,说白了就是薅羊毛的,就是薅原创作者的羊毛,而且基本上都是声称,每天花一点点时间,就可以月入几万这种程度,其实这里面基本的就是用伪原创的,否则你哪里有内容呢?

各个自媒体平台,确实有非常多的大牛,在写着很多的原创内容,但薅羊毛的人数更多了,很多小白,根本什么都不懂,也在使用伪原创获利,而平台方,也没什么特别好的办法,基本上就是通过各种技术手段来做比对,来衡量原创度等各种问题,甚至部分使用人工审核,但人工审核是无法判断是否原创的,因为工作量太大了,如果是系统,伪原创确实可以欺骗系统,这其实是所有做内容产出的兄弟们的一种悲哀!

我开始做了自媒体,我希望可以坚持下去,写原创的内容,但谁都知道,写一篇文章需要多少时间,需要耗费多少脑细胞,复制,粘贴,伪原创,需要的时间是多少!!!

伪原创弊端

伪原创确实可以一定程度促进互联网内容的发展,但是过于蓬勃的现状,会一定程度打击真正的原创作者的积极性,既然可以那么容易的产生内容,我又为什么要去煞费苦心的去写原创内容呢?

而且,从知识产权包含的角度来看,这所谓的伪原创,跟原创哪里有半毛钱关系,基本上就是抄袭,理论上这是构成侵权的,是可以通过法律武器来解决的,可是实际上是很难判定和操作的,这个是很难的,否则哪里还有盗版什么事!

其实任何的盗版,侵犯知识产权的行为,最大的弊端都是对原创的利益的侵害,这也是伪原创本身最大的问题所在。

对于原创版权保护的思考

法制,完善健全知识产权保护法律体系,用法律来作为根本武器肯定是最必要,这个部分我们不谈,另外就是知识产品的观念,这个我也不谈,这个是需要时间慢慢完善和提高的。

我着重从技术角度来谈谈看法,我个人认为,知识产权,尤其是互联网图文视频类的内容的知识产权保护,可能机遇在人工智能,机器学习这方面。

因为过去的这么多年,通过比对算法等,虽然对那种“ctrl+c,ctrl+v”的低级复制抄袭是有很大效果的,但是只要替换足够多的内容,系统根本无法判断是否原创,是否抄袭,虽然现在技术一直在提升,虽然算法也在进步,但是文章、图像、视频很多时候是需要有人的这种模糊思维才能判断,而不是简单的比对,这就是说,我们需要人的思维方式,机器的效率和数据化,好像只有人工智能可以实现这点,虽然现在这方面的发展也非常快,比如人工智能的鉴黄,就可以对视频内容是否违规进行鉴定,其实这也是一种算法,但是,算法如果形成人工智能及机器学习,那么就会产生一个系统,可以把带有版权的内容入库,来做版权保护,也可以获得一个待审内容,通过大数据及爬虫,搜索类似文章,然后通过神经网络的机器学习结果进行判定。我个人孤陋寡闻,不知道是否有企业在研究这方面的内容,但我相信,这一定是个有前景的方向,对于内容平台来说,这也绝对是个致胜法宝,我只是对这个想法简单的描述了下,肯定不是这么简单的逻辑,我希望,这个可以早一天实现,对原创作者们进行保护!

我不知道我是否可以一直坚持下去写东西,我的打字速度也感觉还好了,一篇文章也需要挺长时间,这还不算思考的时间,如果你看了我的文章,请关注一下,转发一下,赞一下,支持一下一个刚刚开始的原创作者,我保证,从你进来开始,到最后一个字,都是我一个一个的打的字,不容易啊!

伪原创如此猖獗,真正的作者,坚持一下,是金子永远都会发光,永远都不会埋没,每一个平台都在做努力,更多的支持原创作者!总有一天,是真正原创的天下!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180722A14QBD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券