抓取数据可能会吃官司?请看好你家的爬虫!

历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取、使用微博用户信息行为构成不正当竞争,一审判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。两年前我有关注到微博与脉脉的数据之争,这在口水战每天都发生的互联网圈本来不算什么大事。但这次法院判决结果,还是挺出人意料的。毫不夸张地说,这一事件给互联网公司敲响了关于用户数据保护的警钟。

一个常规的数据抓取纠纷

先简单说一下微博和脉脉之争的来龙去脉。

2014年8月公开闹掰:微博宣布停止脉脉使用的微博开放平台所有接口,理由是“脉脉通过恶意抓取行为获得并使用了未经微博用户授权的档案数据,违反微博开放平台的开发者协议”。与此同时,脉脉宣布终止支持微博登录,并通过一些邮件截图曝光微博此举,是因其投资脉脉不成,索要脉脉用户关系数据受阻后的报复。就像所有口水战一样,双方各执一词、真相扑朔迷离。

2015年3月对簿公堂:微博主体公司于2015年3月将脉脉主体公司告上法庭,微博脉脉之争升级。

微博起诉理由主要有脉脉非法获取和使用微博信息,商业诋毁等。

在用户微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,这些信息并不在微博OPEN API之中,并且在微博停止脉脉所有接口权限之后,脉脉依然进行了相关数据抓取,微博认为脉脉通过非法手段获取信息。除此之外,微博认为在双方“闹掰”之后脉脉发表的公开言论对微博商誉构成了诋毁,脉脉采取了类似于微博加V认证的机制和界面设计,构成不正当竞争。

法院认定,脉脉绕过OPENAPI抓取数据的行为,危害到微博用户信息安全,损害了微博合法竞争利益,对其构成不正当竞争,商业诋毁成立,判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。

类似诉讼在互联网行业屡见不鲜。

  • 2013年,百度因奇虎360违背Robots协议抓取复制百科等内容构成不正当竞争,起诉后者并索赔1亿元。
  • 2016年2月,因认为百度视频通过抓取播放窗口的方式,嵌套乐视网视频资源到百度视频客户端,屏蔽了乐视网网页、网址、广告,造成公众混淆,构成不正当竞争,乐视起诉百度并索赔100万元。
  • 2016年4月,大众点评诉百度旗下的百度地图及百度知道大量复制其用户点评等信息,构成不正当竞争,提出9000万元索赔要求。

这些案例均是某平台因内容被抓取起诉抓取方,在数据为核心资产之一的互联网产业,“数据纠纷”只会越来越多。

平台用户数据受法律保护

从法院一审的判决逻辑来看,是否保护用户信息已成数据纠纷中的法律准绳。

海淀法院在“世界知识产权日”公开宣判这一案件,或许不是巧合。其明确表示,“大数据时代,保护用户信息是衡量经营者行为正当性的重要依据,也是反不正当竞争法意义上尊重消费者权益的重要内容。”这表明,用户权益被摆在最优先位置。

在“人肉”这类网络暴力频发、用户资料屡屡泄露的大环境下,这一判决具有示范意义。平台在业务设计上必须充分考虑用户信息保护,确保用户信息不被滥用,隐私数据不遭泄露,同时确保用户对个人信息的使用有知情权。

在保护用户利益之后,才是平台利益。

值得注意的是,用户信息与用户数据并不是一回事,比如你在微信公众账号发的文章,算是用户数据,但你个人微信昵称、头像这些资料,才算是用户信息。但究竟哪些属于用户隐私则很难说,你上传到平台的照片肯定是隐私数据,但你发的公开微博就不一定了。那么,不具备“个人隐私”属性的数据是否受法律保护呢?如果有人绕过接口,抓取用户发的微博而不是个人信息,会有不同的结果吗?

这里有一个案例:百度起诉360违反Robots协议抓取知道、百科等数据的纠纷就是这样的情况,法院尊重Robots协议和平台对UGC数据的权益,360被判赔偿百度70万元。就是说,UGC内容的创建者是谁并不重要,搭建平台网站投入运营、技术和人力成本,拥有对数据的使用权和分发权。如果第三方网站违背意愿进行抓取,就可能被判为不正当竞争。

数据是互联网公司的核心资产,不论是个人信息还是UGC数据(微博、文章、点评等),所有这些平台数据都将受到法律保护,平台对这些数据拥有所有权、使用权和分发权。

互联网公司应提防数据纠纷

互联网公司想要利用别家平台的数据时,必须遵循对方的公共API协议,或Robots爬虫协议,抑或通过正式协议合作。数据受法律保护。互联网公司不能违背某平台意愿抓取其数据——在技术上或许并不难,可通过爬虫等手段绕过限制,实现数据抓取,但这样做很可能会吃官司,并且败诉几率相当高。

因为数据抓取纠纷而对簿公堂的案例还不算多,但数据抓取行为在互联网行业却很常见,比如许多平台都能看到豆瓣电影评分数据,再比如一些导购网站聚合了电商平台的评论,还有平台将微信公众账号所有文章都聚集起来…这些行为理论上来说都有数据纠纷的风险,如果你做得不够大平台一般也没这个精力理你,但万一你某天做到了呢?况且,很多大公司也这样干。

对于数据的获取和使用,不再是一个技术问题、商业问题、道德问题,而是一个法律问题,所以,请看好你家的爬虫。

本文分享自微信公众号 - 罗超频道(luochaotmt)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Basho融资2500万美元,NoSQL数据库成投资新宠或逆袭

对于Basho来说,去年是一个过渡时期。Basho前首席执行官Greg Collins、首席技术官Justin Sheehy以及首席架构师Andy Gross全...

20490
来自专栏云计算D1net

信息泄露事件频发 到底是不是云服务的错

在5月初,国内首个基于大数据的网络犯罪研究报告正式发布。报告显示,中国公民已经泄漏的个人信息多达11.27亿条,数目大的惊人。那么让我们回顾一下过去的2014年...

39750
来自专栏知晓程序

这 5 款小程序,教你好好「育人」

孕育小生命的过程,是一段感受着他在肚子里一天天地长大,直到这个充满全家期待的新生命呱呱坠地的暖心经历。

9640
来自专栏企鹅号快讯

微信小游戏正式上线,H5游戏迎新机遇

游戏头条 微信号:gametoutiao(←长按复制) 中国首家顾问式新媒体定制属于您自己的媒体内容 导语:12月28日,微信更新至 6.6.1 版本。微信公众...

30490
来自专栏腾讯研究院的专栏

北京高院石必胜:链接不替代原则

10月24日,由腾讯互联网与社会研究院与《中国版权》杂志社联合主办的“第二届中国互联网新型版权问题研讨会”在京举行。本次论坛的主题是内容聚合与深度链接的法律...

34270
来自专栏Netkiller

浅谈技术型企业管理

浅谈技术型企业管理 过去15年的职业生涯,我服务过很多企业,从一线员工到资深工程师以及各种管理角色。于是也想谈谈我的管理经验与大家分享。 从08年开始从技术慢慢...

37370
来自专栏安全领域

物联网解决的问题

我们问了20个不同行业的企业高管这个问题。他们的回答如下,物联网的作用,只有你想不到。

41760
来自专栏PHP在线

从程序员的角度谈创业三年

关于决定是否创业 2012年4月,正好三年前整,在深圳能源正混的郁郁不得志的时候,大学的好兄弟找到我一起创业,他们有钱、有idea,就是差人,当时的我还是技术菜...

40760
来自专栏知晓程序

微信品牌形象店 WeStore 开张了!但进门得先借助这 3 个小程序

8 月 28 日,微信的品牌形象店 WeStore 在微信总部所在的 T.I.T 创意园区开业了。

18100
来自专栏云计算D1net

云服务的墨菲定律

最近《星际穿越》很火热,各路评论和科普帖在网络上频繁出现,其中提到的墨菲定律更是时时被热议。 墨菲定律主要内容是:如果事情有变坏的可能,不管这种可能性有多小,它...

37290

扫码关注云+社区

领取腾讯云代金券