有组织的捅马蜂窝违法了吗

今天的朋友圈被《我承认,我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」,通过爬虫技术结合大数据分析,披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据,被马蜂窝以名誉权纠纷为由状告法院。

在我看来,以下几个要点可能会影响案件判罚结果:

  • 案件管辖权分配
  • 证据保全公证
  • 爬虫获取数据是否违法

一、案件管辖权

今年上半年今日头条和腾讯因为抖音被微信屏蔽事件,双方大战了 300 个来回,最终都向法院提起了诉讼。有意思的是,如果腾讯是原告,通常会向深圳市南山区人民法院起诉,而今日头条则会优先选择北京市海淀区人民法院。

这是为什么呢?(提示:可以从纳税人的角度思考)

当然是为了判罚的公正性嘛。

所以这个案子,很多人会建议深圳的「乎睿数据」团队向法院提请「管辖异议」,案件的管辖权应当由「北京市朝阳区人民法院」转给「深圳市南山区人民法院」。

第十五条 侵害信息网络传播权民事纠纷案件由侵权行为地或者被告住所地人民法院管辖。侵权行为地包括实施被诉侵权行为的网络服务器、计算机终端等设备所在地。侵权行为地和被告住所地均难以确定或者在境外的,原告发现侵权内容的计算机终端等设备所在地可以视为侵权行为地。

——《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》,https://www.chinacourt.org/law/detail/2012/12/id/146033.shtml

二、证据保全公证

文章还提到,马蜂窝清理脏数据的效率十分迅猛,涉嫌造假的 1000 多万条数据分分钟就清完了(给马蜂窝未雨绸缪的技术架构点个赞)。

事实上,在互联网 big brother watching big data 时代,信息残留无处不在。以网站数据为例,不但云服务器上会留下各种 backup,各大搜索引擎也会 cache 数据,Web Archive 上甚至还能查到许多站点 10 年前的版本(例如 2005 年的支付宝首页)。

诉前证据保全公证工作(以及各种作品和数据的原创保护)甚至都不用去线下找公证处,通过在线的第三方服务就能完成,因为网上的数据流是有时间属性的。例如,你可以给自己的 QQ 邮箱发送一封带附件的邮件,用来证明这个附件里的内容你是全网首发,从而来保障自己的著作权。

中国科学院国家授时中心提供了一个在线的「联合信任时间戳服务」(http://www.tsa.cn),只需要 10 块钱,任意大小的数据包上传打个时间戳,就能完成法院认可的证据保全公证程序。

三、爬虫获取数据是否违法

前几年猫哥在外创业,团队里有个从快播来的技术大牛,那爬虫技术是相当优秀。

公司让他们用爬虫抓了不少 1024 小电影和未经授权的影视作品,后来在一次突击检查中,服务器被查获了,领导们也进了局子。

技术人员写爬虫程序,抓取第三方站点数据,是一项很常见的操作,但同时也是一个高危操作。

1. 不遵守 robots.txt 违反《反不正当竞争法》

robots.txt 爬虫协议是国际通用的商业惯例,任何站点可以通过 robots.txt 来引导爬虫,站点上哪些内容是开放的,哪些是禁止抓取的。

2012 年百度诉 360 违反 robots 协议案,以 360 败诉告终。

马蜂窝估计也考虑到这个问题了,今天下午 5 点 38 分 42 秒(Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT)更新了站点的 robots.txt 协议,将原来未做限制的爬虫 UA 和目录进行了限制。

2. 抓取涉及用户隐私与商业机密的数据违反《网络安全法》

根据《网络安全法》与相关司法解释,爬虫如果抓到了涉及用户隐私与商业机密的内容必须予以删除,情节严重的要负刑事责任。

(三)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;
(四)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;
(五)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的;

—— 《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条, http://www.spp.gov.cn/xwfbh/wsfbt/201705/t20170509_190088.shtml

3. 非法获取计算机信息系统数据罪

爬虫如果采用类似黑客暴力破解手段获取数据,或因此导致对方站点服务不可用,可能触犯「非法获取计算机信息系统数据罪」。

第二百八十五条 违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。
违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。{刑法修正案(七)增加第二款、第三款}

—— 中华人民共和国刑法(修订),http://www.spp.gov.cn/spp/fl/201802/t20180206_364975.shtml

所幸的是,以上三条爬虫红线,梓泉和乎睿团队都没有违反。不知马蜂窝大佬接下来将如何应对?

我相信,借助技术和法律的力量,小个体总有扳倒大集团的那一天。


身为技术人,我们一直以来关注的都是技术和能力,这既是我们安身立命的本钱,也是自身价值的体现。但专业技能不是生活的全部,真遇到一个与法律有关的烦心事,或许会让你无心上班甚至失去工作。

而事实上,法律是人人都要面对的话题。比如,翻墙有风险吗?期权被坑怎么办?用盗版图有什么后果?突然被 HR 叫进办公室说要辞退你,该怎么应对?办公室性骚扰,怎么对抗?发生交通事故,怎么处理?

原文发布于微信公众号 - 猫哥学前班(imgXQB)

原文发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员宝库

Python强势霸榜,彻底甩掉Java!2018 IEEE热门编程语言排行榜;苹果官方代码又泄密了;RxJava 2.2.0

0、Python 强势霸榜,四项第一,2018 IEEE 热门编程语言排行榜出炉

2691
来自专栏VRPinea

VR运动模拟器Feel Three登陆Kickstarter,5小时完成众筹目标

美国东部时间本月28日,VR运动模拟器Feel Three登陆Kickstarter开启众筹,并于5小时内完成众筹目标。

1122
来自专栏Data Analysis & Viz

手把手教你完成一个数据科学小项目(9):情感分析与词云

请先阅读“中国年轻人正带领国家走向危机”,这锅背是不背? 一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。

1705
来自专栏腾讯研究院的专栏

詹映:“通知-移除”规则在网络交易平台专利侵权中的适用

詹映  中南财经政法大学知识产权学院副教授 一、问题的提出   “通知-移除”规则(notice and take down),原本是在网络著作权侵权领域为...

3405
来自专栏大数据钻研

你在网吧里写过代码吗?

知乎「在网吧写代码是怎样一种体验?」 ? (图@张同学) @Vivu 装完开发环境,重启,没了 @落在起风的地方 写了个哈喽沃德 哎 打刀塔吧 @Debby 去...

4155
来自专栏华章科技

魔性程序员喊麦:一人我编程累,献给所有的IT精英们

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

1013
来自专栏企鹅号快讯

禄丰法院启用智慧语音助手 迈开人工智能第一步

安装使用“法官助手” 开启“语音录入”智能模式 “本院认为,公民享有生命健康权,公民、法人由于过错侵害他人财产人身的,应当承担民事责任……”12月26日,在禄丰...

2266
来自专栏黑白安全

卡巴斯基报告带你了解真实的暗网

暗网,一直以来都像是一个神话一样,目前来看它主要是为网络犯罪分子们提供匿名操作并掩盖其秘密的地方。也正因为暗网为犯罪分子提供了避难所,使得他名声大噪并且显得更为...

2392
来自专栏机器人网

无人机软件架构知多少?

AIAA的会议论文(Infotech@Aerospace 2012),从计算机角度阐述了无人机软件架构,由易科机器人实验室(ExBot.net)分享。 文献信息...

4499
来自专栏FreeBuf

黑产白皮书 DDoS 篇——乌云笼罩下的产业百态

知己知彼,百战不殆 ——《孙子·谋攻篇》 谋攻是《孙子兵法》的第三篇,主要讲的是 以智谋攻城,揭示“知己知彼,百战不殆”的规律。当你面对 DD...

2077

扫码关注云+社区

领取腾讯云代金券