首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据爬取治理:最新研究报告梳理困境、难点、风险和建议

网络爬虫今年备受关注,其监管问题一度成为企业、行业、监管部门的关注焦点。但从网络爬虫的行为和结果上看,将其管理称为“数据爬取治理”更为贴切。

为了高效实现数据采集,互联网企业将数据爬取视为重要的技术手段,但网络上数据的所有权属于谁呢?如果爬取的数据被滥用了呢?数据爬取在治理中如何平衡发展与安全呢?业界讨论纷纭。最近一项研究报告《数据爬取治理报告》指出:数据基本权属仍无定论;数据爬取是否涉嫌违法犯罪,主要依赖于行为人在数据爬取的“访问进入--获取数据--使用数据”三个阶段下行为的综合考量。

该报告是上海数据治理与安全产业发展专业委员会的最新研究成果,在11月28日CIS 2019互联网安全创新大会上发布。上海公共数据开放水平居于国内前列,已连续第三年在全国各省级地区排名中获得第一(参考:城市大数据思维:上海的开放与共享),对数据治理、数据爬取治理的研究,是上海数据产业高质量发展的需要,也是数据产业良好生态的保障。

《数据爬取治理》有几大部分,分别为数据爬取概述、数据爬取的现实法律风险、数据爬取的治理困境及难点,数据爬取的治理原则和建议,附录-国内外相关案例。

其中“数据爬取的现实法律风险”最值得企业关注与学习。报告中划分了数据爬取的三个阶段,并详细分析这三个阶段行为的法律风险:例如在“进入”环节,使用数据爬虫技术进入到计算机信息系统内部是否构成违法?关键在于被进入的计算机信息系统“性质”以及是否具备“足够充分授权”在“获取”环节,非法进入且获取数据通常视为违法,那么合法进入或合法性不明的情况下,也有可能视为非法,关键取决于其进入方式和获取数据的类型;而数据爬取的对象类型,包括了个人数据、内容数据、商业数据、重要数据,不同数据类型的法律风险,违法的关键要素、相关法律条文、相关判例,《报告》中都有详尽分析。

回到监管层面,《报告》指出数据爬取将是各类市场主体获取数据不可替代的自动化工具,监管不能“一刀切”,应坚持综合治理,法制化、场景化治理,加强企业(包括技术提供者、数据爬取者、大数据平台、数据使用者)的合规能力

《报告》建议,对于爬虫技术提供者,要求其对技术爬取工具的开发在访问频度、爬取对象等参数上进行必要的技术限制;对数据爬取者,要坚持合法访问第三方计算机信息系统,获取足够充分授权,监督审核数据后续的流向和使用;对大数据平台,加强反爬技术,保护用户数据安全;对数据使用者,要坚持使用合法的数据来源,建立来源的技术和法律审查机制,等等。

虽然《数据爬取治理》报告以监管的视角,对数据爬取提供管理建议,但其治理的层面不仅是数据本身,还有爬取行为和技术。互联网中的各类企业,正是实施行为和使用技术的主体,合法依规才能构建良好的数据产业生态。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191203A0JGJ900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券