首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据泄露频发,数据水印技术如何做到事后溯源追责?

数据泄露是一个老生常谈的安全话题。据不完全统计,平均每天有十起以上公开曝光的数据泄露事件,从暗网数据交易监控到的各个行业数据泄露,到新冠疫情期间频频发生的公民个人隐私泄露。从泄露原因看,既有外部黑客攻击因素,也与内部员工泄露有关。在企业内部场景中,发生数据泄露后如何追究是哪个员工泄露了数据?在数据分发或与第三方数据共享的场景中,如何通过泄露数据进行溯源取证——具体是哪家组织/第三方由于安全失责原因导致了数据泄露?数据水印(或称数据库水印)作为一种有效的针对泄露溯源场景而兴起的安全技术,近年来由于安全需求的驱动受到了广泛关注。本文首先将介绍数据库水印的背景,然后重点阐述数据库水印的基本原理,最后介绍其在两类典型场景的应用——针对企业员工、以及组织机构的泄露溯源。

01

大数据脱敏

大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。本文首先分析了数据泄露可能带来的风险,然后详细介绍了数据脱敏技术的理论基础与常用算法,最后介绍了一个基于大数据平台的数据脱敏解决方案。

04

NC:数据泄漏会夸大基于连接的机器学习模型的预测性能

预测建模是神经影像学中识别大脑行为关系并测试其对未见数据的普遍适用性的核心技术。然而,数据泄漏破坏了训练数据和测试数据之间的分离,从而破坏了预测模型的有效性。泄漏总是一种不正确的做法,但在机器学习中仍然普遍存在。了解其对神经影像预测模型的影响可以了解泄露如何影响现有文献。在本文中,我们在4个数据集和3个表型中研究了5种形式的泄漏(包括特征选择、协变量校正和受试者之间的依赖)对基于功能和结构连接组的机器学习模型的影响。通过特征选择和重复受试者产生的泄漏极大地提高了预测性能,而其他形式的泄漏影响很小。此外,小数据集加剧了泄漏的影响。总体而言,我们的结果说明了泄漏的可变影响,并强调了避免数据泄漏对提高预测模型的有效性和可重复性的重要性。

01
领券