首页
学习
活动
专区
工具
TVP
发布

基于暗数据发现的医疗数据安全治理

文 | 杭州美创科技有限公司总经理 柳遵梁

高级产品经理 杭亮

数据安全的保护对象是数据,只有对数据具有一个基本认知之后才可以实施适当的数据保护措施。但不知道数据在哪里、不清楚数据的含义、不了解哪些是重要数据或敏感数据⋯⋯这些问题的存在导致数据安全防护难以有效的开展。

针对这些问题,美创科技推出了基于暗数据发现的医疗数据安全治理方案,从认识数据出发,对医疗行业数据进行梳理,并基于安全角度对数据进行分类分级,将结果运用于医疗数据安全防护以及数据治理的开展。

医疗数据价值的广泛认知和相对脆弱的防御措施是造成医疗行业各类安全问题频繁发生的主要原因。事实上,医院中有85%的数据都是暗数据。所谓的暗数据是指组织在常规业务活动中收集、处理、存储的信息资产,但通常无法用于其他用途的信息资产。受限于人、技术和工具,去厘清企业内部大量存在的暗数据,全面认知数据资产是非常困难的。通过传统人工的方式对企业的敏感信息资产进行梳理不仅工作量巨大,而且效果也不理想。

如何进行暗数据发现,并全面认知数据?美创科技提出“通过数据去认识数据”的理念,因为数据本身就拥有自己的特征,比如数据的类型、长度、编码、数量、创建人、创建时间、最近一次数据的修改时间、数据的上下文等等。对数据特征利用的越充分,就能更全面的认识数据。美创暗数据发现和分类系统,通过模型匹配、数据统计和机器学习等技术手段,首先将企业内部的暗数据进行阳光化,再将数据整理成分类有序、容易理解、有业务价值的数据。

暗数据发现的流程分为四步:探查和定位数据、扫描并发现数据、梳理数据关系、数据分类分级。

第一步是探查和定位数据,知道数据在哪里。医院数据分布非常广泛,数据探查的关键在于是不是能找到全部的数据,这些数据发现出来是否准确。因此在通常基于端口扫描技术的基础上,还要基于流量解析技术,分析不同应用的流量包特征,构建强大的指纹库,从而精确识别不同端口上的相关应用,从而大大提高数据库探查的准确性。

第二步扫描和发现数据,知道有哪些数据。医院的数据类型包括常见的结构化数据,电子病历等半结构化数据,还包括影响文件、日志等非结构化数据。目前暗数据发现系统中内置了超过3000个数据标准,数据条目超过百万条,在此基础上形成多个行业的发现模板。例如医疗行业就内置了ICD-9,ICD-10等国内外数据标准。通过发现和分析的结果,可以清晰地查看到数据的基础元数据及含义。

第三步是梳理数据关系。结合大数据分析、数据库元数据解析技术,就能依赖计算机的强大数据处理能力对复杂的医院数据关联关系进行轻松识别。在数据关系的展示上,系统通过可视化的数据关系地图、详细的表格关联E-R图等,为用户呈现出全方位的数据关系图谱,并支持用户对于系统识别的弱关系进行确认。

最后一步是进行数据分类分级。对数据进行分类分级,有助于机构厘清数据资产、确定数据重要性和敏感度,并针对性的采取安全防护措施,在保证数据安全的基础上促进数据开发共享。数据分类分级的前提是对数据进行了发现和梳理,理清本机构的业务条线再进行业务的细分,并结合数据资产进行数据分类。在数据分类的基础上,我们针对每类数据,通过影响对象、影响范围、影响程度,并结合数据体量、时效性等维度进行综合分析后对于数据进行定级。

整个暗数据发现梳理完成后,系统会提供一份全面、直观、多维度的数据分类分级报告以及明细清单,呈现数据分类和分级的分布和详细情况,并将结果应用到后续的数据安全和数据治理的开展中。

(本文刊登于《中国信息安全》杂志2019年第12期)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200103A0I1KY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券