首页
学习
活动
专区
工具
TVP
发布

企业数据科学成熟度模型评估(7)-数据访问维度

每日一句

五岁时,妈妈告诉我,

人生的关键在于快乐。

上学后,人们问我长大了要做什么,

我写下“快乐”。

他们告诉我,我理解错了题目,

我告诉他们,他们理解错了人生。

——约翰·列侬(伏强)

在今天的数据科学成熟度模型(DSMM)维度讨论中,我将重点关注“数据访问”:

数据分析师和数据科学家如何请求和访问数据?

如何控制,管理和监控数据的访问?

当我们考虑“数据访问”时,其中的定义指的是“与存储,检索或处理数据库或其他存储库中的数据相关的软件和活动”,通常与授权相关联 ,包括允许访问的内容 ,审计谁,何时,何地访问过什么。 有时候数据访问可以在很少或完全没有控制的情况发生,比如当访问某人没有加密的U盘时。或者通过安全数据库认证和计算机网络认证来进行严格的访问控制。 数据访问不仅考虑到用户方,还考虑了管理员有效管理数据访问生命周期的能力 - 从初始请求到撤销权限和使用后数据清理。

和以前一样,我们将讨论“数据访问”维度的5个成熟度等级中的每一个:

级别1:数据分析师通常通过从IT或其他来源直接获得的平面文件来访问数据。

一级企业的数据科学公司使用历史上被称为“sneakernet”的东西。如果您需要数据,直接找到数据所有者,通过U盘或移动硬盘,然后将其加载到本地计算机上。当然,有时候这已经变成向数据所有者发送电子邮件请求,并通过电子邮件获取所请求的数据。以这种方式提供对数据的访问显然是不安全的。此外,在第一次尝试时不太可能获得“正确”的数据,因此数据所有者可能需要多次迭代操作。这会导致延迟,甚至使这些数据所有者非常烦恼。

第2级:通过直接程序数据库访问提供数据访问。

在二级企业中,sneakernet被认为是不安全和低效的。此外,由于许多企业数据存储在数据库中,因此更容易启用授权和编程访问。通过方便的API(ODBC,R和Python包等)直接访问数据库,可以为数据科学参与者提供更多数据,从而缩短数据请求周期。但是,除了数据存储库/环境本身可能的任何处理(例如,关系数据库的SQL)之外的任何处理仍然需要将数据提取到客户端机器,这可能具有安全隐患。

第3级:数据科学家已经对大容量数据进行了身份验证,可编程访问,但数据库管理员很难管理数据访问生命周期。

3级企业正在经历数据访问增长的痛苦。数据科学家现在可以访问大量数据,并希望在他们的工作中使用更多数据。数据库管理员充斥着对广泛(多模式)和窄(单个表)数据访问的请求。确保个人获得适当的批准以访问他们所需的数据并可能实施数据屏蔽导致数据访问请求积压。3级企业也开始用新的“大数据”存储库补充传统的结构化数据库数据,例如HDFS,NoSQL等。这些数据量更大的数据包括从社交媒体数据到传感器/图像/文本/语音的任何内容数据。

第4级:使用识别管理工具更严格地控制和管理数据访问。

虽然某些行业的企业(例如财务部门)将在不同程度上解决访问控制问题,但在更广泛地解决数据访问问题时,4级企业了解用户身份的端到端生命周期管理的重要性,并开始引入工具加强安全性并酌情简化合规性。 4级企业的目标是使数据科学参与者更容易请求和接收数据,同时还使管理员更容易管理,尤其是在引入更多大数据存储平台时。企业范围的自助服务访问请求Web应用程序可用于促进请求和授予数据访问。理想情况下,这将与用于数据感知的元数据管理工具集成。

第5级:数据访问沿袭跟踪可实现明确的数据推导和来源识别。

5级企业已经对身份管理和审计进行了标准化,以支持安全的数据访问,现在关注的问题是“产生此结果的数据的来源是什么?”即使在利用企业数据仓库的企业中,数据仍可以复制到其他数据库,或利用各种网关提供对远程数据的透明访问。 5级企业可以跟踪数据科学工作产品的衍生 - 它们的血统 - 与实际数据源的验证。

在我们明天的文章中,我们将介绍数据科学成熟度模型的“可扩展性”维度

分享:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180711G08EXE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

加入 开发者社群

领取 专属20元代金券

Get大咖技术交流圈

扫码加入开发者社群
领券