前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何进行有效的数据管理

如何进行有效的数据管理

作者头像
程序你好
发布2018-09-29 11:18:37
1.6K0
发布2018-09-29 11:18:37
举报
文章被收录于专栏:程序你好程序你好

数据管理

在过去的半个世纪里,数据管理极大地改变了计算机处理数据的方式。如今,数据可以不按顺序存储,而且仍然可以有效地使用。适当数据管理的有用性并没有丧失,因为它的原则远远超出了数据的存储方式。

在使用数据之前,必须对其进行验证,并且需要有此数据生命周期的内置时间表。需要检查从调查和客户数据中获得的数据,以查找异常值和不正确的条目。

随着消费者需求、人口统计数据和产品的变化,数据最终变得无关紧要。期望从你的企业获得的数据有一个有限的生命周期。

如何存储这些数据及其有用性取决于如何对数据进行分类以及用于度量数据的时间尺度。例如,对于工资和收入,我们尝试在小的时间范围内工作,而对于间接成本,我们在一个月的时间范围内工作。

数据挖掘

根据您的业务规模和数据管理需求,数据挖掘将以复杂性的形式存在。通过数据挖掘,我们可以通过对数据进行一系列检查来深入了解大型数据集,以尝试理解正在出现的模式,或者缺乏这种模式。

最简单的形式是对两个大数据集进行回归分析并搜索相关性。数据挖掘通常被混淆为在已经存储的信息中寻找有用的数据;然而,真正被挖掘的是模式和大数据集的重要性。

数据集成

将数据集组合起来,以便它们可以作为一个整体进行分析,称为数据集成。在商业术语中,它最常用于公司并购。在这种情况下,来自两家提供类似服务和产品的公司的大量数据存在。

为了最大限度地利用所有这些数据,需要合并数据,删除与这两组数据无关的数据。对于并购以外的业务,数据集成也可以以使用来自类似公司的数据的形式出现。一些软件包,如ClearStory Data,将集成来自其他业务和公共记录的数据。

数据仓库

使用来自不具有任何直接关系的数据源的数据,我们将这种不同数据的分析和集成记录称为数据仓库。对于规模较小的企业,这可以通过使用公共记录来支持特定主题的分析。

对于较大的企业来说,这是以使用大公司的数据的形式出现的,这些大公司专门研究不同的学科。虽然数据之间的关系不是直接相关的,但是公司的规模或数据如何被使用的相似性使这成为数据合成的必要步骤。

一起工作

数据管理、数据挖掘、数据集成和数据仓库一起工作,形成最有利于业务的分析类型。

每个组件对于不同形式的分析都是必要的。从数据管理开始,数据集的验证和分类使数据对业务有用。数据挖掘是重复的步骤,是对数据进行扫描,以获得有用的模式和统计数据。这是通过数据集和其他统计数据之间的回归来实现的,以找到描述数据整体的新兴模式。

数据集成是跨多个业务的数据集的组合,支持可以从任何一个数据源挖掘的数据。数据仓库的合并数据集不相关类型的分析,不可能在任何一个数据集完成。对于数据仓库,想象一个公司使用自己的记录销售的产品或服务,并关联数据从公共记录在公共交通工具上接地点。

这两个数据集没有任何共同之处,但如果目标是将产品的销售与使用这种交通方式的人群联系起来,那么可以将它们结合起来。这些数据集一起属于数据管理的范畴,然后可以用于进一步的挖掘或数据集成。

(请关注公众号:程序你好)

如何处理和管理大数据

无论您的业务规模如何,都有几个原则可以最大限度地利用您的数据。一个关键的挑战,取决于你的公司的规模,是指数增长的数据收集和处理。

处理如此大量的数据并有效地处理它可能是一个挑战,但遵循这些规则将在此过程中帮助您:

1、您必须将数据存储在可以通过多个源访问和处理的中心位置。

2、必须对数据进行筛选,以删除常见的重复项,特别是在数据集成之后。

3、必须对数据进行保护和保护,在可能的情况下将客户的足迹从个人数据中抹去。

根据数据量的不同,最好使用第三方或自己备份数据,以防止信息丢失。敏感数据必须定期处理,客户也要意识到数据的保留。

根据您的业务,这些原则中的每一个都将是必要的和可行的。最重要的是,数据要保持在可以由多个程序处理的状态,最好的方法是对数据进行适当的分类,以及数据检索的标准化。

对于所有企业来说,在给定时间后处理客户数据都是必要的,但同样重要的是要从上述数据中清除客户足迹。这意味着将具有可识别信息的数据转换为元数据,这些元数据可以使用,但不能追溯回个人。

数据的安全性也很大程度上取决于公司的规模。非常小的企业可以在本地存储数据,甚至自己备份这些数据。存储成本非常低廉,这对于许多企业来说都是一个合理的解决方案。在执行此路径时,必须负责任地处理对存储此数据的位置的访问。

允许跨网络的多个用户访问这些数据可能是必要的,但确保数据存储库保存在安全的计算机上是非常可怕的。云服务解决了许多大型公司的数据存储和访问问题,在本地备份这些数据是一种选择,如果云服务器出现故障,还需要为重复数据支付额外费用。这取决于您购买云服务的公司。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序你好 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据管理
  • 数据挖掘
  • 数据集成
  • 数据仓库
  • 一起工作
  • 如何处理和管理大数据
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档