总结非结构化数据分析「十步走」

作者 | Kimberly Powell 翻译 | Nora

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。

如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长过程中做出正确决策,企业必须充分了解结构化和非结构化数据。下面列出的10个步骤,将为企业非结构化数据的成功分析提供借鉴。

1. 确定一个数据源

对于小型企业而言,了解对其有利的数据源尤为重要。你可以使用一个或多个数据源来采集与你业务相关的信息。但通过随机数据源收集信息远非明智之选,因为这个过程极有可能破坏数据甚至造成部分数据丢失。因此,建议在开始采集数据之前,预先调查相关数据源。这里你可以用到一些在线大数据开发工具来进行数据采集工作。

2. 管理你的非结构化数据检索

按照结构化与非结构化划分,这两类所采集到的数据在使用上也有所不同。查找和收集数据只是其中一小步,搭建非结构化数据检索并赋予其可用性则完全是另一件需要头疼的事。这第二步同收集数据一样都很重要,但如若管理不当,将对客户以及企业自身产生不小的负面影响。这就需要企业在非结构化数据量激增之前,先投资一个不错的业务管理工具。

3. 清除无用数据

在数据收集与结构化之后,我们来到了第三步——数据清除。虽然大多数数据只会进一步推动企业发展,但有时也会造成不小的麻烦。如果非结构化数据在企业业务的硬盘驱动器、存储或是备份中占用太多空间,就极有可能会损害企业发展动力。对无用数据进行清除,将进一步减少混乱,同时避免在无意义数据身上浪费时间。

4. 准备存储数据

这里的数据准备工作指的是删除数据中的所有空格、格式化问题等。到一步,当你拿到所有数据时,无论其对业务而言是否有用,一旦数据准备完成,就可以开始构建数据堆栈,并为非结构化数据制定索引。

5. 数据堆栈和数据存储的技术选型

在清除无用数据之后,构建数据堆栈会是一个理想化的选择。这里请务必选用最新的技术来保存数据及构建堆栈,以便企业及内部与数据打交道的员工能够在第一时间轻松get重要的强制数据。此外,请确保你有一个持续维护更新的数据备份,以及数据恢复服务。

6. 保留为存储数据

这一点看起来似乎显而易见,但还是要提醒大家注意:在进行任何删除操作之前,都务必要确保数据已保存——无论时结构化数据还是非结构化数据。近段时间,全球范围内的多起灾害性事件都在向我们强调,特别是在危机时期,实时更新数据备份恢复系统必不可少。世事难料,你不知道哪一刻你的数据就被清空了。因此,就需要提前对此做好充分的准备,要经常对工作进行保存。

7. 检索恢复有用信息

在数据合理备份之后,就可以开始恢复数据了。这一步也相当重要,因为在完成非结构化信息转换之后,还会需要检索恢复数据。

8. 本体评估

这里如果可以显示信息来源与所提取数据之间的关联就更好了,这将有助于你更好更透彻地理解有关数据组织的内容。企业往往需要能够解释你所采取地步骤和选用地流程,因此,你需要将这些记录下来,以便之后的模式识别以及对进程的持续跟进。

9. 统计记录

如果你已经通过上述所有步骤将非结构化数据检索转换成结构化数据,就可以开始创建统计信息了——对数据进行分类及分段处理以便使用和学习,从而为将来的持续使用奠基。

10. 分析数据

很快我们就来到了非结构化数据索引地最后一个环节。在所有原始数据结构化之后,就需要开始分析并做出与业务相关并对其有益的决策。索引还可以帮助小型企业为将来的进一步使用制定可持续方案。

总结

上述内容并非数据结构化的唯一途径,但该步骤的可行性,以及在制定可持续方案方面的表现已在实践中得到证实。非结构化数据可能会成为阻滞小型企业发展的“数据垃圾”,所以本文旨在帮助这些企业环节由存储数据混杂造成的业务压力。

翻译原文:https://dzone.com/articles/top-10-steps-for-analyzing-unstructured-data-for-s

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2017-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏纯洁的微笑

HRMS(人力资源管理系统)-SaaS架构设计-概要设计实践

https://www.cnblogs.com/hegezhou_hot/p/9753733.html

4581
来自专栏数据科学与人工智能

【ETL工程】大数据技术核心之ETL

抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。 核心技术 架构挑...

56510
来自专栏FreeBuf

数据告诉你:两周时间,你的GPS位置信息被发送了5398次

微信号:freebuf 你知不知道你的手机把你的位置信息发送给各种公司的频率如何?答案是:2周时间,超过5000次。虽然有点吓人,但这却是真的。 卡内基梅隆大...

19710
来自专栏CSDN技术头条

顶尖程序员的五种思维模式,你具备吗?

《THe Effective Engineer》的作者Edmond Lau采访了很多硅谷顶级科技公司的顶尖软件工程师。他发现这些给世界带来巨大影响的的工程师们至...

21410
来自专栏大数据和云计算技术

云​大数据和计算技术周报(第47期)

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

1193
来自专栏韩伟的专栏

如何提高程序员的生产率(下)

目录 3. 开发过程... 12 4. 架构设计... 20 5. 管理激励... 23 三、 开发过程 沟通 软件通常都需要经过很多人和很多次的沟通才能生产出...

3494
来自专栏Java技术栈

DevOps到底是什么鬼?DevOps介绍及工具推荐。

什么是DevOps DevOps是Development和Operations的组合,是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营...

3865
来自专栏吴伟祥

软件开发获取客户需求的十大沟通技巧 转

       成功的软件产品是建立在成功的需求基础之上的,而高质量的需求来源于用户与开发人员之间有效的沟通与合作。当用户有一个问题可以用计算机系统来解决,而开发...

875
来自专栏钱塘大数据

大数据处理过程之核心技术ETL详解

核心技术架构挑战: 1、对现有数据库管理技术的挑战。 2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开...

6056
来自专栏养码场

《王者荣耀》技术总监复盘回炉历程:没跨过这三座大山,就是另一款MOBA霸占市场了

来听听邓君站在技术视角对《王者荣耀》内部的解读:《王者荣耀》如何从从立项之初经历的惨淡时期到华丽的翻盘;它实际原理、问题和优化的思路,和现在见到大部分不同的技术...

1342

扫码关注云+社区

领取腾讯云代金券