你弄明白要分析什么数据了吗?

估计大家听大数据听得太多,耳朵都快起茧了吧?谁要IT界不如娱乐界那么精彩热闹,几年才憋出一个流行词,自然大家只要提到数据,都说“大”;提到服务,都说“云”。

言归正传,你弄明白大数据分析要分析什么数据了吗?(弄明白的高手可以直接飘过;没弄明白的,看下面的内容能不能涨姿势)

我们先来简单聊几句有关大数据分析工具的背景。无需置疑,现在大数据平台和大数据分析工具日益普及,作用是可以帮助企业收集和分析数据,好处是可以寻找有价值的商业信息和洞察,以改进产品与服务。大数据分析工具用于分析数据,可以开发预测模型(predictive model)和规范模型(prescriptive model)。在现代化的业务流程应用中,嵌入这些模型能够提高企业的生产力和价值。同时,使用大数据分析工具可以轻松进行扩展,获取通常在大数据平台才有的可用资源。

其实,大数据分析工具经常提供的技术,一般而言,都不算什么新鲜事物。只是到最近这几年,数据挖掘算法的强大功能才被主流商业用户采用,它可以结合海量数据、多种数据类型和不同的数据结构,对数据集进行预测性分析(predictive analyses)和规范性分析(prescriptive analyses)。

但在用户看来,大数据分析仍然是一种新兴的企业级功能,要像靠它达到预期收益,一定存在风险,还要投入很大的时间成本。所以,在决定投身之前,一定要弄清楚怎样判断什么样的大数据分析适合你的企业?

有一个概念可以很清楚地区分大数据分析和其他形式的分析:要分析的数据有多大的数据量、数据规模如何和数据是否呈多样性。在过去,通常是从非常大的数据库中提取样本数据集,建立分析模型,然后通过测试再调整的过程加以改进。而现在,随着计算平台能够提供可扩展的存储和计算能力,可分析的数据量几乎不再受任何限制。这意味着,实时预测性分析和访问大量正确的数据可以帮助企业改善业绩。这样的机会取决于企业能否整合和分析不同类型大数据。以下四大类数据就是大数据要分析的数据类型:

交易数据(Transaction data)

大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。

人为数据(Human-generated data)

非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。

移动数据(Mobile data)

能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。

机器和传感器数据(Machine and sensor data)

这包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)。

作者:David Loshin翻译:Shirley来源:TechTarget

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【观点】大数据不是万能的,它不适合处理这10件事情

许多企业领导人开始接纳大数据处理并期待神奇和奇迹,但却发现大数据带来新的复杂性——且从中获益所需要付出的努力要预计中的多得多。 ...

25550
来自专栏鹅厂网事

Linux基金会执行董事Jim Zemlin:2016年将是网络开源项目起飞的一年

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

21490
来自专栏重庆的技术分享区

为什么你应该有一个数据治理策略

原文地址:https://dzone.com/articles/why-you-should-already-have-a-data-governance-st...

23460
来自专栏Java学习网

程序员每天都在使用的6个惊讶的软技能

如果你想要开启作为web开发人员的职业生涯,那么你需要涉及的不仅仅是知道如何写代码。 有一些通用的软技能几乎可用于每个领域——包括技术行业。 成为软件开发人员涉...

30850
来自专栏ThoughtWorks

3分钟视频 | 我们在技术雷达峰会聊什么?

5月13日,由ThoughtWorks主办的2017技术雷达峰会在北京圆满落下帷幕。我们用1天时间,呈现了13个精彩话题,主要围绕以下三大主题: 最新卷技术雷...

35360
来自专栏Java架构

腾讯T4高级Java工程师十年技术之路的思考与感悟(技术与管理)

298100
来自专栏AI科技评论

业界 | 苹果确认收购了一家斯坦福血统的暗数据分析公司

AI科技评论了解,苹果近日收购了一家数据挖掘和机器学习公司LATTICE(网址Lattice.io)。这家公司的前身是斯坦福大学计算机学院的研究项目DeepDi...

315100
来自专栏SDNLAB

软件定义时代的数据中心安全

据IDC预测,从2010年到2020年数据总量将从4.4兆GB成长到44兆GB,作为数据信息资源集散地的数据中心表示压力山大。 有数据显示2018年35%的消费...

32340
来自专栏大数据钻研

程序员每天都在使用的6个惊讶的软技能

如果你想要开启作为web开发人员的职业生涯,那么你需要涉及的不仅仅是知道如何写代码。 有一些通用的软技能几乎可用于每个领域——包括技术行业。 成为软件开发人员...

29990
来自专栏企鹅号快讯

物联网平台的采用将成为2018年首要IT发展趋势

【天极网家电频道】智能对象存储、分析和人工智能,以及敏捷方法在企业中的全面扩展,将成为来年的主要趋势 北京,2017年12月28日——HitachiVantar...

21350

扫码关注云+社区

领取腾讯云代金券