终于可以揣着糊涂装明白了

严肃中带着一点尬聊,尴尬中又不失小调皮,调皮中还有知识点……远算的朋友们,今天只耽误大家2分钟时间,简略中透着聪明地了解一下大数据、数据挖掘和机器学习。它们在人类的智慧之中,但又能做超越人类能力的事情。

数据挖掘和大数据可以做什么?简而言之,赋予人类预测未来的能力。

我们的生活已经数字化了

每天我们做的任何事情都可以被记录,而且正在被记录。

任何的行为都是数字化、可追踪的。只要出现在公共区域,各种监控器、摄像头就时刻为我们“留影”;企业中的财务和操作数据都被存储在各种ERP中;随着各种可穿戴设备的兴起,甚至每一次心跳和呼吸都会被数字化,并存储为可用数据。

一切都被数字化了,也正是在数据能够达到如此规模的时代,计算机才真正能够开始更好的“理解”世界。

如果模式不变,过去即现在,也是未来

许许多多的事情都在展示它们固有的模式。比如,一个人通常在工作日会往来于住所和公司之间,而不上班的日子就会看个电影或者度个假,而这种模式几乎不会变化。一个商店在任何一天中都总有忙时和闲时,这一模式也不会变化。一家企业总会在一年中有那么几个月很忙,这个模式也不会变。

太阳底下无新事,世界上的大多事物,都在按照固有的规律和模式运行。比如我们的同事李狗蛋,工作日通常就是乘坐地铁往返于住所和公司之间,不上班的日子就是看电影或者找个近郊度假,这种模式几乎不会变化。远算楼下的餐馆,也总是在一天中有固定的忙时和闲时,老板会在闲时去隔壁河边钓鱼,这时候服务员王小花就开始和隔壁理发店同样没事做的Tony哥哥相约一起吃鸡。企业也是一样,总会在一年中有那么几个月很忙,这个模式也非常固定。

太多的人事都像手里只有一个剧本,只能反复上演一出戏码。于是我们可以得出这样的结论:如果某种模式确实在过去和现在不断呈现相同的状态,那么计算机就可以借此预测未来。

如果计算机能够预测人类生活,那它就会准确找到最佳时机。

比如知道某个人总是喜欢在每年的三月外出旅游,那就可以给他推荐相关的酒店折扣券;若知道一个人总是倾向于每周五洗车,那么就可以适时的推销服务。对于更大的商场来说,计算机可以细致到预测一天中各时段的商场销售额,然后调整商业策略,实现效益最大化。而在企业中,计算机也可以通过预测,合理安排工作负载,帮助设计最佳运营方案。

如果未来都变得可以准确预测,那我们就可以提前计划,以便做出最佳行动。就像《骇客帝国》里的Leo,正因为他能清楚地看到子弹的来路,所以可以轻松的躲避所有子弹。而福尔摩斯也说过,“对数学概率更高级的把握,对心理学的透彻理解,对任何个人的性格体察,都能够大幅度地降低事件中的变化因子”,换句话说,“大数据有能力预测未来”。这也就是数据挖掘的作用。

名字叫“大数据”,自然是需要足够多的数据才能用、才有用,所以大数据总是和数据挖掘绑在一起,这样才能为一切预测提供基础。

所以到底什么是大数据、数据挖掘和机器学习呢?

大数据

当数据量变得非常庞大,很明显的,用一台计算机处理数据就变的不太可能。一个非常大的文件,比如说1000TB,除非把它拆解,否则很难打开。大数据就是基于这样的原因产生的。你可以把它想象成一个特殊的软件,它能把一个巨大的文件切分成很多很小的部分,然后就能被许许多多的计算机进行处理。这个切分和整合数据碎片的过程,就叫做MapReduce。而通常为这个过程服务的软件框架就是Hadoop。

Hadoop解决的是基础问题,相应的,会有一大堆工具,比如Pig、Zookeeper、Hiv(不必记得这些名词),帮助Hadoop一起,把这个过程变得简单。Hadoop和这些不断革新的工具一起,就是大数据的技术了。

机器学习

我们现在已经知道了一点关于数据如何被处理的知识,假设这部分数据包含了一组购物者的购买行为,包括总共买了多少东西,每个购物者又买了多少之类的,那这就是一个很简单的数据分析。然而,如果我们的目标是分析不同消费者之间的关联性,或者如果我们想推测特定品类购买者的特定偏好,或者去预测任何一个购买者的性别、年龄等,就需要用到更复杂的模型,也就是“算法”。

随着各种各样为了数据挖掘需求而产生的算法发展起来,比如逻辑回归(logistic regression)、决策树(decision tree)、协同过滤(collaborative filtering)等等,机器学习能够理解的更好更透彻。

数据挖掘

通过对机器学习算法的应用,现有的数据就可以被用来预测未知,这也就是为何数据挖掘的奇妙必须与机器学习紧密相连;同时,任何机器学习算法能力的发挥都严重依赖海量数据集的提供。一定要记住,无论算法如何复杂,令人激动的预测都不可能仅通过几行数据产生,大数据是根基。

大数据技术是机器学习的前提,通过运用机器学习,我们能够从现有的数据集中获得有价值的洞察,而这,就是数据挖掘。

远算智能以下一代的高性能云计算技术mobilized HPC为基础,除了为企业提供全系高性能公有云、私有云、混合云解决方案外,也提供大数据、AI、数据管理相关技术服务,形成服务闭环,帮助企业加速探索与创新。当然啦,如果想要借助大数据升职加薪、迎娶白富美、走上人生巅峰的话,远算也可以助你一臂之力。不过看完这篇文章,已经大致明白了什么是大数据、数据挖掘和机器学习,那就已经完成了变身时代弄潮儿的第一步。

更多干货,未完待续。

文章主体部分翻译自:

octoparse.com,understanding-big-data-data-mining-and-machine-learning-in-5-minutes.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180913A1TPZX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券