跟我一起数据挖掘(18)——什么是数据挖掘(1)

什么是数据挖掘

前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。

先看一上概念:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘简介

数据挖掘说的直白些就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。

价值包括以下几类:

1、相关性

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。用于确定数据之间的变化情况,即其中一个属性或几个属性变化的是否会对其它属性造成影响,影响有多大。

下图就是相关性的示例:

2、趋势

是指将实际达到的结果,与不同时期财务报表中同类指标的历史数据进行比较 ,从而确定财务状况,经营成果和现金流量的变化趋势和变化规律的一种分析方法。可以通过拆线图预测数据的走向和趋势,也可以通过环比、同比的方式对比较的结果进行说明。

如下图所示:

3、特征

看具体分析的内容是什么,比如互联网类,就是用户画像这类的需求,根据不同的用户给用户群打相应的标签。

下图是一个示意图:

展现形式

数据挖掘的结果一般有几种展现形式:

1、表格

最早的一种展现方式,交叉表的展示,如下图:

2、图表

相比于图表更具展现力,让人很直观的就能看出数据的整体情况,如下图:

3、决策树

套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:

女儿:多大年纪了?       母亲:26。       女儿:长的帅不帅?       母亲:挺帅的。       女儿:收入高不?       母亲:不算很高,中等情况。       女儿:是公务员不?       母亲:是,在税务局上班呢。       女儿:那好,我去见见。

这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑:

数据挖掘涉及的领域

数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其他科学紧密相连,如:统计、机器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。

总结

这里简单的介绍了一下数据挖掘的概念以及数据挖掘的展现形式和数据挖掘到底能做一些什么,在后面会继续深和的介绍,以期和大家一起提高。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

16个新手必看的机器学习视频教程

我们很多人都没有注意到,其实 YouTube 上面有大量免费的机器学习的指导课程。你无须再等待 MOOC 课程的更新了,可以在 YouTube 上面找到你想要的...

2.9K7
来自专栏新智元

【快报】机器翻译首次超越人类 | 亚马逊再度挖到深度学习人才

新智元 AI DAILY 1 机器翻译首次超越人类水平 ? 最近实时机器翻译取得了重大突破。10月3日发表的一篇论文中,香港大学和 CMU 的研究人员称,...

3605
来自专栏机器学习算法与Python学习

进阶深度学习?这里有9个给程序员的建议

这名开发者名叫Alexey Gaziev,是一家社交媒体管理创业公司的CTO,原来是一名Ruby开发者,后来自己学习深度学习。

1281
来自专栏算法channel

机器学习是万能的吗?AI落地有哪些先决条件?

这段时间,有幸聆听了几场大牛报告,一位是第四范式,目前工业界应用AI经验最丰富的之一,曾经在百度与吴恩达共同推进AI在工业界的落地;另一位来自学术界,新加坡国立...

1544
来自专栏新智元

《深度学习革命》作者:GAN令我惊艳,现在的人们对AI操之过急了

近日,计算神经科学家、《深度学习革命》一书作者Terrence Sejnowski在接受采访时表示,现在像“深度学习”和“神经网络”这样的流行语无处不在,但是大...

1053
来自专栏量子位

DeepMind让AI系统拥有记忆,教机器学习系统举一反三打游戏

机器学习系统现在适用于很多类型的任务,但它们也有一个共同的问题:学得不一定快,但忘得很快。 比如说,DeepMind训练神经网络玩雅达利游戏时,给系统输入Spa...

3268
来自专栏AI科技大本营的专栏

深度学习哪家强?吴恩达、Udacity和Fast.ai的课程我们替你分析好了

翻译 | AI科技大本营(rgznai100) 参与 | reason_W 引言 过去2年,我一直积极专注于深度学习领域。我对深度学习的兴趣始于2015年初,那...

4196
来自专栏机器之心

观点 | 人工智能的三个阶段:我们正从统计学习走向语境顺应

选自DataScienceCentral 作者:William Vorhies 机器之心编译 参与:黄小天、微胖、李泽南 我们处在人工智能的哪个阶段?我们将要去...

3659
来自专栏AI科技评论

中科院赵军:开放域事件抽取 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

3444
来自专栏EAWorld

基于机器学习预测Airbnb的城市旅行成本

这些照片会令你心动,既而开始一场说走就走的旅行么?如果你的回答是肯定的,你就是像我一样的“旅友”。旅行让人短暂地忘却现实,成为一个观察者,从而敬畏生活,感激你所...

1264

扫码关注云+社区

领取腾讯云代金券