专栏首页PPV课数据科学社区入行数据挖掘你需要知道这些知识点

入行数据挖掘你需要知道这些知识点

数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

01 数据挖掘的含义

数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

数据挖掘是一种从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构的技术,是统计学、数据库技术和人工智能技术等技术的综合。

02 数据挖掘的本质

数据挖掘的本质就是寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

03 数据挖掘的学科联系

数据挖掘是一门涉及面很广的交叉学科,包括数理统计、人工智能、计算机等。涉及机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

04 数据挖掘的价值、目的、作用

数据挖掘的价值

数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型,产生学术价值、促进生产、产生并促进商业利益,一切都是为了商业价值(数据——>信息——>知识——>商业)。

数据挖掘的目的

数据挖掘的最终目的是要实现数据的价值,所以,单纯的数据挖掘是没有多大意义的。

数据挖掘的作用

从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。

05 数据挖掘技术产生的背景

海量的大数据已经远远超出了人类的理解能力,如果不借助强大的工具和技术,很难弄清楚大数据中所蕴含的信息和知识。重要决策如果只是基于决策制定者的个人经验,而不是基于信息、知识丰富的数据,那么,这就极大地浪费了数据,也极大地给我们的商业、学习、工作、生产带来不便和巨大的阻碍。

所以,能够方便、高效、快速地从大数据里提取出巨大的信息和知识是必须面对的,因此,数据挖掘技术应运而生。数据挖掘填补了数据和信息、知识之间的鸿沟。

06 数据挖掘与数据分析的区别

数据分析的两种说法

即广义的数据分析和狭义的数据分析。广义的数据分析包括狭义的数据分析和数据挖掘,而我们常说的数据分析就是指狭义的数据分析。

数据分析(狭义)

(1) 数据分析(狭义)的定义:简单来说,狭义的数据分析就是对数据进行分析。专业的说法,狭义的数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

(2) 作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。狭义的数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。

(3)方法:主要采用对比分析、分组分析、交叉分析、回归分析等分析方法;

(4)结果:狭义的数据分析一般都是得到一个指标统计量结果。比如,总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。

数据挖掘

(1)定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。

(2)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。

(3)结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。

数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

07 数据挖掘软件及其发展

第一代,代表软件:Salford Systems 公司早期的 CART 系统。

第二代,代表软件:SAS Enterprise Miner;DBMiner,DBMiner 是加拿大 SimonFraser 大学开发的一个多任务数据挖掘系统,它的前身是 DBLearn。

第三代,代表软件:SPSS Clementine,SPSS Clementine 是 SPSS 公司的一个数据挖掘平台;RapidMiner,RapidMiner 是世界领先的数据挖掘解决方案。

第四代,正在开发。

08 有哪些数据挖掘技术(方法)

数据挖掘常用的方法有:分类、聚类、回归分析、关联规则、神经网络、特征分析、偏差分析等。这些方法从不同的角度对数据进行挖掘。

(1)分类

分类的含义:就是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类。分类是依靠给定的类别对对象进行划分的。

分类的目的(作用):其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。

分类的应用:客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测、应用分类、趋势预测等。

主要的分类方法:决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

分类算法的局限:分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

(2)聚类

聚类的含义:聚类指事先并不知道任何样本的类别标号,按照对象的相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,聚类是一种无监督学习。

聚类的方法(算法):主要的聚类算法可以划分为如下几类,划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法, 划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

聚类的应用:它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

(3)回归分析

回归分析的含义:回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。

回归分析的应用:回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

回归分析的主要研究问题:数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

(4)关联规则

关联规则的含义:关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

关联规则的目的(作用):发现隐藏在数据间的关联或相互关系,从一件事情的发生,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展规律等等。

关联规则的应用:关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的 ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

(5)神经网络方法

神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题,以及那些以模糊、不完整、不严密的知识或数据为特征的问题,它的这一特点十分适合解决数据挖掘的问题。

(6)Web数据挖掘

Web数据挖掘的含义:web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

目前常用的Web数据挖掘算法:PageRank算法、HITS算法、LOGSOM 算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。

(7)特征分析

特征分析的含义:特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

特征分析的目的(作用):在于从海量数据中提取出有用信息,从而提高数据的使用效率。

特征分析的应用:如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

(8)偏差分析

偏差分析的含义:偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

偏差分析的应用:在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。而其成因源于不同的类、自然变异、数据测量或收集误差等。

09 什么叫“异常”

(1)Hawkins给出了异常的本质性的定义:异常是数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。

(2)聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声。

(3)异常检测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点。他们的行为与正常的行为有很大不同。

End.

作者:木子

来源:CSDN技术头条

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Netty中的这些知识点,你需要知道!

    Channel是一个接口,而且是一个很大的接口,我们称之为“大而全”,囊括了server端及client端接口所需要的接口。

    WindWant
  • 关于深度学习编译器,这些知识你需要知道

    近年来,以机器学习、深度学习为核心的AI技术得到迅猛发展,深度神经网络在各行各业得到广泛应用:

    AI科技大本营
  • 入门 | 关于神经网络:你需要知道这些

    我们简单回顾一下神经网络的发展历程,如果你想了解更多关于其发展历程的信息,请看这篇维基百科的文章(https://en.wikipedia.org/wiki/A...

    IT派
  • 入门 | 关于神经网络:你需要知道这些

    机器之心
  • 入门 | 关于神经网络:你需要知道这些

    神经网络(NN)几乎可以在每个领域帮助我们用创造性的方式解决问题。本文将介绍神经网络的相关知识。读后你将对神经网络有个大概了解,它是如何工作的?如何创建神经网络...

    昱良
  • 应该掌握的30个数据挖掘重要知识点!

    4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理,数据挖掘以及模式评估等基本阶段。

    1480
  • 大数据应用开发如何入门需要知道这些

    前几天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都...

    IT小白龙
  • CSS 中 关于 Overflow ,你需要了解的这些知识点!

    在CSS中,当一个元素的内容太大而无法容纳时,我们可以对其进行控制。该元素的属性是overflow,它是overflow-x和overflow-y属性的简写形式...

    前端小智@大迁世界
  • 【真·干货】你务必要搞清楚的十大数据挖掘知识点

    数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结...

    CSDN技术头条
  • 认识高性能Web缓存体系,你需要知道这些

    前言 我们再看知识体系的时候,我们学一个东西的时候,每次我们都回过头去看一看,这就是所谓的不忘初心。这个说着容易做起来难,当一个人慢慢在成长,在进步的时候,是很...

    DevOps时代
  • 【Redis】270- 你需要知道的那些 redis 数据结构

    redis 对于团队中的同学们来说是非常熟悉的存在了,我们常用它来做缓存、或是实现分布式锁等等。对于其 api 中提供的几种数据结构,大家也使用得得心应手。

    pingan8787
  • 深入理解MySQL---数据库知识最全整理,这些你都知道了吗?

    对于后端开发人员来说,经常会和数据打交道,今天总结下数据库相关的知识。包括MySQL,JDBC基础,JDBC进阶,MongoDB,性能优化等知识点。

    谭庆波
  • 学习大数据开发需要掌握哪些知识点?

    大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业。大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能。学习...

    用户2292346
  • 摆脱从入门到放弃,你需要掌握这些Android知识!

    在接触Android的过程中,面对诸多的问题,我们经常无从下手。作为一名专业的Android开发师,你对Android的知识必须有个清楚的脉络,能够梳理好And...

    Android技术干货分享
  • 为了抓取弹幕,你需要知道的一些二进制数据常识

    文本不会讲具体某个网站的弹幕抓取方法。而是描述抓取到二进制的弹幕信息以后,如何进行处理。

    青南
  • 如何写出专业的数据科学代码?你需要知道这6点

    「可重用」是什么意思?在你的数据科学职业生涯中的某个时刻,你编写的代码将被使用不止一次或两次。也许你会对一些不同的图像文件集运行相同的预处理管道,或者你有一套用...

    AI研习社
  • 你真的懂什么叫数据挖掘吗?

    我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过...

    CDA数据分析师
  • 数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

    以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么? 如果仅仅只是用excel,sas,python,r语言等工具来用现有的算...

    机器学习AI算法工程
  • 数据挖掘工程师在公司中一般都具体做什么?需要了解哪些知识?

    以后想从事数据挖掘行业,但不清楚数据挖掘工程师的工作到底是做什么? 如果仅仅只是用excel,sas,python,r语言等工具来用现有的算法...

    机器学习AI算法工程

扫码关注云+社区

领取腾讯云代金券