详解数据挖掘与机器学习的区别与联系

0、为什么写这篇博文

  最近有很多刚入门AI领域的小伙伴问我:数据挖掘与机器学习之间的区别与联系。为了不每次都给他们长篇大论的解释,故此在网上整理了一些资料,整理成此篇文章,下次谁问我直接就给他发个链接就好了。

  本篇文章主要阐述我个人在数据挖掘、机器学习等方面的学习心得,并搜集了网上的一些权威解释,或许不太全面,但应该会对绝大多数入门者有一个直观地解释。

  本文主要参照周志华老师的:机器学习与数据挖掘 一文。有兴趣的可以自行百度,其文对人工智能、数据挖掘、机器学习等演变历程,有详细介绍。

1、概念定义

首先,第一步,我们对机器学习和数据挖掘的定义做一下总结,看看大家有没有一点体会:

机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。

数据挖掘:一种解释是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”,顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。

2、关系与区别

2.1 关系

   数据挖掘可以认为是数据库技术与机器学习的交叉,它利用数据库技术来管理海量的数据,并利用机器学习和统计分析来进行数据分析。其关系如下图:

  数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。粗糙地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。

2.2 区别

   数据挖掘并非只是机器学习在工业上的简单应用,他们之间至少包含如下两点重要区别:

  1. 传统的机器学习研究并不把海量数据作为处理对象,因此,数据挖掘必须对这些技术和算法进行专门的、不简单的改造。
  2. 作为一个独立的学科,数据挖掘也有其独特的东西,即:关联分析。简单地说,关联分析就是希望从数据中找出“买尿布的人很可能会买啤酒”这样看起来匪夷所思但可能很有意义的模式。

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

教AI“自己构建AI”,谷歌AI编写机器学习程序效率超人类工程师

【新智元导读】最近,thenextweb一篇题为“谷歌的AI写的机器学习代码比创造它的研究人员写的更好”的文章引起讨论,“让AI自己编程”这件事进展到什么程度,...

3626
来自专栏云加头条

构建一站式机器学习服务平台,腾讯云为AI实现更多可能

5月24日,以“无界数据 无限智能”为主题的腾讯“云+未来”峰会AI大数据分论坛在广州拉开帷幕。此次分论坛上,腾讯云针对AI大数据技术的实现与应用,正式对外公布...

4307
来自专栏AI科技大本营的专栏

年薪30~60万,机器学习算法工程师必备能力项

据招聘网站的数据统计显示,最高薪酬的 56 个岗位 ( 分为:60-100 万、100 万 + ;两档 ) ,要求硕士以上学历的岗位有 30个,比例 53%,比...

2052
来自专栏AI科技大本营的专栏

一文掌握:50W年薪的AI程序员必备能力!

2018 年,人工智能在各行各业中的落地应用越来越多。十多年前,所有的企业都在想办法互联网化,如今,所有的互联网企业都在试图 AI 化。技术的竞争归根结底表现为...

3658
来自专栏ATYUN订阅号

终于,谷歌发布了一种新量子处理器Bristlecone

AiTechYun 编辑:Yining 谷歌量子智能实验室(Google Quantum AI lab)的目标是建立一个量子计算机,用于解决现实世界的问题。谷歌...

2924
来自专栏BestSDK

大数据解密用户画像,为何老用户利润贡献是新用户的16倍?

大家经常听到一个词,叫做“画像”,结合具体对象就是:“用户画像”、“商品画像”、“产品画像”、“资产画像”……特别是大数据时代下,在实际企业中,利用大数据进行“...

3085
来自专栏PaddlePaddle

工业应用|AI语音技术应用场景及模型库概览

近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型...

1311
来自专栏CDA数据分析师

你觉得每次技术面试志在必得?数据可能要让你失望了。

原作者  Aline Lerner 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 一般来说,当我们想到面试时,我们会想到当中有...

2116
来自专栏携程技术中心

干货 | 携程度假智能云客服平台

作者简介 李健,携程度假大数据开发总监。2013年底加入携程,在攻略社区及度假负责自然语言处理、图像、推荐等领域的开发管理工作。 写在前面 在人工智能时代, A...

4244
来自专栏机器之心

业界 | 第四范式业界首推免费智能客服服务

机器之心发布 作者:吴欣 2018 年 3 月 13 日,人工智能公司第四范式正式宣布,即日起将免费对外开放旗下「第四范式智能客服」平台(以下简称「智能客服」)...

34110

扫码关注云+社区