大数据和「数据挖掘」是何关系?

  • 回答 (8)
  • 关注 (0)
  • 查看 (162)

大数据是最近两年提出的,而数据挖掘上世纪就提出来了。我想知道的是,现在大数据的背景下,采用的数据挖掘算法跟之前传统的数据挖掘算法有什么本质上的不同?如果没有不同,那又是什么关系呢?

你想要的ccc你想要的ccc提问于
一步回答于

算法角度去看,没有本质差别。

工程角度上看是有较大不同。举例来说,余弦距离计算商城各物品两两间相似度,服务于线上推荐模块使用。如果商品总量几千个直接计算就行。倘若商品总量几千万,就算算法逻辑完全相同,实现逻辑也要做成分布式,不然基本算不完。

数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

大数据是最近提出来,有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。 大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。

在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。 此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。

回答过的其他问题

国内制造业现状是什么?以及未来发展趋势如何?

目前,中国制造业生产技术特别是关键技术主要依靠国外的状况仍未从根本上改变,部分行业劳动密集型为主,附加值不高。目前,尽管我国制造业的技术创新有所提高,但在自主开发能力仍较薄弱,研发投入总体不足,缺少自主知识产权的高新技术,缺乏世界一流的研发资源和技术知识,对国外先进技术的消化、吸...... 展开详请

大数据是如何实现“杀熟”的?这基于什么原理?

所谓大数据“杀熟”,指的是订房、打车等互联网平台利用收集的用户数据信息,对个别用户进行歧视性提价从中获利。 现在,我们只是换自己不同的账号登录这些软件,价格就会出现一定的差别。对比之下,我们难免觉得受到歧视、感到愤怒:我们的数据竟然被用来歧视我们? 当我刚开始见到这样的现象,先是...... 展开详请

如何看待“家长不应只看到游戏的负面”?

好的游戏能够给青少年带来非常明显的积极意义,能够让他们在踏入世界之前就‘模拟地’感受一下这个世界中的光明与黑暗,高尚与卑劣,喜悦与悲愁。既能够推动青少年建立他们的价值观,也能拓展青少年的知识面与思维方式,比如一个喜欢玩光荣公司出品的《三国志11》的少年对于历史的敏感度以及三国轶事...... 展开详请

在centOS服务器终端部署nodejs环境失败?

查看一下你module都安装在哪里?你的express是用npm安装的话,可能是在默认的/usr/local/lib/node_modules/,需要把这里面的全部复制到/usr/local/lib/node/,比如用下面的命令: sudo cp -r /usr/local/li...... 展开详请

如何使用Apache Kafka在生产环境构建大规模机器学习?

其实这个说白了就是使用流平台将分析模型部署到任务关键部署中。

什么才是Linux运维自动化?与普通运维的区别?

普通的运维工作就是: 1、每天查看系统运行情况,看有没有报错或者报警日志 2、排查报错或报警日志。解决问题 3、数据库备份工作和恢复工作 4、写一些运维的自动化脚本 等等。 然而在运维技术中,有许多重复工作,这时候仅仅通过一行一行的Linux命令就太鸡肋了。需要用大量的自动化的脚...... 展开详请

所属标签

扫码关注云+社区

领取腾讯云代金券