前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据分享常用的数据挖掘技术,新人学起来就可以用

大数据分享常用的数据挖掘技术,新人学起来就可以用

原创
作者头像
一起学习大数据
修改2019-06-12 18:02:03
3750
修改2019-06-12 18:02:03
举报

对大数据开发技术感兴趣的小伙伴对数据挖掘技术有多少了解呢?本篇文章大数据小编就给喜欢大数据开发的小伙伴分享一下常用的数据挖掘技术,希望对小伙伴们有所帮助。

1、统计技术

数据挖掘涉及的科学领域和技术很多,如统计技术。统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

2、关联规则

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之I司存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3、基于历史的MBR(Memory-based Reasoning)分析

先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR(Memory Based Reasoning)的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。

4、遗传算法GA(Genetic Algorithms)

基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。大数据学习交流群,群门牌号是:251—956---502,欢迎一起学习大数据的伙伴,加群互相学习交流。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。典型情况下,规则的适合度(Fitness)用它对训练样本集的分类准确率评估。

5、聚集检测

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的,距离是经常采用的度量方式。

6、连接分析

连接分析,Link analysis,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式;同时将产生的概念应用于更广的用户群体中。

7、决策树

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档