前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

作者头像
数道云大数据
修改2019-06-19 17:32:41
6000
修改2019-06-19 17:32:41
举报
文章被收录于专栏:Apache HadoopApache Hadoop

BR-MLP是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术,支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。

数据挖掘平台
数据挖掘平台

1.数据源

提供数据集载入方案和方案中数据保存到平台中的功能,

2.数据预处理

对数据进行清洗、类型转化、值填充等,使数据内容和结构更规整,以便后续组件处理,其包含:去除重复、随机采样、分层采样……

3特征工程

对预处理好的规整数据进行更深入的处理,主要有尺度变换、异常平滑、特征抽取和降维等。

特征离散、特征抽取……是其显著特征

4统计分析

对数据统计分析,了解数据的整体或详情、分布、相关性和适配度检验等,使我们在做数据预处理和特征工程时,心中有数,知道哪些因素对我们最终的结果影响比较大等。

5分类与回归

构建分类或回归模型,创建的模型应用于后续的业务数据(应用数据)的预测/分类、回归等。BR-MLP包括决策树分类、决策树回、朴素贝叶斯、随机森林分类……等12个算法。

6聚类

提供无监督的聚类机器学习方法,包括文本主题聚类等,可单独使用,进行自动分类,也可以和分类算法结合使用,先用聚类得到类别,再将得到的类别作为分类建模中的标签,构建分类模型。

7协同过滤

BR-MLP支持协同过滤,可用于分辨某特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。

8关联分析

用于分析事物之间的关联性,包括人与人之间的关联性,物与物之间的关联性,最经典的是尿布与啤酒的案例,在购物篮分析中很常用。

9深度学习

通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

10模型应用

选择已经建好的算法模型,将选出的模型应用于业务层面。

11可视化

将分类/回归、聚类模型应用结果进行图形化展现。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.数据源
  • 2.数据预处理
  • 3特征工程
  • 4统计分析
  • 5分类与回归
  • 6聚类
  • 7协同过滤
  • 8关联分析
  • 9深度学习
  • 10模型应用
  • 11可视化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档