专栏首页JavaEdge基于Spark的机器学习实践 (六) - 基础统计模块
原创

基于Spark的机器学习实践 (六) - 基础统计模块

0 相关源码

1 基础统计模块及常用统计学知识介绍

◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分

◆ Basic Statistics主要包括Correlation 与Hypothesis testing等

◆ 其大多被封装在orq.apache spark.mllib.stat._ 中

1.1 基础统计学知识

1.1.1 常用的统计学知识

◆ 描述性统计

平均数,方差,众数,中位数...

◆ 相关性度量

spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度

◆ 假设检验

根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测

2 实战统计汇总

◆ 实战的数据来源是北京市历年降水量数据

◆ 学习使用spark对数据进描述性统计

◆ 在进行机器学习模型的训练前,可以了解数据集的总体情况

2.1 coding实战

  • 保存降水量文件
  • 字符串值
  • 实际内容只有一行,读取到数组的是一个超长字符串,需要进行分割.
  • 所需依赖
  • 导入
  • val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
  • data.take(10)
  • 统计方法
  • 最大值
  • 平均值

3 学习相关系数

3.1 相关性度量

◆ 是一种研究变量之间线性相关程度的量

◆ 主要学习皮尔逊相关系数:

几组(x, y)的点集,以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0

3.2 实战相关系数

我们对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关性有多大

  • 过滤
  • 相关系数值

4 学习假设检验

4.1 假设检验

◆ 根据一定假设条件,由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝假设

◆ 假设检验的统计方法有很多,如卡方检验,T检验等

◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测

4.2 皮尔森卡方检验

最常用的卡方检验,可以分为适配度检验和独立性检验

◆ 适配度检验:验证观察值的次数分配与理论值是否相等

◆ 独立性检验:两个变量抽样到的观察值是否相互独立

4.3 实战 : 判断性别与左撇子是否存在关系

  • 导入数据
  • 计算

否定了假设检验,所以性别与左撇子是有关的!

Spark机器学习实践系列

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • AI眼中的世界什么样?谷歌&OpenAI新研究打开AI视觉的黑箱

    这个问题已经困扰研究人员数十年了,近年来这个问题变得更加紧迫。机器视觉系统被部署到生活的各个方面,从医疗健康到自动驾驶。但从机器的视角去「看」世界,去理解为什么...

    机器之心
  • 人工智能写作指南v1.0

    这是一个机器人写稿的时代,智能写手应用的行业涉及非常广,有新闻业、媒体业、广告业、自媒体行业等等,跟文字生产有关的都有所应用。

    mixlab
  • 进阶指南 | 如何从数据分析师转型为数据科学家?

    如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:

    用户2769421
  • 数据清洗预处理入门完整指南

    数据预处理是建立机器学习模型的第一步(也很可能是最重要的一步),对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效—...

    用户2769421
  • 1500+星标,简单易用 TensorFlow 代码集,随查随看!

    它拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。但却因难以上手将很多人...

    磐创AI
  • (Python)用Mask R-CNN检测空闲车位

    我住在一个大城市。 但就像大多数城市一样,在这里寻找停车位总是一件很困难的事情。 停车位通常很快被抢走,即使你有一个专门的停车位,朋友们来拜访你也是一件很困难的...

    AI研习社
  • 工具 | 你能用到的 kaggle kernel 学习技巧

    如果您熟悉jupyter笔记本,那么理解kaggle Kernels将不是一项困难的任务。对于那些不知道的人,jupyter笔记本是一个开源的web应用程序,它...

    磐创AI
  • 从大数据技术变迁猜一猜AI人工智能的发展

    目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用。在这种环境下,大数据技术的...

    奎哥
  • 我是这样获得腾讯AI工程师的offer

    众所周知,腾讯作为国内外知名的互联网明星企业,能够进入里面工作绝对是大多数人的自豪。近年来全世界都在致力于人工智能的研发,腾讯作为巨头之一,自然也不甘落后,时至...

    叫我龙总
  • 1300篇!CVPR 2019录取结果公布,7篇新鲜好文推荐

    据统计,今年共计1300篇论文被CVPR 2019 接收,相比去年被接收论文数量增加了32.8%。今年的接收率为25.2%。

    磐创AI

扫码关注云+社区

领取腾讯云代金券