Golang开发

287 篇文章
28 人订阅

spark

羊羽shine

Spark MLlib

机器学习是用数据或以往的经验,并以此来优化程序的性能指标。 机器学习本质思想:使用现有的数据,训练出一个模型,然后在用这个模型去拟合其他的数据,给未知的数据做...

7660
羊羽shine

RDD和DataFrame转换

在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有case class才能被Spark隐式地转换为DataFrame。

6510
羊羽shine

Spark SQL

官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:Data...

6810
羊羽shine

RDD操作—— 键值对RDD(Pair RDD)

“键值对”是一种比较常见的RDD元素类型,分组和聚合操作中经常会用到。 Spark操作中经常会用到“键值对RDD”(Pair RDD),用于完成聚合计算。普通...

8640
羊羽shine

RDD操作—— 行动(Action)操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。

10440
羊羽shine

Spark——RDD

全称为Resilient Distributed Datasets,弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行...

8730
羊羽shine

Spark基础概述

命令解释: spark-submint :提交命令,提交应用程序,该命令在spark安装目录下的bin底下 –class org.apache.spark....

7720

扫码关注云+社区

领取腾讯云代金券