首页
学习
活动
专区
工具
TVP
发布

Golang开发

专栏成员
289
文章
274079
阅读量
38
订阅数
Spark MLlib
机器学习是用数据或以往的经验,并以此来优化程序的性能指标。 机器学习本质思想:使用现有的数据,训练出一个模型,然后在用这个模型去拟合其他的数据,给未知的数据做出一个预测结果。机器学习是一个求解最优化问题的过程。老师教学生,学生举一反三,考试成绩是学习效果的预测。 分类:人脸识别判断性别 聚类 :发掘相同类型的爱好和兴趣。物以类聚人以群分 回归: 预测分析价格
羊羽shine
2019-08-25
6240
RDD和DataFrame转换
在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有case class才能被Spark隐式地转换为DataFrame。
羊羽shine
2019-08-23
1.2K0
Spark SQL
官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
羊羽shine
2019-08-22
7330
RDD操作—— 键值对RDD(Pair RDD)
“键值对”是一种比较常见的RDD元素类型,分组和聚合操作中经常会用到。 Spark操作中经常会用到“键值对RDD”(Pair RDD),用于完成聚合计算。普通RDD里面存储的数据类型是Int、String等,而“键值对RDD”里面存储的数据类型是“键值对”。
羊羽shine
2019-08-21
2.9K0
RDD操作—— 行动(Action)操作
行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。
羊羽shine
2019-08-20
1.4K0
Spark——RDD
全称为Resilient Distributed Datasets,弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合。RDD在逻辑上是一个数据集,在物理上则可以分块分布在不同的机器上并发运行。RDD允许用户在执行多个查询时显示的将工作缓存在内存中,后续的查询能够重用工作集,这极大的提升了查询速度。 在Spark 中,对数据的所有操作不外乎创建RDD,转换已有RDD以及调用RDD操作进行求值,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以是用户自定义对象。 RDD是Spark的核心,也是整个Spark的架构基础。它的特性可以总结如下:
羊羽shine
2019-08-08
6130
Spark基础概述
命令解释: spark-submint :提交命令,提交应用程序,该命令在spark安装目录下的bin底下 –class org.apache.spark.examples.SparkPi:应用程序的主类 –master spark://aliyun:7077 :运行的master /root/app/spark/examples/jars/spark-examples_2.11-2.3.3.jar:jar包所在路径
羊羽shine
2019-08-06
4070
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档