Golang开发

285 篇文章
28 人订阅

全部文章

羊羽shine

Spark MLlib

机器学习是用数据或以往的经验,并以此来优化程序的性能指标。 机器学习本质思想:使用现有的数据,训练出一个模型,然后在用这个模型去拟合其他的数据,给未知的数据做...

230
羊羽shine

Hadoop伪分布式配置

http://localhost:50070/dfshealth.html#tab-overview

262
羊羽shine

RDD和DataFrame转换

在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有case class才能被Spark隐式地转换为DataFrame。

431
羊羽shine

Spark SQL

官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:Data...

601
羊羽shine

RDD操作——文件数据读写

要加载本地文件,必须采用“file:///”开头的这种格式。执行上上面这条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作...

985
羊羽shine

RDD操作—— 键值对RDD(Pair RDD)

“键值对”是一种比较常见的RDD元素类型,分组和聚合操作中经常会用到。 Spark操作中经常会用到“键值对RDD”(Pair RDD),用于完成聚合计算。普通...

704
羊羽shine

Scala基础——List

:: (两个冒号)操作符是右结合的,如果要构建一个列表List(1,2,3,4),实际上也可以采用下面的方式,Nil表示空列表。

562
羊羽shine

RDD操作—— 行动(Action)操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。

1004
羊羽shine

Scala基础——模式匹配

当需要从多个分支进行选择的场景,类似Java中的switch语句,不需要使用break停止代码执行。

462
羊羽shine

Hadoop——Hive

官方地址http://hive.apache.org/ 简单,容易上手提供了类似SQL查询语言HQL 为超大数据集设计的计算、存储拓展能力 统一的元数据管...

762
羊羽shine

Scala基础——隐式转换

Scala的隐式转换,其实最核心的就是定义隐式转换函数,即implicitconversion function。定义的隐式转换函数,只要在编写的程序内引入,就...

701
羊羽shine

Scala基础——容器操作

472
羊羽shine

Spark——RDD转换操作

RDD的转换过程是惰性求值的,也就是,整个转换过程只记录轨迹,并不会发生真正的计算,只有遇到了行动操作时,才会触发真正的计算。

753
羊羽shine

Scala基础——特质(trait)

java通过接口实现多重继承,scala没有接口通过trait关键字实现多重继承。 特质类似于抽象类的定义,trait可以定义抽象方法,也可以定义具体实现的方...

612
羊羽shine

Scala基础——Map(映射)

Scala映射(Map)是一组键/值对的对象。键在映射中是唯一的,但值不一定是唯一的。映射也称为哈希表。映射有两种,不可变的和可变的。默认情况下,Scala使用...

613
羊羽shine

Scala基础——高阶函数

在非函数式编程语言里,函数的定义包含了“函数类型”和“值”两种层面的内容。但是,在函数式编程中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作,也就...

442
羊羽shine

Spark——RDD

全称为Resilient Distributed Datasets,弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行...

803
羊羽shine

Hadoop概述

官方地址:http://hadoop.apache.org/ The Apache Hadoop project develops open-source s...

543
羊羽shine

Spark基础概述

命令解释: spark-submint :提交命令,提交应用程序,该命令在spark安装目录下的bin底下 –class org.apache.spark....

732
羊羽shine

Hadoop——MapReduce分布式计算框架

源自2014年12月的Google发表的MapReduce论文,它是一个编程模型,用于大数据量的计算,MapReduce是分布式计算框架。具有海量数据离线处理。...

692

扫码关注云+社区

领取腾讯云代金券