Soul Joy Hub

136 篇文章
37 人订阅

spark

用户1621453

Spark异常处理与调优(更新中~)

http://blog.csdn.net/u011239443/article/details/52127689

2443
用户1621453

深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析

随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根...

3673
用户1621453

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据...

1713
用户1621453

深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析

上一篇《深入理解Spark 2.0 (一):RDD实现及源码分析 》的5.2 Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。

944
用户1621453

深入理解Spark 2.1 Core (一):RDD的原理与源码分析

该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstra...

1357
用户1621453

spark-shell用非sql API 改写 hql

当我们在spark-shell用scala写程序的时候,如何不嵌入sql来查询Hive呢?这里我们来举个例子:

964
用户1621453

Eclipse远程调试Spark

用eclipse将项目export出jar包,传到集群上使用spark-submit提交Application,可以看到在等待:

1235
用户1621453

《机器学习实战(Scala实现)》(二)——k-邻近算法

1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5....

1093
用户1621453

深入理解Spark 2.1 Core (十二):TimSort 的原理与源码分析

在博文《深入理解Spark 2.1 Core (十):Shuffle Map 端的原理与源码分析 》中我们提到了:

1063
用户1621453

深入理解Spark 2.1 Core (十一):Shuffle Reduce 端的原理与源码分析

在《深入理解Spark 2.1 Core (九):迭代计算和Shuffle的原理与源码分析 》我们讲解了,以传统Hadoop MapReduce类似的从HD...

862
用户1621453

深入理解Spark 2.1 Core (十):Shuffle Map 端的原理与源码分析

http://blog.csdn.net/u011239443/article/details/55044862 在上一篇《深入理解Spark 2.1 Co...

1128
用户1621453

深入理解Spark 2.1 Core (九):迭代计算和Shuffle的原理与源码分析

在博文《深入理解Spark 2.1 Core (七):任务执行的原理与源码分析 》我们曾讲到过:

1143
用户1621453

RDD Join 性能调优

阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn...

1325
用户1621453

深入理解Spark 2.1 Core (八):Standalone模式容错及HA的原理与源码分析

第五、第六、第七篇博文,我们讲解了Standalone模式集群是如何启动的,一个App起来了后,集群是如何分配资源,Worker启动Executor的,Task...

1003
用户1621453

深入理解Spark 2.1 Core (七):任务执行的原理与源码分析

上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient和Executor是如何启动,如何为逻辑上与物...

804
用户1621453

深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析

前几篇博文都在介绍Spark的调度,这篇博文我们从更加宏观的调度看Spark,讲讲Spark的部署模式。Spark部署模式分以下几种:

1242
用户1621453

深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析

在上一篇博文《深入理解Spark 2.1 Core (三):任务调度器的实现与源码分析 》TaskScheduler在发送任务给executor前的工作就全部...

1512

扫码关注云+社区

领取腾讯云代金券