Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。

281 篇文章
75 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

重要 : 优化flink的四种方式

flink这个框架在逐步变为流处理的主流。本文,我们将针对flink性能调优讲四种不同的方法。

602
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

百度面试题:Spark 实现PageRank

PageRank算法简介 PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID,li...

763
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何简单写yarn app

尽管YARN自带的编程API已经得到了极大的简化,但从头开发一个YARN应用程序仍是一件非常困难的事情。在YARN上编写一个应用程序,你需要开发Client和A...

952
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浪院长 | spark streaming的使用心得

主要是转换算子,action,和状态算子,这些其实,就按照api手册或者源码里接口介绍结合业务来编码。

1152
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

kafka管理神器-kafkamanager

https://github.com/yahoo/kafka-manager/releases

522
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Apache Spark:来自Facebook的60 TB +生产用例

浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-producti...

972
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

复习:聊聊hive随机采样①

数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢?

983
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

一文详解scala泛型及类型限定

今天知识星球球友,微信问浪尖了一个spark源码阅读中的类型限定问题。这个在spark源码很多处出现,所以今天浪尖就整理一下scala类型限定的内容。希望对大家...

692
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

不可不知的spark shuffle

一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以p...

793
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

复习 | HIVE 随机采样②

当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一...

591
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

干货:Flink+Kafka 0.11端到端精确一次处理语义实现

实时处理里消息的仅一次处理是大家关注的重点吧,前面浪尖分享过一篇对比spark streaming 和 flink的文章 <Spark Streaming VS...

913
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

mysql数据库开发常见问题及优化

原文:https://mp.weixin.qq.com/s/SURmi4cGBjfEfn7JsrZZLA

905
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

必会:关于SparkStreaming checkpoint那些事儿

spark Streaming的checkpoint是一个利器,帮助在driver端非代码逻辑错误导致的driver应用失败重启,比如网络,jvm等,当然也仅限...

552
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

HBase最佳实践-读性能优化策略

就职于网易杭州研究院后台技术中心数据库技术组,从事HBase开发、运维,对HBase相关技术有浓厚的兴趣。

794
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

为什么说软件开发者是有史以来最好的工作?

在过去的十几年中,我一直都是一名开发者。不久前,公司的一位实习生问我,做一名开发者,最酷的事情有哪些。以下就是我给出的回答:

904
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

flink超越Spark的Checkpoint机制

同时,浪尖也在知识星球里发了源码解析的文章。spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpo...

1032
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

基石 | Flink Checkpoint-轻量级分布式快照

前面两篇,一篇是spark的driver的Checkpoint细节及使用的时候注意事项。一篇是flink的Checkpoint的一些上层解释。本文主要是将fli...

771
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

戳破 | hive on spark 调优点

微信交流群里有人问浪尖hive on spark如何调优,当时浪尖时间忙没时间回答,这里就给出一篇文章详细聊聊。强调一下资源设置调优,这个强经验性质的,这里给出...

713
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

消息队列服务Kafka揭秘:痛点、优势以及适用场景

摘要:消息队列Kafka是一个分布式的、高吞吐量、高可扩展性消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等,是大数据生态中不可或缺...

833
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

你真知道如何高效用mapPartitions吗?

做过一段时间spark的应用开发的小伙伴都会渐渐发现,很没趣,因为都是调API。那么,真的是没趣吗,还是说你本身没有去深入研究呢?通过本文你就会发现自己没成长是...

762

扫码关注云+社区