Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
310 篇文章
90 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

知乎数据埋点方案

从业务过程中采集埋点,是数据驱动型公司的必要条件。知乎的产品功能评审环节,不仅有 PRD (Product requirement document),还加入了...

91
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark2.4.0发布了!

http://spark.apache.org/releases/spark-release-2-4-0.html

651
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何成为一个优秀的工程师?

这是一篇旧文,是陆奇还在百度时候的演讲:如何成为一个优秀的工程师。道出了一个工程师应有的追求,如此,未来才能属于工程师。

582
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

解惑:这个SPARK任务是数据倾斜了吗?

健身回来的路上,看到微信群里聊技术,一群有问了一个神奇的问题,具体可以看如下截图:

642
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark源码导读一

1,业务需求,现有框架满足不了项目需要,需要对源码的一部分进行修改或者叫做二次开发,需要阅读部分源码。那么这个针对性就很强了,修改不符合需求的部分。

521
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Flink异步IO第一讲

Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。

1184
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

高性能:MYSQL异步客户端

实时处理领域,当需要使用外部存储数据染色的时候,需要慎重对待,不能让与外部系统之间的交互延迟对流的整个进度取决定性的影响。

622
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

一文精通kafka 消费者的三种语义

本文主要是以kafka 09的client为例子,详解kafka client的使用,包括kafka消费者的三种消费语义at-most-once, at-lea...

804
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

案例简介flink CEP

随着无处不在的传感器网络和智能设备不断收集越来越多的数据,我们面临着以近实时的方式分析不断增长的数据流的挑战。 能够快速响应不断变化的趋势或提供最新的商业智能可...

612
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

高级面试:JAVA内存模型

这里我定义了两个共享变量 a 和 b,以及两个方法。第一个方法将局部变量 r2 赋值为 a,然后将共享变量 b 赋值为 1。第二个方法将局部变量 r1 赋值为 ...

971
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

细述hbase协处理器

HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase中,统计数据...

381
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

IT职场新人碰到的几个常见误区

我工作10+年了,大概五年前从技术转管理后,多少还是发现一些职场新人职业发展的问题。

453
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

flink 有状态udf 引起血案一

最近在做一个画像的任务,sql实现的,其中有一个udf,会做很多事情,包括将从redis读出历史值加权,并将中间结果和加权后的结果更新到redis。

1095
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

偏好:个人习惯的局限与反思

经过长时间的工作实践,我们会逐步养成一些做事的个人喜好或习惯,并且会自我感觉这种个人习惯会是很好的方法。

372
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

RDD的join和Dstream的join有什么区别?

Dstream这个类实际上支持的只是Spark Streaming的基础操作算子,比如: map, filter 和window.PairDStreamFunc...

361
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

写个yarn的监控

在星球里和微信群里很多朋友都有疑惑,如何监控 yarn 上 spark 或者 mr 应用的存活状态,浪尖今天在这里分享一下实现方法,实际上只需要简单的几行代码即...

813
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Redis 的各项功能解决了哪些问题?

综上所述,Redis提供了丰富的功能,初次见到可能会感觉眼花缭乱,这些功能都是干嘛用的?都解决了什么问题?什么情况下才会用到相应的功能?那么下面从零开始,一步一...

722
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何成为一名优秀的架构师?

想一下软件架构的评审过程:一位架构师参与进来,俯视一切然后指指点点,高谈阔论。他发表的评论要么过于粗浅,要么严重脱离实际。

1016
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Structured Streaming实现超低延迟

浪院长,最近忙死了,写文章的时间都没了。但是,都说时间就像海绵里的水,挤挤就有了。所以,今晚十点半开始整理这篇Structured streaming 相关的文...

772
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie协调器促进了相互依赖的重复工作之间的协调,您可...

1253

扫码关注云+社区