Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。

294 篇文章
83 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Redis 的各项功能解决了哪些问题?

综上所述,Redis提供了丰富的功能,初次见到可能会感觉眼花缭乱,这些功能都是干嘛用的?都解决了什么问题?什么情况下才会用到相应的功能?那么下面从零开始,一步一...

572
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何成为一名优秀的架构师?

想一下软件架构的评审过程:一位架构师参与进来,俯视一切然后指指点点,高谈阔论。他发表的评论要么过于粗浅,要么严重脱离实际。

906
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Structured Streaming实现超低延迟

浪院长,最近忙死了,写文章的时间都没了。但是,都说时间就像海绵里的水,挤挤就有了。所以,今晚十点半开始整理这篇Structured streaming 相关的文...

582
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie协调器促进了相互依赖的重复工作之间的协调,您可...

1133
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Flink高效的内存管理

如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到...

712
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Hive学习之Lateral View

Lateral view与UDTF函数如explode()一起使用,UDTF对每个输入行产生0或者多个输出行。Lateral view首先在基表的每个输入行应用...

764
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Rowkey(行键)设计

HBase 中的行按行键按顺序排序。这种设计优化了扫描(scan),允许您将相关的行或彼此靠近的行一起读取。但是,设计不佳的行键是 hotspotting 的常...

1092
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

老司机也该掌握的MySQL优化指南

当MySQL单表记录数过大时,增删改查性能都会急剧下降,所以我们本文会提供一些优化参考,大家可以参考以下步骤来优化:

944
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

中国IT工作者35岁后的发展出路调查报告

都说男人40一枝花,35岁恐怕还是花骨朵,正值事业发展的高峰时期,可是职场上很多的“35岁以上免谈”的条款似乎为花骨朵们浇了一盆凉水,特别是对于IT工作者是个坎...

682
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

推荐两个不错的flink项目

最近flink真是风生水起,但是浪院长看来这不过是阿里错过了创造spark影响力之后,想要在flink领域创建绝对的影响力。但是,不可否认flink在实时领域确...

1203
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

老司机常用的kafka监控-eagle

前面有文章说到了一个叫kafka manager的kafka管理工具,这个工具管理kafka确实很强大,但是没有安全认证,随便都可以创建,删除,修改topic,...

1112
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

不可不知的zookeeper小工具-zkui

本文主要是首先带着大家回顾一下zookeeper在大数据中的作用,然后给大家介绍一款zk的监控管理工具。

703
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

干货|kafka流量监控的原理及实现

作为一个优秀的开发人员,项目开发的过程中监控告警系统的可靠性是可以体现出一个人的工程管理能力的。优秀的监控告警系统可以免去很多精力消耗,比如维护,故障预判,故障...

873
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

重要 : 优化flink的四种方式

flink这个框架在逐步变为流处理的主流。本文,我们将针对flink性能调优讲四种不同的方法。

842
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

百度面试题:Spark 实现PageRank

PageRank算法简介 PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID,li...

983
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何简单写yarn app

尽管YARN自带的编程API已经得到了极大的简化,但从头开发一个YARN应用程序仍是一件非常困难的事情。在YARN上编写一个应用程序,你需要开发Client和A...

982
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浪院长 | spark streaming的使用心得

主要是转换算子,action,和状态算子,这些其实,就按照api手册或者源码里接口介绍结合业务来编码。

1362
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

kafka管理神器-kafkamanager

https://github.com/yahoo/kafka-manager/releases

812
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Apache Spark:来自Facebook的60 TB +生产用例

浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-producti...

1072
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

复习:聊聊hive随机采样①

数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢?

1043

扫码关注云+社区