Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
526 篇文章
187 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

详解hive的join优化

Hive自动识别各种用例并对其进行优化。Hive 0.11改进了这些情况的优化器:

6010
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

基于 Flink 搭建实时个性化营销平台?

在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正...

8520
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Hive鲜为人知的宝石-Hooks

Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器,它将SQL(严格来说,Hive查询语言 - HQL,SQL的一种变体)转换为一组Ma...

6230
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

做olap一定要要了解的Druid存储结构

导读:Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系统来说是最核心的组件,Druid的数据格式是自定义的,以此保证了在海量数...

8930
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Hive实现数据抽样的三种方法

在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提...

7710
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

从B+树到LSM树,及LSM树在HBase中的应用

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据...

5420
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

简单理解scala的闭包

闭包这个词大家都不陌生,尤其是做spark的同学,经常会看到,但是很多人还是对闭包比较懵懂,就像前面说的watermark一样,大家都很熟悉朗朗上口,但是又貌似...

4910
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

社区版本idea查看继承关系的骚操作

大家都会被idea 的专业版注册码随时被禁,而且费用过高而困扰。浪尖一直都是用的社区版本,很多粉丝留言说社区版本没办法利用uml查看类的继承关系,今天浪尖就给大...

8030
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

深入解读 Flink 资源管理机制

摘要:本文根据 Apache Flink 系列直播整理而成,由阿里巴巴高级开发工程师宋辛童分享。文章主要从基本概念、当前机制与策略、未来发展方向等三个方面帮助开...

10030
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

HBase 数据迁移到 Kafka 实战

https://www.cnblogs.com/smartloli/p/11521659.html

6310
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark 如何摆脱java双亲委托机制优先从用户jar加载类?

spark的类加载及参数传递过程还是很复杂的,主要是因为他运行环境太复杂了,不同的集群管理器完全不一样,即使是同一集群管理器cluster和client也不一样...

8320
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

“不要害怕 RAID!”-kafka磁盘必备

我在互联网上经常看到这样的说法:RAID很危险,RAID磁盘阵列在重建过程中失败的可能性几乎是100%,因为硬盘驱动器已经变得非常大。

11720
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

HDFS卷(磁盘)选择策略

昨天,发了一篇文章,讲的是磁盘均衡的策略,浪尖是以增加大磁盘的目录数的方式,来提升大磁盘的写入概率。这其实只适合,磁盘大小不一导致的datanode节点数据写入...

12520
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

30.scala的注解

注解将元信息与定义相关联。例如,方法之前的注解 @deprecated 会导致编译器在该方法被使用时打印警告信息。

6730
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Hdfs的DN节点数据磁盘大小不均衡如何处理

这是一篇历史文章,貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用,自从公众号迁移之后,历史文章不能搜索了,所以浪尖每隔一段时间,...

9220
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark streaming窗口及聚合操作后如何管理offset

对于spark streaming来说窗口操作之后,是无法管理offset的,因为offset的存储于HasOffsetRanges,只有kafkaRDD继承了...

9620
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark改七行源码实现高效处理kafka数据积压

spark streaming消费kafka,大家都知道有两种方式,也是面试考基本功常问的:

17220
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

以上帝视角看看Spark Streaming实现

要说流式微批处理类似Spark Streaming,就不得不说一下TCP流。典型的tcp IO流模型有,bio,伪异步IO,NIO,AIO,Rector模型等。...

7420
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浪尖以案例聊聊spark 3.0 sql的动态分区裁剪

本文主要讲讲,spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能,尤其是在bi等场景下,存在大量的where条件操作。

9830
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何Spark的shuffle移植到自己业务

ExternalSorter是用来排序及聚合key-value类型的数据。首先使用分区器将数据按照key进行分区,然后使用自定义的排序器在一个分区内对数据key...

8320

扫码关注云+社区

领取腾讯云代金券