Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
348 篇文章
104 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

程序员们~笑抽了别怪我

前方高能,每一个程序员看完,你不笑死个人,你来找我,我自己看了好几遍,反正笑的停不下来,太特么有才了。

932
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Ant Design 圣诞彩蛋变炸弹:蚂蚁金服开源项目遭开发者炮轰

Ant Design是一套由蚂蚁金服开发的企业级开发UI组件库,并已经开源。今天,由于在该框架中设置了一个未事先告知的圣诞彩蛋,且无法手动禁用,开发者社区对该项...

1254
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

单例模式的八种写法比较

单例模式是最常用到的设计模式之一,熟悉设计模式的朋友对单例模式都不会陌生。一般介绍单例模式的书籍都会提到 饿汉式 和 懒汉式 这两种实现方式。但是除了这两种方式...

682
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试|海量文本去重~simhash

simhash算法是google发明的,专门用于海量文本去重的需求,所以在这里记录一下simhash工程化落地问题。

1183
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

leetcode第一题判断链表是否有环

数据结构表征数据存储的格式及操作数据的方式,了解这些便于我们大数据开发人员设计更好的存储,读取,计算策略。所以在java基础,大数据基础,大数据框架源码等都有一...

892
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试|海量文本去重~minhash

在实际应用的过程中。相似性度量和计算是很经常使用的一个方法。比如网页去重、推断帖子是否相似、推荐系统衡量物品或者用户的相似度等等。当数据量大的时候,计算的时间和...

882
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试|return 和finally那些事儿

try/catch/finally语句块的finally和return谁先执行呢?也即是我们在try内部调用return,然后finally内部又去修改retu...

894
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

爱奇艺的Java缓存之路,你应该知道的缓存进化史!

本文是上周去技术沙龙听了一下爱奇艺的Java缓存之路有感写出来的。先简单介绍一下爱奇艺的java缓存道路的发展吧。

1013
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

kafka消费者分组消费的再平衡策略

2),分组消费,同一个分组内所有消费者消费一份完整的数据,此时一个分区数据只能被一个消费者消费,而一个消费者可以消费多个分区数据

2216
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试|大数据中无处不在的ServiceLoader

ServiceLoader是SPI的是一种实现,所谓SPI,即Service Provider Interface,用于一些服务提供给第三方实现或者扩展,可以增...

914
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark rdd的另类解读

提到Spark必说RDD,RDD是Spark的核心,如果没有对RDD的深入理解,是很难写好spark程序的,但是网上对RDD的解释一般都属于人云亦云、鹦鹉学舌,...

722
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

扩展RDD API三部曲第一部回顾基础

1 - A list of partitions 2 - A function for computing each split 3 - A list o...

892
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

扩展RDD API三部曲之第二部自定义操作算子

讲到自定义RDD的action操作,大家首先应该想到的就是那些RDD到key-value算子的隐式转换,具体一点也就是PairRDDFunctions这个类里包...

542
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试中常问的List去重问题,你都答对了吗?

原文:https://mp.weixin.qq.com/s/AAeaY1-0xclmMKBXp7XVUA

712
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

源码:Spark SQL 分区特性第一弹

头条号上说过近期分享Spark SQL系列文章,前面在头条号上分享了Dataset API的基本操作和复杂操作,不知道下面大家有没有自己测试一下。

832
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark Streaming 场景应用

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使...

1433
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark SQL如何实现mysql的union操作

union all是直接连接,取到得是所有值,记录可能有重复 union 是取唯一值,记录没有重复 1、UNION 的语法如下:

1044
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

埋在 MYSQL 数据库应用的关键问题!

Mysql的使用非常普遍,跟mysql有关的话题也非常多,如性能优化、高可用性、强一致性、安全、备份、集群、横向扩展、纵向扩展、负载均衡、读写分离等。要想掌握其...

862
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

你注意ArrayList扩容原理了吗

本文主要是从java 1.6-1.8说一下ArrayList的初始容量大小及扩容的思路,主要是底层是ArrayList在扩容的时候会整个复制导致性能底下,所以在...

942
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试 | Java8 HashMap原理

基于Map接口实现、允许null键/值、非同步、不保证有序(比如插入的顺序)、也不保证顺序不随时间变化。

793

扫码关注云+社区