首页
学习
活动
专区
工具
TVP
发布

加米谷大数据

加米谷大数据实战经验分享,大数据项目分享,大数据开发培训等
专栏成员
296
文章
359933
阅读量
61
订阅数
10本值得你读的Apache Spark书籍
Apache Spark是Apache的开源大数据框架,具有与SQL,流,图处理和机器学习有关的内置模块。它于2010年开源,从一开始就对大数据和相关技术产生了明显影响,因为它很快吸引了250多个组织和超过1000个参与者的关注。拥有众多Apache Spark书籍,很难找到用于自学的最佳书籍。
加米谷大数据
2020-06-02
4.5K0
程序员面试:八大数据结构及相关面试题
几乎所有的问题都需要面试者对数据结构有深刻的理解。无论你是初入职场的新兵(刚从大学或者编程培训班毕业),还是拥有几十年经验的职场老鸟。
加米谷大数据
2019-01-09
3.3K0
Redis数据存储优化机制详解
将一个对象存储在hash类型中会占用更少的内存,并且可以更方便的存取整个对象。省内存的原因是新建一个hash对象时开始是用zipmap来存储的。这个zipmap其实并不是hash table,但是zipmap相比正常的hash实现可以节省不少hash本身需要的一些元数据存储开销。尽管zipmap的添加,删除,查找都是O(n),但是由于一般对象的field数量都不太多。所以使用zipmap也是很快的,也就是说添加删除平均还是O(1)。如果field或者value的大小超出一定限制后,redis会在内部自动将zipmap替换成正常的hash实现。这个限制可以在配置文件中指定(默认配置在redis根目录下的redis.conf中):
加米谷大数据
2018-07-25
7900
Spark RDD Map Reduce 基本操作
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中。
加米谷大数据
2018-07-25
2.7K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档