加米谷大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏成员

296

文章

360251

阅读量

61

订阅数

10本值得你读的Apache Spark书籍

spark apache 大数据数据结构机器学习

Apache Spark是Apache的开源大数据框架，具有与SQL，流，图处理和机器学习有关的内置模块。它于2010年开源，从一开始就对大数据和相关技术产生了明显影响，因为它很快吸引了250多个组织和超过1000个参与者的关注。拥有众多Apache Spark书籍，很难找到用于自学的最佳书籍。

加米谷大数据

2020-06-02

4.5K0

程序员面试：八大数据结构及相关面试题

数据结构二叉树

几乎所有的问题都需要面试者对数据结构有深刻的理解。无论你是初入职场的新兵(刚从大学或者编程培训班毕业)，还是拥有几十年经验的职场老鸟。

加米谷大数据

2019-01-09

3.3K0

Redis数据存储优化机制详解

云数据库 Redis 存储数据结构

将一个对象存储在hash类型中会占用更少的内存，并且可以更方便的存取整个对象。省内存的原因是新建一个hash对象时开始是用zipmap来存储的。这个zipmap其实并不是hash table，但是zipmap相比正常的hash实现可以节省不少hash本身需要的一些元数据存储开销。尽管zipmap的添加，删除，查找都是O(n)，但是由于一般对象的field数量都不太多。所以使用zipmap也是很快的,也就是说添加删除平均还是O(1)。如果field或者value的大小超出一定限制后，redis会在内部自动将zipmap替换成正常的hash实现。这个限制可以在配置文件中指定（默认配置在redis根目录下的redis.conf中）：

加米谷大数据

2018-07-25

7910

Spark RDD Map Reduce 基本操作

spark 数据结构存储

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中与Map和Reduce相关的API中。

加米谷大数据

2018-07-25

2.7K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态