腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏作者

166

文章

192091

阅读量

42

订阅数

Hive常用性能优化方法实践全面总结

hive sql mapreduce 文件存储 javascript

Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。

大数据学习与分享

2020-12-14

2.4K0

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储 mapreduce javascript linux

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-08-10

6240

Spark中广播变量详解以及如何动态更新广播变量

编程算法 vr 视频解决方案 linux 文件存储存储

【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现：HttpBroadcast和TorrentBroadcast，但是鉴于HttpBroadcast有各种弊端，目前已经舍弃这种实现，本篇文章也主要阐述TorrentBroadcast】

大数据学习与分享

2020-08-10

4.2K0

不可不知的Spark调优点

linux 文件存储 jvm spark kafka

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

大数据学习与分享

2020-08-10

4910

Spark闭包 | driver & executor程序代码执行

linux 文件存储编程算法 spark javascript

闭包的作用可以理解为：函数可以访问函数外部定义的变量，但是函数内部对该变量进行的修改，在函数外是不可见的，即对函数外源变量不会产生影响。

大数据学习与分享

2020-08-10

1.5K0

Kafka作为消息系统的系统补充

kafka node.js html socket编程文件存储

Apache Kafka由Scala和Java编写，基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性，但设计上又有很大区别，它不是JMS规范的实现，如Kafka允许多个消费者主动拉取数据，而在JMS中只有点对点模式消费者才会主动拉取数据。

大数据学习与分享

2020-08-10

4810

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储大数据 spark

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-07-27

1.2K0

必须掌握的HDFS相关问题

hadoop 大数据分布式文件存储

安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。

大数据学习与分享

2020-07-26

9650

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态