腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术栈

专栏作者

67

文章

83282

阅读量

17

订阅数

奇怪的知识

企业机器学习大数据神经网络深度学习

而数据中台则是将数据服务化之后提供给业务系统，目标是将数据能力渗透到各个业务环节

2022-03-30

7970

Kafka 保证分区有序

Kafka能做到全局有序吗？ Kafka只能保证分区有序，如果只有一个分区，那也是变向的全局有序 Kafka如何保证分区有序通过配置 max.in.flight.requests.per.connection = 1 这个配置是生产者往服务度发送数据的请求数，配置为1，则一次只能发送1个请求，如果失败继续重试，知道成功，才会进行下一个请求的发送，这样就保证了消息的有序性，但是相对性能就大大降低了。通过生产者幂等特性幂等的保证是需要给每条消息加一个 Seqnum的

2021-01-26

6650

Kafka 水位详解

kafka中用水位来描述，一个分区中的可见数据的offset。大概你需要知道这几点：

2021-01-21

7300

Flink系列——感性认识

flink 大数据

老板都是复制整个工厂的整体把控的，一般不亲自动手，只需要管好工厂的车间组长就可以了。 JobManager 则是负责整个集群的资源管理与任务管理，当然他不需要亲自管理，一般都是交给 TaskManager。

2020-07-28

1440

SparkSQL技巧——如何识别SQL语句和执行一个SQL文件

网络安全 sql spark 数据库

SparkSQL好像没有提供相关的Api，至少我是没有找到。于是我自己写了一个.... 代码很简单，如下：

2020-07-15

2.5K0

SparkStreaming On Kafka —— Offset 管理

我之前有写一篇kafka Consumer — offset的控制如果你对于这方面的知识还不太清楚，建议你去看一下，毕竟理解了Kafka的消费者，你才能更好的使用SparkStreaming结合Kafka。

2020-03-24

1.1K0

Crontab 设置的时间有时区差

bash bash 指令

问题描述 crontab中设置每天12:00启动任务，结果发现每天20:00才启动。问题分析明显是时区不一致造成的，所以需要从时区设置入手解决方案查看并修改本地时区查看 more /etc/localtime 备份： cp /etc/localtime /etc/localtime.bak 设置本地时区设置本地时区为 Shanghai cp -pf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 修改 Contab 时区 v

2020-03-20

3.5K0

大数据OLAP框架对比

sql 数据库数据处理 hive 存储

以上是在大数据处理方面常用的四种技术原理，上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力，但是其还是没有摆脱数据量和查询时间的线性关系。于是在OLAP处理方式上，我们多了一种：

2020-03-20

3.8K0

spark sql api hadoop kafka

根据目前的情况看起来，国内普遍对于flink比较看好，从实际情况来看，flink也是以后的发展方向，但是目前Spark的活跃程度远高于Flink，很难说Spark以后的底层不会也才有flink这种方式，

2020-02-25

5170

Redis 持久化方式——RDB

云数据库 Redis unix

Redis持久化数据的两种方式之一，另外一种是AOF。 Redis会定期保存数据快照至一个rbd文件中，并在启动时自动加载rdb文件，恢复之前保存的数据。

2020-02-13

3680

Spark系列——从 cartesian 带你看点不一样的 Shuffle

这只是一个人随意的一些分享，你大概可以放宽心的当休闲的东西来看，看完你大概也许会对Spark会有一些不一样的想法。

2020-02-11

9680

Spark源码 —— 从 SparkSubmit 到 Driver启动

本文主要是以笔记的整理方式写的，仅以分享的方式供你阅读，如有不对的地方欢迎指点错误。读完本文可以学到：当你用 shell 命令执行 spark-submit 之后，到你的代码开始正式运行的一些列知识和细节，恩...粗略的，要看的更细，可以按照流程自己撸源码哈~~~~

2020-01-15

7740

Spark VS MapReduce 浅谈

计算的速度是取决于计算机本身的计算能力的。并且目前来看，所有的计算机计算都是基于内存的（如果有不是的，请原谅我的孤陋寡闻...），也就是说 MR 和 Spark 是没有区别的。

2019-12-26

3680

kafka Consumer — offset的控制

kafka javascript node.js

在N久之前，曾写过kafka 生产者使用详解，今天补上关于 offset 相关的内容。那么本文主要涉及：

2019-12-16

2.9K0

Kafka —— 如何保证消息不会丢失

当我们通过 send(msg, callback) 是不是就意味着消息一定不丢失了呢？

2019-11-26

1.4K0

Hive 多分组函数GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

hive javascript 打包 rollup.js

GROUPING SETS, GROUPING__ID, CUBE, ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。

2019-11-10

1.8K0

Hive 修复分区 MSCK REPAIR TABLE

MSCK REPAIR TABLE命令主要是用来：解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。

2019-11-10

6.6K0

Hadoop面试复习系列——HDFS（一）

node.js 大数据编程算法文件存储存储

转载自： https://cloud.tencent.com/developer/article/1031641 https://my.oschina.net/freelili/blog/1853668

2019-10-30

5610

Kafka 重平衡全流程解析

本文来自极客时间 Kafka核心技术与实战这段时间有看极客时间的这个课程, 这里仅以分享的角度来做个笔记。那么本文将涉及到以下几个知识点：

2019-10-30

3.1K0

Kafka 为什么快？

kafka 存储缓存

本文只想从作者本身的认识来谈谈 kafka 为什么会这么快？我们都知道 kafka 是基于磁盘的，但是他的存储和读取速度确是非常的快的。阅读本文前，你可能需要基本了解 kafka 使用和架构。

2019-10-30

6650

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态