大数据开发工程师

大数据技术栈

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

而数据中台则是将数据服务化之后提供给业务系统，
 目标是将数据能力渗透到各个业务环节

奇怪的知识

Kafka能做到全局有序吗？
Kafka只能保证分区有序，
 如果只有一个分区，
 那也是变向的全局有序
Kafka如何保证分区有序
通过配置 max.in.flight.requests.per.connection = 1
 这个配置是 生产者 往 服务度 发送数据的请求数，
 配置为1，则一次只能发送1个请求，
 如果失败继续重试，知道成功，
 才会进行下一个请求的发送，
 这样就保证了消息的有序性，
 但是相对性能就大大降低了。
通过生产者幂等特性
 幂等的保证是需要给每条消息加一个 Seqnum的

Kafka 保证分区有序

kafka中用水位来描述，
 一个分区中的可见数据的offset。
 大概你需要知道这几点：

Kafka 水位详解

老板都是复制整个工厂的整体把控的，
 一般不亲自动手，只需要管好 工厂的车间组长 就可以了。
 JobManager 则是负责整个集群的资源管理与任务管理，
 当然他不需要亲自管理，一般都是交给 TaskManager。

Flink系列——感性认识

SparkSQL好像没有提供相关的Api，
 至少我是没有找到。
 于是我自己写了一个....
 代码很简单，
 如下：

SparkSQL技巧——如何识别SQL语句 和 执行一个SQL文件

我之前有写一篇kafka Consumer — offset的控制
 如果你对于这方面的知识还不太清楚，
 建议你去看一下，
 毕竟理解了Kafka的消费者，
 你才能更好的使用SparkStreaming结合Kafka。

SparkStreaming On Kafka —— Offset 管理

问题描述
crontab中设置每天12:00启动任务，结果发现每天20:00才启动。
问题分析
明显是时区不一致造成的，
 所以需要从时区设置入手
解决方案
 查看并修改 本地时区
 
查看
 more /etc/localtime
备份：
 cp /etc/localtime /etc/localtime.bak
设置本地时区
 设置本地时区为 Shanghai
 cp -pf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
修改 Contab 时区
 v

Crontab 设置的时间有时区差

以上是在大数据处理方面常用的四种技术原理，
 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力，
 但是其还是没有摆脱数据量和查询时间的线性关系。
 于是在OLAP处理方式上，
 我们多了一种：

大数据OLAP框架对比

根据目前的情况看起来，国内普遍对于flink比较看好，
 从实际情况来看，flink也是以后的发展方向，
 但是目前Spark的活跃程度远高于Flink，
 很难说Spark以后的底层不会也才有flink这种方式，

架构杂记

Redis持久化数据的两种方式之一，
 另外一种是AOF。
 Redis会定期保存数据快照至一个rbd文件中，
 并在启动时自动加载rdb文件，
 恢复之前保存的数据。

Redis 持久化方式——RDB

这只是一个人随意的一些分享，
 你大概可以放宽心的当休闲的东西来看，
 看完你大概也许会对Spark会有一些不一样的想法。

Spark系列——从 cartesian 带你看点不一样的 Shuffle

本文主要是以笔记的整理方式写的，
 仅以分享的方式供你阅读，
 如有不对的地方欢迎指点错误。
 读完本文可以学到：
 当你用 shell 命令执行 spark-submit 之后，
 到你的代码开始正式运行的一些列知识和细节，
 恩...粗略的，要看的更细，可以按照流程自己撸源码哈~~~~

Spark源码 —— 从 SparkSubmit 到 Driver启动

计算的速度是取决于计算机本身的计算能力的。
 并且目前来看，所有的计算机计算都是基于内存的（如果有不是的，请原谅我的孤陋寡闻...），
 也就是说 MR 和 Spark 是没有区别的。

Spark VS MapReduce 浅谈

在N久之前，曾写过kafka 生产者使用详解，
 今天补上关于 offset 相关的内容。
 那么本文主要涉及：

kafka Consumer — offset的控制

当我们通过  send(msg, callback) 是不是就意味着消息一定不丢失了呢？

Kafka —— 如何保证消息不会丢失

GROUPING SETS,
 GROUPING__ID,
 CUBE,
 ROLLUP
 这几个分析函数通常用于OLAP中，
 不能累加，而且需要根据不同维度上钻和下钻的指标统计，
 比如，分小时、天、月的UV数。

Hive 多分组函数GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

MSCK REPAIR TABLE命令主要是用来：
 解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。

Hive 修复分区 MSCK REPAIR TABLE

转载自：
 https://cloud.tencent.com/developer/article/1031641
 https://my.oschina.net/freelili/blog/1853668

Hadoop面试复习系列——HDFS（一）

本文来自 极客时间 Kafka核心技术与实战
 这段时间有看 极客时间的这个课程,
 这里仅以分享的角度来做个笔记。
 那么本文将涉及到以下几个知识点：

Kafka 重平衡 全流程解析

本文只想从作者本身的认识来谈谈 kafka 为什么会这么快？
 我们都知道 kafka 是基于磁盘的，
 但是他的存储和读取速度确是非常的快的。
 阅读本文前，你可能需要基本了解 kafka 使用 和 架构。

Kafka 为什么快？

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据技术栈专栏，为你提供了大数据技术栈的相关文章，致力于帮助开发者快速成长与发展。

大数据技术栈

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐