首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1278164
阅读量
315
订阅数
Flink1.16 SQL Gateway 迁移Hive SQL任务实战
我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务,当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低,是个人都能写几下并且跑起来,还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去,主要是SQL Boy便宜,无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层,而它本身作为二级队列,并不是真正意义上的网关。
王知无-import_bigdata
2023-02-01
1K0
2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)
整篇文章约2.5万字(不包含引用和连接内容)。如果这个文章对你有帮助,不要忘记 「在看」「点赞」「收藏」 。
王知无-import_bigdata
2022-03-11
1K0
【Spark重点难点】SparkSQL YYDS(上)!
Spark 社区在 1.3 版本发布了 DataFrame。那么,相比 RDD,DataFrame 到底有何不同呢?
王知无-import_bigdata
2021-12-15
8920
Kafka常用监控框架百科全书
Kafka搭建好投入使用后,为了运维更便捷,借助一些管理工具很有必要。Kafka社区似乎一直没有在监控框架方面投入太多的精力,目前Kafka监控方案看似很多,然而并没有一个"大而全"的通用解决方案,各家框架也是各有千秋。很多公司和个人都自行着手开发 Kafka 监控框架,其中并不乏佼佼者。今天我们就来全面地梳理一下主流的监控框架。
王知无-import_bigdata
2021-11-18
6820
360度无死角 | Pulsar与Kafka对比全解析
本文分别从性能、架构和功能方面比较 Pulsar 和 Kafka 的区别,并且介绍 Pulsar 的用例、支持与社区等。
王知无-import_bigdata
2021-07-12
9.7K0
尝鲜!Flink1.12.2+Hudi0.9.0集成开发
Hudi社区最近发生了一些有趣的变化,Hudi集成Flink的方案也已经发布,我个人在官网根据文档试验了一把,整体感觉还不错。我们目前并没有在生产环境中使用,但是随着社区发展和功能越来越完善,相信会有更多的业务开始尝试使用Hudi。本文在此做一个Flink和Hudi集成的分享,作者明喆sama。
王知无-import_bigdata
2021-05-07
1.3K0
一万五千字详解HTTP协议
利用 TCP/IP 协议族进行网络通信时,会通过分层顺序与对方进行通信。发送端从应用层往下走,接收端则从链路层往上走。如下:
王知无-import_bigdata
2021-04-21
5300
后起之秀Pulsar VS. 传统强者Kafka?谁更强
最近,我一直在研究 Pulsar 及其与 Kafka 的比较。通过快速搜索,你会看到这两个最著名的开源消息传递系统之间正在进行的"战争"。
王知无-import_bigdata
2021-02-05
1.6K0
ELK+FileBeat+Kafka分布式系统搭建图文教程
filebeat收集需要提取的日志文件,将日志文件转存到kafka集群中,logstash处理kafka日志,格式化处理,并将日志输出到elasticsearch中,前台页面通过kibana展示日志。
王知无-import_bigdata
2020-08-20
1.8K0
Kafka三种可视化监控管理工具Monitor/Manager/Eagle
点击“Kafka-CDH”连接,进入Kafka集群的详细界面,下图为Kafka的统计信息
王知无-import_bigdata
2020-07-23
31.9K1
Redis6.0主从、哨兵、集群搭建和原理
由于单机Redis存储能力受单机限制,以及无法实现读写操作的负载均衡和读写分离,无法保证高可用。本篇就来介绍 Redis 集群搭建方案及实现原理,实现Redis对数据的冗余备份,从而保证数据和服务的高可用。主从复制是哨兵和集群的基石,因此我们循序渐进,由浅入深一层层的将Redis高可用方案抽丝剥茧展示在大家面前。
王知无-import_bigdata
2020-07-22
3.6K0
SparkSQL的自适应执行-Adaptive Execution
Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点
王知无-import_bigdata
2020-07-03
1.4K0
Kafka设计-恰好一次和事务消息
为了解决重试导致的消息重复、乱序问题,kafka引入了幂等消息。幂等消息保证producer在一次会话内写入一个partition内的消息具有幂等性,可以通过重试来确保消息发布的Exactly Once语义。
王知无-import_bigdata
2020-03-18
2.1K0
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(上)
今年有个现象,实时数仓建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的文章和方案。
王知无-import_bigdata
2019-09-16
1.8K0
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)
在上一章节《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(上)》,我们讲到实时数仓的建设,互联网大数据技术发展到今天,各个领域基本已经成熟,有各式各样的解决方案可以供我们选择。
王知无-import_bigdata
2019-09-16
1.5K0
Airbnb | 如何应用Druid实现大数据实时批量分析
虽然Druid在我们的数据平台架构中为我们提供了很好的服务,但随着我们在公司内部使用Druid的增长,存在新的挑战。
王知无-import_bigdata
2019-08-23
7010
Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用
本地机器上需要有 Java 8 和 maven 环境,推荐在linux或者mac上开发Flink应用:
王知无-import_bigdata
2019-03-07
1.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档