腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1278267

阅读量

315

订阅数

211硕士Java实习全挂！不想卷后端了，大数据方向想快速入门找实习，该怎么做？

java 大数据后端开发入门

今天给大家分享的是一个球友的提问，如果你也正好是应届生再找实习，那么也可以照着这个方向去学习。

王知无-import_bigdata

2023-11-14

2480

Flink1.16 SQL Gateway 迁移Hive SQL任务实战

hive spark https 网络安全 java

我们有数万个离线任务，主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务，当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低，是个人都能写几下并且跑起来，还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去，主要是SQL Boy便宜，无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层，而它本身作为二级队列，并不是真正意义上的网关。

王知无-import_bigdata

2023-02-01

1K0

一文读懂，硬核 Apache DolphinScheduler3.0 源码解析

任务调度日志服务 java

大家能关注DolphinScheduler那么一定对调度系统有了一定的了解，对于调度所涉及的到一些专有名词在这里就不做过多的介绍，重点介绍一下流程定义，流程实例，任务定义，任务实例。（没有作业这个概念确实也很新奇，可能是不想和Quartz的JobDetail重叠）。

王知无-import_bigdata

2022-11-11

1.4K0

报表工具的二次革命

java json sql 报表报表工具

报表工具是一个历史比较悠久的软件类产品了，已经有 20 年以上的发展历史了，在这 20 多年中，产品在不断的更新迭代，不断的随着需求的改变而进步完善，持续发挥着自己的价值

王知无-import_bigdata

2022-11-11

4210

卷起来了，Apache Flink 1.13.6 发布！

java api javascript 打包文件存储

Hi，我是王知无，一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。

王知无-import_bigdata

2022-03-11

1.5K0

Flink1.14.2发布，除了log4j漏洞你还需要关注什么？

api 批量计算 sql flink java

Flink1.14.2 Release版本已经在12月16日发布，主要是修复了Log4j导致的可执行任意代码的漏洞问题，但是还有一些非常重要的功能更新。

王知无-import_bigdata

2022-01-20

9640

【Spark重点难点07】SparkSQL YYDS(加餐)！

spark sql 数据库 java ide

Spark发展到今天，Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中，Spark SQL的优化占比将近50%；而像PySpark、Mllib 和 Streaming的优化占比都不超过10%，Graph的占比几乎可以忽略不计。

王知无-import_bigdata

2021-12-22

6710

Kafka的运维利器-AdminClient

kafka java api 运维

一般情况下，我们都习惯使用kafka-topics.sh脚本来管理主题，但有些时候我们希望将主题管理类的功能集成到公司内部的系统中，打造集管理、监控、运维、告警为一体的生态平台，那么就需要以程序调用API的方式去实现。

王知无-import_bigdata

2021-11-18

1.5K0

Kafka常用监控框架百科全书

kafka zookeeper https 网络安全 java

Kafka搭建好投入使用后，为了运维更便捷，借助一些管理工具很有必要。Kafka社区似乎一直没有在监控框架方面投入太多的精力，目前Kafka监控方案看似很多，然而并没有一个"大而全"的通用解决方案，各家框架也是各有千秋。很多公司和个人都自行着手开发 Kafka 监控框架，其中并不乏佼佼者。今天我们就来全面地梳理一下主流的监控框架。

王知无-import_bigdata

2021-11-18

6820

Flink重点难点：内存模型与内存结构

flink 大数据 jvm 文件存储 java

Java 虚拟机在执行Java程序的过程中会把它在主存中管理的内存部分划分成多个区域，每个区域存放不同类型的数据。下图所示为java虚拟机运行的时候，主要的内存分区：

王知无-import_bigdata

2021-09-22

1.2K0

一网打尽Flink中的时间、窗口和流Join

windows flink 大数据 java scala

首先，我们会学习如何定义时间属性，时间戳和水位线。然后我们将会学习底层操作process function，它可以让我们访问时间戳和水位线，以及注册定时器事件。接下来，我们将会使用Flink的window API，它提供了通常使用的各种窗口类型的内置实现。我们将会学到如何进行用户自定义窗口操作符，以及窗口的核心功能：assigners（分配器）、triggers（触发器）和evictors（清理器）。最后，我们将讨论如何基于时间来做流的联结查询，以及处理迟到事件的策略。

王知无-import_bigdata

2021-09-22

1.6K0

30个Kafka常见错误小集合

zookeeper kafka tcp/ip java spring

原因分析：producer向不存在的topic发送消息，用户可以检查topic是否存在或者设置auto.create.topics.enable参数

王知无-import_bigdata

2021-09-22

5.5K0

生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

java flink kafka scala

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。

王知无-import_bigdata

2021-03-26

4.7K0

Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台

flink 大数据 java linux yarn

目前开发Flink的方式有很多，一般来说都是开发同学写JAVA/SCALA/PYTHON项目，然后提交到集群上运行。这种做法较为灵活，因为你在代码里面可以写任务东西，什么维表JOIN、参数调优，都能很轻松的搞定。但是对开发同学的要求较高，有一定的学习成本。比如有些同学擅长JAVA，有些擅长PYTHON，而在我们的项目开发过程中，是不会允许多种语言共存的，一般来说都是选择JAVA作为我们的开发语言，那么，对于擅长PYTHON的同学来说，再从头开始攀爬JAVA这座大山，而且还得短期能够熟练使用，无疑是难上加难。

王知无-import_bigdata

2021-03-15

4.3K0

Flink1.12集成Hive打造自己的批流一体数仓

大数据 flink sql jar java

小编在去年之前分享过参与的实时数据平台的建设，关于实时数仓也进行过分享。客观的说，我们当时做不到批流一体，小编当时的方案是将实时消息数据每隔15分钟文件同步到离线数据平台，然后用同一套SQL代码进行离线入库操作。

王知无-import_bigdata

2021-01-20

1K0

真·屠龙之术 | 一次SparkSQL性能分析与优化之旅及相关工具小结

linux java 编程算法官方文档 jvm

本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方，鉴于本人水平有限，还请有这方面调优经验的同学不吝赐教。

王知无-import_bigdata

2021-01-06

1.1K0

JVM性能调优实践—G1垃圾收集器全视角解析

java 企业编程算法

本文将总结一下GC的种类，然后侧重总结下G1(Garbage-First)垃圾收集器的分代，结合open-jdk源码分析下重要算法如SATB,重要存储结构如CSet、RSet、TLAB、PLAB、Card Table等。最后会再梳理下G1 GC的YoungGC,MixedGC收集过程。

王知无-import_bigdata

2021-01-05

2.9K0

分布式系统：数据一致性解决方案

java 分布式 html 数据分析

在分布式系统中，随着系统架构演进，原来的原子性操作会随着系统拆分而无法保障原子性从而产生一致性问题，但业务实际又需要保障一致性，下面我从学习和实战运用总结一下分布式一致性解决方案。

王知无-import_bigdata

2020-12-18

2.9K0

【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

scala 腾讯云测试服务 java hbase kafka

新建Scala文件——WebStatStreamingApp.scala，首先使用Direct模式连通Kafka：

王知无-import_bigdata

2020-08-20

1.7K0

Flink CEP 原理和案例详解

java flink 大数据 api

（1）定义复合事件处理（Complex Event Processing，CEP）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件。（2）特征 CEP的特征如下：目标：从有序的简单事件流中发现一些高阶特征；输入：一个或多个简单事件构成的事件流；处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件；输出：满足规则的复杂事件。

王知无-import_bigdata

2020-08-20

7.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态