首页
学习
活动
专区
工具
TVP
发布

小道

专栏作者
105
文章
92095
阅读量
25
订阅数
Flink CDC
CDC是Change Data Capture(变更数据获取)的简称。 核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
挽风
2023-12-18
2410
Flink日志采集-ELK可视化实现
  针对按照⽇志⽂件⼤⼩滚动⽣成⽂件的⽅式,可能因为某个错误的问题,需要看好多个⽇志⽂件,还有Flink on Yarn模式提交Flink任务,在任务执行完毕或者任务报错后container会被回收从而导致日志丢失,为了方便排查问题可以把⽇志⽂件通过KafkaAppender写⼊到kafka中,然后通过ELK等进⾏⽇志搜索甚⾄是分析告警。
挽风
2023-11-05
4000
spark-submit --files
  spark-submit --files通常用来加载外部资源文件,在driver和executor进程中进行访问
挽风
2023-10-17
3380
Scala
  3、与过程化编程相⽐,函数式编程⾥的函数计算可以随时调⽤,函数式编程中,函数是⼀等公民
挽风
2023-10-17
1550
Redis
缓存穿透是指查询一个一定不存在的数据。由于缓存命不中时会去查询数据库,查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到数据库去查询,造成缓存穿透。
挽风
2023-10-17
1270
HTable API有没有线程安全问题,在程序中是单例还是多例?
  在单线程环境下使用hbase的htable是没有问题,但是突然高并发多线程情况下就可能出现问题。
挽风
2023-10-17
930
Hive如何进行权限控制?
  目前hive支持简单的权限管理,默认情况下是不开启,这样所有的用户都具有相同的权限,同时也是超级管理员,也就对hive中的所有表都有查看和改动的权利,这样是不符合一般数据仓库的安全原则的。Hive可以是基于元数据的权限管理,也可以基于文件存储级别的权限管理。
挽风
2023-10-17
4490
Zookeeper
Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper提供的服务包括:分布式消息同步和协调机制、服务器节点动态上下线、统一配置管理、负载均衡、集群管理等。
挽风
2023-10-17
2590
Hadoop
  hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves
挽风
2023-10-17
2240
SQL题目
2、   • 当签到天数%7=3 则领取3金币   • 当签到天数%7=0 则领取7金币   • 其余情况,领取1金币
挽风
2023-10-17
2120
Flume
  单机upd的flume source的配置,100+M/s数据量,10w qps flume就开始大量丢包,因此很多公司在搭建系统时,抛弃了Flume,自己研发传输系统,但是往往会参考Flume的Source-Channel-Sink模式。
挽风
2023-10-17
1770
Flink
  1)Flink 是标准的实时处理引擎,基于事件驱动。而 Spark Streaming 是微批(Micro-Batch)的模型;
挽风
2023-10-17
3500
Spark
  Spark是Scala语言实现的核心数据结构是RDD的基于内存迭代计算的分布式框架。
挽风
2023-10-17
2330
HBase
  2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;
挽风
2023-10-17
2590
Sqoop
  Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。
挽风
2023-10-17
1590
Hive_
HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree(操作树)->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树
挽风
2023-10-17
2220
Kafka
注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。
挽风
2022-11-28
4410
Spark的Shuffle原理及调优
  当使⽤reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作的时候,会发⽣shuffle操作。Spark在DAG调度阶段将job划分成多个stage,上游stage做map操作,下游stage做reduce操作,其本质还是MR计算架 构。Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce的输⼊,这期间涉及到序列化和反序列化、跨节点⽹络IO和磁盘读写IO等,所以说shuffle是整个应⽤过程特别昂贵的阶段。
挽风
2022-09-23
4250
Flink学习笔记(10) - CEP
  一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据 —— 满足规则的复杂事件
挽风
2022-09-01
3660
Flink学习笔记(9)-Table API 和 Flink SQL
• Table API 是一套内嵌在 Java 和 Scala 语言中的查询API,它允许以非常直观的方式组合来自一些关系运算符的查询
挽风
2022-05-11
2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档