首页
学习
活动
专区
工具
TVP
发布

Sun

专栏成员
5
文章
7318
阅读量
6
订阅数
大数据平台之binlog采集方案
大数据平台的采集功能是从外部数据源采集数据存储到hive,采集方式分为全量采集、增量采集,增量采集适用于数据规模较大情况,有很多使用场景,但是在增量采集时,平台只能感知数据新增、更新,无法感知到数据删除,为了解决这个问题,本文选用了常用的外部数据源mysql为例进行binlog采集方案介绍。
jemuelmiao
2021-11-23
1.4K0
可扩展多组件监控方案
项目开发中经常会用到很多外部组件,比如mongo、mysql、redis等,虽然在公有环境中使用云上的组件一般都会有完整的监控视图,但是有些项目是部署在私有环境中,使用的都是自建组件,没有完整的监控视图,其次,业务侧也希望将所有组件收归到一起进行统一的监控管理,这样就需要业务侧有一个多组件的监控平台,并且能够方便进行扩展。像笔者目前所在的项目组开发的大数据处理平台,使用了很多外部组件,元数据存储方面有:mongo、mysql、elasticsearch、redis、postgres,大数据存储方面有:hadoop(spark、hive、hbase、hdfs、yarn),为了更好的发现和定位问题,我们需要一个统一的监控管理中心。
jemuelmiao
2021-11-23
4550
基于NiFi+Spark Streaming的流式采集
在实际生产中,我们经常会遇到类似kafka这种流式数据,并且原始数据并不是我们想要的,需要经过一定的逻辑处理转换为我们需要的数据。鉴于这种需求,本文采用NiFi+Spark Streaming的技术方案设计了一种针对各种外部数据源的通用实时采集处理方法。
jemuelmiao
2020-07-02
2.9K0
Java性能分析
最近参与开发的java项目存在比较严重的性能问题,前端访问经常需要很长时间才能获得回包,为了定位系统中的热点区域,需要对系统进行profile,然后针对性的优化。所谓工欲善其事必先利其器,一个好的profile工具需要具备:1、能以图形化形式统计各种性能指标的详细信息,包括内存、CPU、函数调用耗时等信息。2、对原应用影响小。3、能方便进行远程profile。基于以上几点,最终我选择了JProfiler,这个工具的功能非常强大,能满足profile的各种需求。
jemuelmiao
2019-12-03
8680
Java热更新
最近参与开发一个java项目,每次修改调试时就需要重启进程,由于工程较大,进程初始化任务较多,重启较慢,严重影响了开发效率,因此花了点时间研究java热更新机制,在项目中引入热更新后,每次的修改可以立即看到结果,提高了开发效率。
jemuelmiao
2019-12-03
1.7K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档