首页
学习
活动
专区
工具
TVP
发布

about云

专栏成员
216
文章
329289
阅读量
58
订阅数
工作经验分享:Spark调优【优化后性能提升1200%】
问题导读 1.本文遇到了什么问题? 2.遇到问题后,做了哪些分析? 3.本文解决倾斜使用哪些方法? 4.本次数据倾斜那种方法更有效? 5.解决性能优化问题的原理是什么? 优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑(原始数据达百亿数量级) 2.优化后,spark计算性能提升了约12倍(6h-->30min) 3.最终,业务的性能瓶颈存在于ES写入(计算结果,ES索引document数约为21亿 pri.store.size约 300gb)
用户1410343
2021-03-03
1.7K0
数据中台到底如何落地实现【含架构图及代码】
数据中台已经被很多公司应用,数据中台资料也不少,可是作为程序员更关心的是该如何代码实现。下面是中台相关代码实现及说明。
用户1410343
2020-07-15
9060
Flink1.9新特性解读:通过Flink SQL查询Pulsar
问题导读 1.Pulsar是什么组件? 2.Pulsar作为Flink Catalog,有哪些好处? 3.Flink是否直接使用Pulsar原始模式? 4.Flink如何从Pulsar读写数据? Flink1.9新增了很多的功能,其中一个对我们非常实用的特性通过Flink SQL查询Pulsar给大家介绍。 我们以前可能遇到过这样的问题。通过Spark读取Kafka,但是如果我们想查询kafka困难度有点大的,当然当前Spark也已经实现了可以通过Spark sql来查询kafka的数据。那么Flink 1.9又是如何实现通过Flink sql来查询Pulsar。 可能我们大多对kafka的比较熟悉的,但是对于Pulsar或许只是听说过,所以这里将Pulsar介绍下。 Pulsar简介 Pulsar由雅虎开发并开源的一个多租户、高可用,服务间的消息系统,目前是Apache软件基金会的孵化器项目。 Apache Pulsar是一个开源的分布式pub-sub消息系统,用于服务器到服务器消息传递的多租户,高性能解决方案,包括多个功能,例如Pulsar实例中对多个集群的本机支持,跨集群的消息的无缝geo-replication,非常低的发布和端到端 - 延迟,超过一百万个主题的无缝可扩展性,以及由Apache BookKeeper等提供的持久消息存储保证消息传递。 Pulsar已经在一些名企应用,比如腾讯用它类计费。而且它的扩展性是非常优秀的。下面是实际使用用户对他的认识。
用户1410343
2020-02-13
2.1K0
centos7:SSH公钥无密码认证
问题导读 1.如何生成密钥对? 2.ssh localhost不成功,可能原因是什么? 3.ssh localhost警告的含义是什么? 在当前机器生成密钥对 [Bash shell] 纯
用户1410343
2018-03-27
1.1K0
about云日志分析项目准备高可靠centos7安装jdk1.8【rpm】
问题导读 1.rpm与tar包有什么区别? 2.如何rpm包? 3.如何为rpm指定路径安装? 来自云小组 about云日志分析项目准备6-1补充:jdk1.8安装【rpm】 http://ww
用户1410343
2018-03-27
9510
Cloudera Manager Server5及Cloudera Manager Agents5命令整理(about云)
问题导读 1.使用什么命令可以开启、停止、重启Cloudera Manager Server 2.如何强制重启Agents 3.什么情况下适合强制重启Agents 4.如何查看Agents状态 1.Cloudera Manager Server命令 开启, 停止, 和 重启 Cloudera Manager Server 1.1开启 $ sudo service cloudera-scm-server start 1.2停止 $ sudo service cloudera-scm-serv
用户1410343
2018-03-27
1.3K0
让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2
问题导读: 1.什么是flume? 2.如何安装flume? 3.flume的配置文件与其它软件有什么不同? 一、认识flume 1.flume是什么? 这里简单介绍一下,它是Cloudera的一个产品 2.flume是干什么的? 收集日志的 3.flume如何搜集日志? 我们把flume比作情报人员 (1)搜集信息 (2)获取记忆信息 (3)传递报告间谍信息 flume是怎么完成上面三件事情的,三个组件: source: 搜集信息 channel:传递信息 sink:存储信息 上面有点简练,详细可以
用户1410343
2018-03-27
9420
从零教你在Linux环境下(ubuntu)如何编译hadoop2.4
问题导读: 1.如果获取hadoop src maven包? 2.编译hadoop需要装哪些软件? 3.如何编译hadoop2.4? 扩展: 编译hadoop为何安装这些软件? 一、首先
用户1410343
2018-03-27
1.2K0
扩展Yarn资源模型详解1
问题导读 1.countable资源是指哪些? 2.noncountable资源,本文列举了什么资源? 3.标签是否为资源? 4.如何实现扩展YARN资源模型? 概述 当前Yarn支持各种资源类型:比如: disk( YARN2139),https://issues.apache.org/jira/browse/yarn-2139 network( YARN2140), https://issues.apache.org/jira/browse/YARN-2140 和HDFS bandwidth(
用户1410343
2018-03-26
8250
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档