about云-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏成员

216

文章

329449

阅读量

58

订阅数

工作经验分享：Spark调优【优化后性能提升1200%】

spark bash bash 指令 hive 分布式

问题导读 1.本文遇到了什么问题？ 2.遇到问题后，做了哪些分析？ 3.本文解决倾斜使用哪些方法？ 4.本次数据倾斜那种方法更有效？ 5.解决性能优化问题的原理是什么？优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb）

2021-03-03

1.7K0

数据中台到底如何落地实现【含架构图及代码】

对象存储网站 bash bash 指令 https

数据中台已经被很多公司应用，数据中台资料也不少，可是作为程序员更关心的是该如何代码实现。下面是中台相关代码实现及说明。

2020-07-15

9060

Flink1.9新特性解读：通过Flink SQL查询Pulsar

大数据 bash shell bash 指令 https

问题导读 1.Pulsar是什么组件？ 2.Pulsar作为Flink Catalog，有哪些好处？ 3.Flink是否直接使用Pulsar原始模式？ 4.Flink如何从Pulsar读写数据？ Flink1.9新增了很多的功能，其中一个对我们非常实用的特性通过Flink SQL查询Pulsar给大家介绍。我们以前可能遇到过这样的问题。通过Spark读取Kafka，但是如果我们想查询kafka困难度有点大的，当然当前Spark也已经实现了可以通过Spark sql来查询kafka的数据。那么Flink 1.9又是如何实现通过Flink sql来查询Pulsar。可能我们大多对kafka的比较熟悉的，但是对于Pulsar或许只是听说过，所以这里将Pulsar介绍下。 Pulsar简介 Pulsar由雅虎开发并开源的一个多租户、高可用，服务间的消息系统，目前是Apache软件基金会的孵化器项目。 Apache Pulsar是一个开源的分布式pub-sub消息系统，用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本机支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。 Pulsar已经在一些名企应用，比如腾讯用它类计费。而且它的扩展性是非常优秀的。下面是实际使用用户对他的认识。

2020-02-13

2.1K0

centos7:SSH公钥无密码认证

shell ssh bash bash 指令

问题导读 1.如何生成密钥对？ 2.ssh localhost不成功，可能原因是什么？ 3.ssh localhost警告的含义是什么？在当前机器生成密钥对 [Bash shell] 纯

2018-03-27

1.1K0

about云日志分析项目准备高可靠centos7安装jdk1.8【rpm】

bash bash 指令 jdk node.js http

问题导读 1.rpm与tar包有什么区别？ 2.如何rpm包？ 3.如何为rpm指定路径安装？来自云小组 about云日志分析项目准备6-1补充：jdk1.8安装【rpm】 http://ww

2018-03-27

9510

Cloudera Manager Server5及Cloudera Manager Agents5命令整理（about云）

bash bash 指令

问题导读 1.使用什么命令可以开启、停止、重启Cloudera Manager Server 2.如何强制重启Agents 3.什么情况下适合强制重启Agents 4.如何查看Agents状态 1.Cloudera Manager Server命令开启, 停止, 和重启 Cloudera Manager Server 1.1开启 $ sudo service cloudera-scm-server start 1.2停止 $ sudo service cloudera-scm-serv

2018-03-27

1.3K0

让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

apache bash bash 指令

问题导读： 1.什么是flume？ 2.如何安装flume？ 3.flume的配置文件与其它软件有什么不同？一、认识flume 1.flume是什么？这里简单介绍一下，它是Cloudera的一个产品 2.flume是干什么的？收集日志的 3.flume如何搜集日志？我们把flume比作情报人员（1）搜集信息（2）获取记忆信息（3）传递报告间谍信息 flume是怎么完成上面三件事情的，三个组件： source：搜集信息 channel：传递信息 sink：存储信息上面有点简练，详细可以

2018-03-27

9420

从零教你在Linux环境下（ubuntu）如何编译hadoop2.4

bash bash 指令 hadoop apache maven

问题导读： 1.如果获取hadoop src maven包？ 2.编译hadoop需要装哪些软件？ 3.如何编译hadoop2.4? 扩展：编译hadoop为何安装这些软件？一、首先

2018-03-27

1.2K0

扩展Yarn资源模型详解1

xml yarn shell bash bash 指令

问题导读 1.countable资源是指哪些？ 2.noncountable资源，本文列举了什么资源？ 3.标签是否为资源？ 4.如何实现扩展YARN资源模型？概述当前Yarn支持各种资源类型：比如： disk( YARN2139),https://issues.apache.org/jira/browse/yarn-2139 network( YARN2140), https://issues.apache.org/jira/browse/YARN-2140 和HDFS bandwidth(

2018-03-26

8250

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态