腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏作者

216

文章

315066

阅读量

58

订阅数

工作经验分享：Spark调优【优化后性能提升1200%】

spark bash bash 指令 hive 分布式

问题导读 1.本文遇到了什么问题？ 2.遇到问题后，做了哪些分析？ 3.本文解决倾斜使用哪些方法？ 4.本次数据倾斜那种方法更有效？ 5.解决性能优化问题的原理是什么？优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb）

2021-03-03

1.4K0

大数据最新技术：快速了解分布式计算:Google Dataflow

大数据分布式

问题导读 1.Dataflow当前的API支持什么语言？ 2.相比原生的map-reduce模型，Dataflow哪些优点？ 3.Dataflow与Cascading、Spark有什么区别和联系？介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法，集成了许多内部技术，如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本（其实Flume本身是提供Java/C++/Python多种接

2018-03-27

2.1K0

12306网站：分布式内存数据技术为查询提速75倍

问题导读： 1、什么是GemFire分布式内存数据技术？ 2、12306购票网站是如何实现大规模访问？摘要：背景和需求　　中国铁路客户服务中心网站(www.12306.cn)是世界规模最大的实时交易系统之一，媲美Amazon.com，节假日尤其是春节的访问高峰，网站压力巨大。据统计，在2012年初的春运高峰期间，每天有2000万人访问该网站，日点击量最高达到14亿。大量同时涌入的网络访问造成12306几近瘫痪。中国铁道科学院电子计算技术研究所作为12306互联网购票系统的承建单位，急需寻

2018-03-27

2.3K0

Flume+Kafka收集Docker容器内分布式日志应用实践

容器镜像服务容器分布式

问题导读： 1、如何设计Flume+Kafka收集架构？ 2、如何修改Docker内配置文件？ 3、如何进行Flume配置？ 4、如何定制RollingByTypeAndDayFileSink？ 1 背景和问题随着云计算、PaaS平台的普及，虚拟化、容器化等技术的应用，例如Docker等技术，越来越多的服务会部署在云端。通常，我们需要需要获取日志，来进行监控、分析、预测、统计等工作，但是云端的服务不是物理的固定资源，日志获取的难度增加了，以往可以SSH登陆的或者FTP获取的，现在可不那么容易获得，但

2018-03-26

2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态