腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
about云
专栏作者
举报
216
文章
315066
阅读量
58
订阅数
订阅专栏
申请加入专栏
全部文章(216)
spark(40)
大数据(37)
hadoop(32)
其他(22)
编程算法(19)
sql(18)
apache(17)
人工智能(17)
bash(13)
yarn(13)
机器学习(12)
数据库(12)
存储(11)
shell(11)
hive(10)
php(9)
bash 指令(9)
https(9)
http(8)
开源(8)
区块链(7)
数据挖掘(7)
scala(7)
node.js(7)
安全(7)
hbase(7)
kafka(7)
api(6)
网络安全(6)
数据分析(6)
xml(5)
linux(5)
容器(5)
java(4)
html(4)
神经网络(4)
深度学习(4)
TDSQL MySQL 版(4)
分布式(4)
zookeeper(4)
微信(4)
架构设计(4)
flink(4)
面试(4)
git(3)
企业(3)
openstack(3)
数据处理(3)
chatgpt(3)
比特币(2)
自动驾驶(2)
qt(2)
云数据库 SQL Server(2)
ide(2)
unix(2)
容器镜像服务(2)
mapreduce(2)
图像处理(2)
网站(2)
kubernetes(2)
游戏(2)
缓存(2)
jdk(2)
ssh(2)
erp(2)
推荐系统(2)
tcp/ip(2)
windows(2)
数据可视化(2)
物联网(2)
数据结构(2)
系统架构(2)
微服务(2)
com(2)
gpt(2)
it(2)
工作(2)
数据(2)
对象存储(1)
tensorflow(1)
python(1)
go(1)
r 语言(1)
json(1)
android(1)
oracle(1)
nosql(1)
云数据库 Redis(1)
eclipse(1)
github(1)
maven(1)
搜索引擎(1)
ubuntu(1)
windows server(1)
批量计算(1)
文件存储(1)
短视频(1)
日志数据(1)
金融(1)
运维(1)
爬虫(1)
无人驾驶(1)
hashmap(1)
监督学习(1)
线性回归(1)
ddos(1)
iis(1)
无监督学习(1)
机器人(1)
nat(1)
云计算(1)
数据湖(1)
教育(1)
bug(1)
coding(1)
dataframe(1)
overflow(1)
paypal(1)
server(1)
show(1)
sqoop(1)
stack(1)
streaming(1)
编程(1)
编程语言(1)
程序员(1)
翻译(1)
公众号(1)
行业(1)
互联网(1)
华为(1)
技巧(1)
架构(1)
解决方案(1)
开发者(1)
科技(1)
求职(1)
软件开发(1)
搜索(1)
腾讯(1)
项目经理(1)
异常(1)
搜索文章
搜索
搜索
关闭
工作经验分享:Spark调优【优化后性能提升1200%】
spark
bash
bash 指令
hive
分布式
问题导读 1.本文遇到了什么问题? 2.遇到问题后,做了哪些分析? 3.本文解决倾斜使用哪些方法? 4.本次数据倾斜那种方法更有效? 5.解决性能优化问题的原理是什么? 优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑(原始数据达百亿数量级) 2.优化后,spark计算性能提升了约12倍(6h-->30min) 3.最终,业务的性能瓶颈存在于ES写入(计算结果,ES索引document数约为21亿 pri.store.size约 300gb)
用户1410343
2021-03-03
1.4K
0
大数据最新技术:快速了解分布式计算:Google Dataflow
大数据
分布式
问题导读 1.Dataflow当前的API支持什么语言? 2.相比原生的map-reduce模型,Dataflow哪些优点? 3.Dataflow与Cascading、Spark有什么区别和联系? 介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本(其实Flume本身是提供Java/C++/Python多种接
用户1410343
2018-03-27
2.1K
0
12306网站:分布式内存数据技术为查询提速75倍
分布式
iis
问题导读: 1、什么是GemFire分布式内存数据技术? 2、12306购票网站是如何实现大规模访问? 摘要: 背景和需求 中国铁路客户服务中心网站(www.12306.cn)是世界规模最大的实时交易系统之一,媲美Amazon.com,节假日尤其是春节的访问高峰,网站压力巨大。据统计, 在2012年初的春运高峰期间,每天有2000万人访问该网站,日点击量最高达到14亿。大量同时涌入的网络访问造成12306几近瘫痪。 中国铁道科学院电子计算技术研究所作为12306互联网购票系统的承建单位,急需寻
用户1410343
2018-03-27
2.3K
0
Flume+Kafka收集Docker容器内分布式日志应用实践
容器镜像服务
容器
分布式
问题导读: 1、如何设计Flume+Kafka收集架构? 2、如何修改Docker内配置文件? 3、如何进行Flume配置? 4、如何定制RollingByTypeAndDayFileSink? 1 背景和问题 随着云计算、PaaS平台的普及,虚拟化、容器化等技术的应用,例如Docker等技术,越来越多的服务会部署在云端。通常,我们需要需要获取日志,来进行监控、分析、预测、统计等工作,但是云端的服务不是物理的固定资源,日志获取的难度增加了,以往可以SSH登陆的或者FTP获取的,现在可不那么容易获得,但
用户1410343
2018-03-26
2K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档