首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PB 级数据的云端迁移战事

    他们找到了腾讯云游戏行业商务王萌萌和游戏架构师田炜,希望借着新手游小浣熊百将传上线之机,把全部的数据一起迁移到弹性MapReduce(EMR)、Elasticsearch Service(ES)、流计算...并配合腾讯云大数据团队共同提升 Impala 处理能力,力争打造游戏行业第一的处理能力,正是双方像一个团队一样,相互分享的经验,充分深入的讨论,和细致的安排,让这次迁移更有信心”。...迁移完成后,为避免小概率事件,依然采取跑策略并行。 “不是马上就业务切割,万一切割了以后,出现没有预料到的问题怎么办,跑的目的主要是做一个前期验证。” 个别极端问题还是出现了。...也正如之前预料,小浣熊百将传正式上线后,各类数据量都飙升超过历史最高点,而搜狐畅游在腾讯云 EMR 大数据集群支持下实现良好的资源弹性,保障了各项游戏任务能够稳定、高效、安全地运行。...除了游戏行业,腾讯云弹性MapReduce(EMR)、Elasticsearch Service(ES)、流计算 Oceanus、云数据仓库 ClickHouse、云数据仓库 PostgreSQL、数据开发平台

    1.5K30

    一篇并不起眼的Spark面试题

    现场写一个笔试题 RDD中reduceBykey与groupByKey哪个性能,为什么 Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么 spark master使用zookeeper...spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?

    92121

    一篇并不起眼的Spark面试题

    现场写一个笔试题 RDD中reduceBykey与groupByKey哪个性能,为什么 Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么 spark master使用zookeeper...spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?

    4.6K30

    Spark面试题汇总及答案(推荐收藏)

    现场写一个笔试题 RDD中reduceBykey与groupByKey哪个性能,为什么 Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么 spark master使用zookeeper...spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?

    79820

    Spark面试题汇总及答案(推荐收藏)

    现场写一个笔试题 RDD中reduceBykey与groupByKey哪个性能,为什么 Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么 spark master使用zookeeper...spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?

    1.5K30

    不错的大数据课程体系(感谢某机构,希望不属于侵权)

    、Spark应用的资源调度与监控;分布式并行计算框架 MapReduce目前是海量数据并行处理的一个最常用的框架。...其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。...的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。...淘宝11的大屏幕实时监控效果冲击 了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。 学完本课程你可以自己开发升级版的“淘宝11”,还等什么?...本阶段主要就之前所学内容完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要包括有: 企业大数据平台概述、搭建企业 大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群 image.png 课程十二

    3.4K90

    共谱数据的冰与火之歌:Techo TVP 开发者峰会圆满落幕!

    面对国产化的行业变革,数据库从业人员只有躬身入局,尽早转型,做到“一主一备引擎,商用开源两相宜”,才能够抓住机遇,领先一步。...腾讯云数据库技术总监 张青林 下午 · 大数据与数据分析专题 下午,围绕大数据与数据分析专题,腾讯云大数据产品总经理 聂晶进行了开场致辞,随后,易观CTO、腾讯云TVP 郭炜,腾讯云弹性MapReduce...云原生环境下大数据基础技术演进 近年来,云原生变得炙手可热,在《云原生环境下大数据基础技术演进》的主题分享中,腾讯云弹性MapReduce技术负责人陈龙对云原生的概念给出了清晰的定义,“云原生是在源码转化为产品的过程中...腾讯云弹性MapReduce技术负责人 陈龙 实时流式计算实践与优化 随着互联网场景的不断深入,在大数据领域除了海量数据查询外,对数据的实时性也提出了更多更高的要求,越来越多企业将 Flink SQL...提及云原生的概念,常雷认为,云原生系统的本质是“云环境中可以达到弹性可扩展、容错性、松散耦合、易于管理”。

    86031

    有赞大数据离线集群迁移实战

    在 2019 年下半年,原有云厂商的机房已经不能满足未来几年的持续扩容的需要,同时考虑到提升机器扩容的效率(减少等待机器到位的时间)以及支持弹性伸缩容的能力,我们决定将大数据离线 Hadoop 集群整体迁移到其他云厂商...图2.1 单集群迁移方案 优点: 对用户透明,基本无需业务方投入 数据一致性 相比多集群,机器成本比较低 缺点: 需要比较大的跨机房专线带宽,保证每天增量数据的同步和 Shuffle 数据拉取的需要...MapReduce、Spark Jar 任务:需要业务方自行判断:任务的输出是否是幂等的、代码中是否配置了指向老集群的地址信息等 导出任务:一般而言无法跑,如果两个环境的任务同时向同一个 MySQL表...其他任务主要是 MapReduce、Spark Jar、脚本任务,需要责任人自行评估。 3.4 过程保障 工具已经开发好,迁移计划也已经确定,是不是可以让业务进行迁移了呢?...迁移期间由于在夜间启动了大量的 MapReduce 任务,进行 Hive 表数据比对,占用太多离线集群的计算资源,导致任务出现了延迟,最后将数据比对任务放在资源相对空闲的时间段。

    2.4K20

    存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

    腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark、Hbase、Presto、Flink、Druid 等大数据框架。...Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce...在完成上述操作后,会将第一步中合并的数据文件,move 到 hive 表的 location,到此为止,所有数据操作完成。 2....对存储计算分离应用场景深入优化,提升性能,更好的满足客户对存储计算分离场景下降本增效的需求,是我们腾讯云弹性 MapReduce(EMR) 产品研发团队近期的重要目标,欢迎大家一起交流探讨相关问题。...参考资料: [1] 腾讯云HDFS存储服务: https://cloud.tencent.com/document/product/1105/36355 点击文末「阅读原文」,了解腾讯云弹性 MapReduce

    1.5K20

    大数据学习路线图 让你精准掌握大数据技术学习

    Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类 如果你想要学好大数据最好加入一个的学习环境...,成为Hadoop开发人员的基础课程 1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、Yarn模型 4、序列化 5、MapReduce的类型与格式 6、...MapReduce开发环境搭建 7、MapReduce应用开发 8、更多示例讲解,熟悉MapReduce算法原理 四、高级MapReduce,高级Hadoop开发人员的关键课程 1、使用压缩分隔减少输入规模...2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、如何自定义排序规则 5、如何自定义分组规则 6、MapReduce优化 7、编程实战 五、Hadoop集群与管理,...、表与表分区概念 10、表的操作与CLI客户端演示 11、数据导入与CLI客户端演示 12、查询数据与CLI客户端演示 13、数据的连接与CLI客户端演示 14、用户自定义函数(UDF)的开发与演示 十二

    95900

    公有云中的Hadoop

    通过Cloudera,企业可以将同样的EDH体验带入云端并安装部署,而不受选择哪家云供应商的限制。...对于定期的MapReduce作业,企业意识到可以通过只是在工作期间运行集群并只为这段期间的使用付费来节省成本,而不是始终保持集群是激活的。...这些能力可以独立扩展,但是网络会增加延迟,并且共享存储可能成为高吞吐量的MapReduce作业的性能瓶颈,但精确的性能需求因工作负载而异。...缩小选择的一个的起点的是使用Cloudera的参考架构来选择云环境。基于最适合的工作负载选择参考架构,企业可以进一步通过其预期目标获取更准确的TCO,以在公有云部署EDH。...公有云提供了一个通过组合快速部署集群和低成本的存储能力的非常的解决方案,比如Amazon S3.在这个工作负载周期内,管理员分配一个Hadoop集群,从云对象存储中导入数据,处理数据,将结果写回到对象存储

    6.7K60

    红塔银行,核心上云

    该系统采用分布式、微服务技术架构打造,部署在由云南红塔银行联合腾讯云打造的私有云平台上,并实现了全集业务活态运行。 新系统的上线,让红塔银行具备了服务亿级客户、每天亿级交易量的“亿”能力。...首次实现活业务架构 双方合作建设的私有云平台为红塔银行首次实现活业务架构提供了底层支撑。...据悉,红塔银行原有的核心系统采用的是主备架构模式,其业务在底层由一个数据中心承载,而另外一个数据中心的功能是备份数据;新核心系统则计划采用更先进的活架构模式,也就是让底层资源两个数据中心同时承载业务,...此外,红塔银行也依托私有云平台,打造了自动化和灰度发布、PaaS层弹性扩容等能力,并建设配套的可观察系统,具备了一站式从业务视角发现问题,技术视角诊断问题的快速故障处理能力。...另外,头部前十的券商全部选择腾讯云服务,其中私有云平台合作行业领先;十二大保险集团中7家选择与腾讯云深度合作;超90%的持牌消金公司都选择了腾讯云的服务;腾讯云还与许多标杆客户进行了产业金融方面的探索。

    2.8K10

    十年磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史的进程?

    在前段时间举行的 2020 腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露:经过十年的积累,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达 1500 万,每日实时计算次数超过 40 万亿次...十年来,伴随着业务发展,腾讯云形成了「大数据 + AI」的引擎技术架构: 从这张图可以看出引擎技术架构的整体布局,最底层为分布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做 CPU、GPU...最近,在更细分的场景上,腾讯云也对流计算服务 Oceanus、云数据仓库 CDW、ES、弹性 MapReduce、神盾联邦计算以及企业画像等 6 项能力进行了发布和升级。...在大数据生态的基础设施层,腾讯云全新升级了弹性 MapReduce,将企业大数据构建成本降低 30%;同时实现了异构算力的融合,能够在计算高峰期通过云原生的弹性资源或者在线业务的空闲资源快速补充算力。...自 2010 年以来,腾讯内部就开始试水开源,比如将的项目进行跨团队、跨部门、跨业务广泛使用;2014 年,腾讯将其第一代大数据平台的核心——腾讯版 Hive 开源;2017 年,腾讯将其第三代大数据平台的核心

    97740
    领券