首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?...12. spark工作机制? 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。

4.5K30

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?...12. spark工作机制? 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。

86321

Spark面试题汇总及答案(推荐收藏)

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?...12. spark工作机制? 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。

76320

Spark面试题汇总及答案(推荐收藏)

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性。...主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过弹性分布式数据集...RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算...memory的弹性扩容,使得内存利用效率更高 2. hadoop和spark使用场景?...12. spark工作机制? 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。

1.1K30

【云顾问-混沌】腾讯云的云上容灾实践

在2023年11月12日,刚经过11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。...https://status.aliyun.com/#/historyEvent 开始时间 (GMT+8) : 2023-11-12 17:44 结束时间 (GMT+8) : 2023-11-12 21...云行情、数据总线 DataHub、检索分析服务 Elasticsearch版、图计算服务 Graph Compute、实时计算 Flink版、智能数据建设与治理 Dataphin、开源大数据平台 E-MapReduce...IP、共享带宽、转发路由器、私网连接、高速通道、IPv6 网关、专有网络VPC、云企业网、VPN网关、FPGA 云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器...、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理、智能录质检、地址标准化、机器翻译、自然语言处理、短信服务、云解析DNS、域名、号码认证服务

44171

PB 级数据的云端迁移战事

他们找到了腾讯云游戏行业商务王萌萌和游戏架构师田炜,希望借着新手游小浣熊百将传上线之机,把全部的数据一起迁移到弹性MapReduce(EMR)、Elasticsearch Service(ES)、流计算...并配合腾讯云大数据团队共同提升 Impala 处理能力,力争打造游戏行业第一的处理能力,正是双方像一个团队一样,相互分享的经验,充分深入的讨论,和细致的安排,让这次迁移更有信心”。...迁移完成后,为避免小概率事件,依然采取跑策略并行。 “不是马上就业务切割,万一切割了以后,出现没有预料到的问题怎么办,跑的目的主要是做一个前期验证。” 个别极端问题还是出现了。...也正如之前预料,小浣熊百将传正式上线后,各类数据量都飙升超过历史最高点,而搜狐畅游在腾讯云 EMR 大数据集群支持下实现良好的资源弹性,保障了各项游戏任务能够稳定、高效、安全地运行。...除了游戏行业,腾讯云弹性MapReduce(EMR)、Elasticsearch Service(ES)、流计算 Oceanus、云数据仓库 ClickHouse、云数据仓库 PostgreSQL、数据开发平台

1.5K30

大数据Spark框架:Spark生态圈入门

在大数据计算引擎当中,Spark不能忽视的一个重要技术框架,Spark继承了Hadoop MapReduce的优势,同时实现了计算效率的提升,满足更加实时性的数据处理需求。...1328642_12dc_4.jpg Spark在设计之初,就是围绕速度、易用性和复杂分析来研发的,当时的背景下,就是MapReduce在实时数据处理上有明显的不足,已经很难满足很多业务场景下的需求。...RDD(Resilient Distributed Datasets),全称是“弹性分布式数据集”。...它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。...Tachyon: 以内存为中心的分布式文件系统,提供内存级别速度的跨集群框架(如Spark和MapReduce)的可信文件共享,可绕过HDFS,以更快地速度执行。

90230

hadoop菜鸟教程 Hadoop学习资料(云计算学习电子书)

大家,又见面了,我是你们的朋友全栈君。 hadoop与大数据的关系? 大数据技术正渗透到各行各业。作为数据分布式处理系统的典型代表,Hadoop已成为该领域的事实标准。...应用场景、原理与基本架构 03、 推荐课外阅读资料 03、MapReduce应用场景、原理与基本架构 作业 04、MapReduce部署以及编程实践(涉及多语言编程) 05、 HBase应用场景...Flume应用场景、原理、基本架构与案例分析 课外阅读 10、Flume应用场景、原理、基本架构与案例分析 11、Mahout数据挖掘工具包介绍 作业 11、Mahout数据挖掘工具包介绍 课外阅读 12...、Sqoop传统数据库与Hadoop间数据同步工具 作业 12、Sqoop传统数据库与Hadoop间数据同步工具 课外阅读 13、下一代Hadoop(2.0)介绍 作业 13、下一代Hadoop(...hadoop技术内幕:深入解析YARN架构设计与实现原理》迷你书 下一代Hadoop(2.0)介绍 推荐课外阅读资料 数据可视化实战 数据挖掘导论 数据挖掘技术在推荐系统的应用by陈运文 月光宝盒11

93410

大数据平台如何进行云原生改造

此时,云原生大数据平台的高弹性扩展、多租户资源管理、海量存储、异构数据类型处理及低成本计算分析的能力,受到了大家的欢迎。但企业应该如何做好大数据平台的云原生改造和升级呢?...Amzone 最开始做 IaaS 的时候还没有云原生的概念,先行者是制定了云原生 12 原则的 Heroku,它当时允许 APP 直接发到网上而不需要管理服务器,这也是早期的云原生应用。...Hadoop 有三大组件:文件系统 HDFS、计算引擎 MapReduce、资源管理器 Yarn。...比如,现在容器存储接口(Container storage interface,CSI)越来越成熟,只要存储系统满足接口要求,那么无论是哪家提供商的应用就都可以访问。...应用没有访问量时就叫停,有用户使用时再分配资源,这样做到错峰资源、弹性扩容。一个资源池可以统一分配资源,提高了资源利用率、管理效率和整个运维效率,让系统运行更合理。

42010

微服务产品12月产品动态

12月动态  TSE 云原生 API 网关 【新功能】Kong 网关支持流量镜像,您可将线上流量镜像到测试环境进行请求分析。...★ TSE 弹性微服务 【商业化】弹性微服务新推出预付费模式:包月预留券,支持以更低的单价包月购买CPU与内存资源,帮助您节省资源的使用成本并更便捷地规划预算。 【商业化】弹性微服务新增新加坡地域。...TSE 注册配置中心 【迁移能力】Nacos即将增强引擎迁移能力,通过注册发现支持您将自建注册中心热迁移上云。...TSE 弹性微服务 【新功能】弹性微服务即将支持环境创建时自动配置底层网络功能。 【新功能】弹性微服务即将支持无入侵、自动上报应用层高级监控指标至Prometheus。...限流的探索与挑战》 《TSF微服务治理实战系列(四)——服务安全》 《高并发场景下如何保证系统稳定性》 《微服务上云快速入门指引》 《Apache Pulsar 在微信大流量实时推荐场景下的实践》 《未来基于北极星的注册中心最佳实践

2.7K50

Spark常见20个面试题(含大部分答案)

大家,又见面了,我是你们的朋友全栈君。 1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖?...https://blog.csdn.net/houmou/article/details/52491419 10、RDD是弹性数据集,“弹性”体现在哪里呢?你觉得RDD有哪些缺陷?...12、RDD分区和数据块有啥联系? 13、当GC时间占比很大可能的原因有哪些?对应的优化方法是? 垃圾回收的开销和对象合数成正比,所以减少对象的个数,就能大大减少垃圾回收的开销。...缓存RDD占用的内存可能跟工作所需的内存打架,需要控制 14、Spark中repartition和coalesce异同?...spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的。

1.2K10

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark、Hbase、Presto、Flink、Druid 等大数据框架。...Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce...在完成上述操作后,会将第一步中合并的数据文件,move 到 hive 表的 location,到此为止,所有数据操作完成。 2....对存储计算分离应用场景深入优化,提升性能,更好的满足客户对存储计算分离场景下降本增效的需求,是我们腾讯云弹性 MapReduce(EMR) 产品研发团队近期的重要目标,欢迎大家一起交流探讨相关问题。...参考资料: [1] 腾讯云HDFS存储服务: https://cloud.tencent.com/document/product/1105/36355 点击文末「阅读原文」,了解腾讯云弹性 MapReduce

1.4K20

有赞大数据离线集群迁移实战

在 2019 年下半年,原有云厂商的机房已经不能满足未来几年的持续扩容的需要,同时考虑到提升机器扩容的效率(减少等待机器到位的时间)以及支持弹性伸缩容的能力,我们决定将大数据离线 Hadoop 集群整体迁移到其他云厂商...图2.1 单集群迁移方案 优点: 对用户透明,基本无需业务方投入 数据一致性 相比多集群,机器成本比较低 缺点: 需要比较大的跨机房专线带宽,保证每天增量数据的同步和 Shuffle 数据拉取的需要...MapReduce、Spark Jar 任务:需要业务方自行判断:任务的输出是否是幂等的、代码中是否配置了指向老集群的地址信息等 导出任务:一般而言无法跑,如果两个环境的任务同时向同一个 MySQL表...其他任务主要是 MapReduce、Spark Jar、脚本任务,需要责任人自行评估。 3.4 过程保障 工具已经开发好,迁移计划也已经确定,是不是可以让业务进行迁移了呢?...迁移期间由于在夜间启动了大量的 MapReduce 任务,进行 Hive 表数据比对,占用太多离线集群的计算资源,导致任务出现了延迟,最后将数据比对任务放在资源相对空闲的时间段。

2.3K20
领券