about云-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏成员

216

文章

329614

阅读量

58

订阅数

Spark 2.0技术预览：更容易、更快速、更智能

sql api spark dataframe streaming

　　在过去的几个月时间里，我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作：Apache Spark2.0。Spark 1.0已经出现了2年时间，在此期间，我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的：用户所喜爱的我们加倍投入；用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题：更容易、更快速、更智能。更深入的介绍将会在后面博客进行介绍。

2023-03-21

3550

2021年最新鲜的面试题整理：亿信华辰

spark kafka hive 存储 hadoop

我们VIP成员很多在2021年春节年前、后，拿到了offer。而且不止一个，有的两个，有的四个，有的六个。这里给我们分享其中一位成员，整理的一家公司的面试题，后续将会陆续发布。

2021-03-22

1.1K0

工作经验分享：Spark调优【优化后性能提升1200%】

spark bash bash 指令 hive 分布式

问题导读 1.本文遇到了什么问题？ 2.遇到问题后，做了哪些分析？ 3.本文解决倾斜使用哪些方法？ 4.本次数据倾斜那种方法更有效？ 5.解决性能优化问题的原理是什么？优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb）

2021-03-03

1.7K0

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

大数据 spark hive hbase TDSQL MySQL 版

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

2020-01-14

4.9K0

技术太多学不过来？教你如何越学越带劲

一个人要想不断的提升，不断的改变，需要不断的学习，当然如果你想升职加薪，同样需要学习。然而当代知识层出不穷，学的过来吗？只要方法得当，相信可以通过学习达到我们的目标。摸到了窍门，会让我们越学越带劲，那么该如何学习？ About云传播的是活到老、学到老的学习精神。活到老，学到老自古就有，并不是About云独有，About云只是希望能让更多人相信和传播。活到老，学到老从古到今亦有很多圣人、古今名人身体力行。亦留下很多名言。这里为了避免让大家认为装*，简单的列举几个。 1.学无止境。——荀子 2.学者先要会疑。——程颐 3.学习永远不晚。——高尔基 4.生也有涯而知也无涯。——庄子 5.学而不思则罔,思而不学则殆。——孔子当然还有更多的学习名言，这里不在一一列举。学习改变了About云的成员，通过不断的学习，不断的进步，才能和About云成员，会员，粉丝走在一起。在学习方面，About云亦有所悟和所得，拿出来给大家分享，如果你也有相同的感悟或则疑问，欢迎交流和留言。学而不忘，万学归心：学习我们都知道应该用脑，然而随着时间的时间的推移，我们经常有句话叫做毕业后把学到的知识都还给了老师。很显然如果我们只是用脑，很多知识都会慢慢忘记的。那么如何才能学而不忘，那就要学完之后，要有所得，要有所获，如果只是大脑记忆这不是自己的，而是别人的，只有自己获取了，这就是归心了。入心之后，当下如果有条件就可以应用，如果没条件我们亦能在条件合适的时候，自然应用。那么学习我们就不需要用脑了吗？学习是需要用脑的，而且只有用脑之后，才能达到我们的内心。所谓“书读百遍，其义自见”，就是归心。所以我们要想归心，需要经常锻炼自己，磨炼自己，越来越聪明，从而达到一遍归心。所以如果想学而不忘，就需要万学归心零散学习的重要性：我们平时有一种心态，那就是想大而全的去学习一项技术。这个倒是没有错的。然而由于我们已经不是学生时代，不会有专门的时间，也不会有老师给讲系统的知识。我们平时最多的时间是零碎时间，看到的零散的知识。我们总觉得大的时间，系统的知识，才是我们想要的。我们有时候可能会遇到这种情况，当我们一旦有了假期，有了一套视频的时候，我们可能想着是假期休息，假期休息没有错的，可是我们整个假期都休息，这样我们的时间就过去了，有时候我们看着系统的知识比如整套的视频可能不怎么珍惜，而且可能走马观花似的观看或则有的可能看视频、书籍的时候就会打瞌睡。对于已经工作的人来说，零散的时间，零散的知识，或许使我们最常遇到的。所以我们需要利用好。那么零散的知识对我们来说，可能会造成我们一些错误的认识等误解。所以这就需要我们有部件学习的思维，当我们在利用零散时间，学习的零散的知识的时候，我们需要有组合的思维，最后我们发现，已经对某个知识【例如Spark、Flink等】已经非常熟悉。所以零散的时间学习零散的知识，不怕零散，就怕不会最后的组合和总结。用古代阴阳哲学观诠释学习：阴阳，是中国古代重要的哲学观点，也可以说是古代哲学的基础，也是万古不变的规律。现代计算机的表达，亦是阴阳原理，我们知道计算机最底层是二进制表达的，也就是0和1。那么我们用阴阳的观点来解释学习，阳为当面听老师讲课或则看文章，阴为课后学习，复习，琢磨。相信很多人都是这样的，当面听完老师讲课，下课后就没下文了，又把内容还给老师了。我们阅读完文章，阅后即焚了，同样没有后面的思考。我们学习，同样阴阳结合，才能学的更好，才不至于无效学习如何提高学习效率：提高效率很多人都想提高，而且可能一直找不到答案，但是又经常被人提到。那么怎么提高效率，有没有切实可行的方法。如何提高效率，我们这里从中文化的角度，给大家诠释，需要具备以下条件： 1.知行合一 2.致良知上面两个条件是借用中华文化中圣人王阳明的学说的两个观点。下面是在提高效率方面应用。什么是知行合一，我们很多人或许理解为知道的和行动要一致，这可以算是一种表面理解。另外一种理解，我们产生这个想法的时候，是已经在行动，产生想法是行动的开始。它对我们的当代效率的提升作用是非常大的。这不是就是我们所说的提前准备吗，提前准备是从思想的角度，而这里则是从心学的角度。比如我们要开始一件事情，就以我们写代码为例，我们会以敲代码为工作的开始，而其实当我们产生这个代码该如何实现的想法的时候，这个工作就已经开始了。而很多人，之所以效率慢，是因为开始动手做这件事情的时候，才开始想该如何做这件事情。所以效率自然慢了。另外一个是致良知，似乎这个跟我们提高效率，没有任何的关系？当然致良知，有很多的解释，我们这里从提高效率的角度来诠释。当我们坐下来的时候，我们可能会产生很多的想法，这就是忘记了我们本来的良知，也就是忘记了我们的本心，而产生了一些跟本心无关的内容，俗称走神。所以不忘本心，会让我们提高效率。系统学习、快餐学习、印随学习

2019-03-14

6420

适合小白入门Spark的全面教程

spark apache 开源

1.实时分析在我们开始之前，让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。

2018-08-16

6.2K0

小白与大神存在哪些差距

大数据人工智能区块链 spark

看到很多about云会员，铁粉及QQ群成员，当然也包括一些转行成员，而且整个IT行业很多人可能都面临这个问题，感到困惑。比如没有大数据工作经验，没有人工智能工作经验，该如何找这方面的工作。很多人可能有这方面的经历，学习这方面的技术有一两年的，可是没有做过项目，怎么找工作，公司怎么可能用没有项目经验的人。同样很多培训的成员，似乎也面临这么个问题，我只是模拟的项目，并没有真正的工作过，工作难找，该怎么办？这时候我们在思考一个问题？哪些大佬，功成名就者，各个你认为比较厉害的大神，他们是怎么找工作的？当然有人可能会说，他们有背景，留过学，富二代等等，确实有这方面的，王思聪根本就不用找工作，羡慕吧。奶茶妹妹，人家也不用哎，羡慕吧。可是王思聪，奶茶妹妹只有一个，相信这也是很小的一部分人所具有的优势。我们大部分人面临的问题，依然是毕业之后，如何找到自己心仪的一份工作。如果你了解的够多，相信知道校招，也就是在学校中被招聘的成员，不得不说这部分很幸运。但是如果我们招聘不到，就说明我们不优秀吗？这里我们说下星爷和马云。星爷拉打酱油的梁朝伟去面试，结果梁朝伟考上，星爷落选。跟周星驰一起出道的很多，很多人都已经有很大的名气，结果星爷还只是一个儿童节目的小主持人。当然马云相信大家应该都了解，马云当年去面试肯德基，25个人里24个被录用了。这说明有的人可能赢在了起跑线上，可是人生是个马拉松，起跑超前，不意味着永远跑在前面。如果我们没有那么幸运，学校招聘中没有录取。很遗憾要接受社会考验了。社会招聘很严酷，而且残忍。是的，就是这么残忍。面临社会的考验，没有工作经验，我们该如何解决？那么你认为什么是工作经验？做着办公室，搞着公司的项目，做了几年，到处是漏洞，这就是工作经验？记得曾经流行一句话，你是拥有十年工作经验,还是一个经验用了十年。所以我们经验的获取，如果不用心，可能你永远没有成长。如果用心学习，不断成长，我们并不一定非要在办公室才能获取经验。现在我们来想想，如果在工作中接手一个项目，和我们自己来搞一个项目，他们之间有什么区别？ 1.技术广度与深度如果是已经有经验的人做一个项目，首先他的技术是经过别人考核通过的，是通过技术学习，技术认可洗礼的。在我们找工作的时候，我们会看到各种技术要求。（1）技术广度如下是区块链技术要求：

2018-07-26

2580

Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】

spark 人工智能 apache

问题导读 1.Spark Summit更名为什么名字？ 2.Spark集群在哪些名企应用？ 3.Spark Summit的相关视频和ppt在哪可以下载？自2013年首次举办峰会以来，Spark Summits已成为全球最大的专注于Apache Spark的大型数据活动，聚集全球最优秀的工程师，科学家，分析师和高管，分享他们的知识并接受有关此次开放式培训的专业培训。此外，还有数以千计的人学习了Spark，大数据，机器学习，数据工程和数据科学如何为全球的企业和机构提供新的见解。现在Spark想进一步探索Spark和AI如何共同塑造认知计算领域，以及AI如何通过创新用例在业务中创造新的机会。Spark Summit已经更名为Spark + AI Summit，并将其重点转移到了AI的各个方面：从自驾车到语音和图像识别，以及从智能聊天机器人和新的深度学习框架和技术到高效的机器学习算法，模型和在视觉，言语，深度学习和规模分布式学习方法。 Apache Spark是一个强大的开源处理引擎，以速度，易用性和复杂的分析为基础。它于2009年在加利福尼亚大学伯克利分校启动，现在由独立于供应商的Apache软件基金会开发。自从发布以来，Spark已广泛应用于各行各业的企业迅速采用。雅虎，eBay和Netflix等互联网巨头已经大规模地部署了Spark，在超过8,000个节点的集群上处理了数PB的数据。 Apache Spark也成为最大的大数据开源社区，来自250多个组织的超过1000个贡献者。 Spark Summits每年举行，大家都喜欢下载相关视频和ppt。那么这些视频和ppt官网到底在哪里下载，下面详细介绍。首先输入下面网址： https://databricks.com/sparkaisummit 我们看到下面图示：

2018-07-26

5370

spark零基础学习线路指导【包括spark2】

spark php hadoop

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？

2018-07-26

1.5K0

Spark利用Project Tungsten将硬件性能提升到极限

spark python sql 机器学习

我们将为你介绍性能提升的下一阶段——Tungsten。在2014年，我们目睹了Spark缔造大规模排序的新世界纪录，同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungsten项目将是Spark自诞生以来内核级别的最大改动，以大幅度提升Spark应用程序的内存和CPU利用率为目标，旨在最大程度上压榨新时代硬件性能。Project Tungsten包括了3个方面的努力： Memory Management和Binary Processing：利用应用的语义（appl

2018-03-27

1.1K0

spark与hadoop相比，存在哪些缺陷（劣势）

spark hadoop 大数据开源

一说大数据，人们往往想到Hadoop。这固然不错，但随着大数据技术的深入应用，多种类型的数据应用不断被要求提出，一些Hadoop被关注的范畴开始被人们注意，相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。 Spark是一个基于RAM计算的开源码ComputerCluster运算系统，目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架，但基于RAM和优化设计，因此在交换式数据分析和datami

2018-03-27

1.5K0

王联辉：Spark在腾讯应用及对企业spark使用指导

问题导读 1.腾讯如何使用Spark 技术的？带来了哪些好处？ 2.Spark 技术最适用于哪些应用场景？ 3.企业在应用Spark 技术时，需要做哪些改变吗？ 4.企业如果想快速应用Spark 应该如何去做？转自csdn,问题都很犀利，希望对想了解spark的同学，有所帮助王联辉腾讯高级工程师目前就职于腾讯数据平台部，担任高级工程师，主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作，经历过Hadoop集群大规模的演变和扩张，对H

2018-03-27

1.1K0

Spark机器学习API之特征处理

spark 机器学习 api

问题导读： 1.怎样利用Spark机器学习API进行特征提取？ 2.怎样利用Spark机器学习API进行特征选择？ 3.Spark机器学习API中的特征选择有哪几种方法？ Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换

2018-03-27

7260

使用Spark MLlib给豆瓣用户推荐电影

spark 编程算法推荐系统

问题导读： 1.常用的推荐算法有哪些？ 2.推荐系统是什么样的流程？ 3.从这个推荐系统我们能学到什么？推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。随着电子商务规模的不断扩大，商品数量和种类不断增长，用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同，以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLen

2018-03-27

2K0

spark入门基础知识常见问答整理

spark hadoop 数据库大数据 sql

一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布

2018-03-27

1.2K0

spark入门（2.0.1版本）：概述，下载，编译，运行环境及实例运行

问题导读 1.spark下载方式有哪些？ 2.spark可以运行在哪些系统？ 3.spark支持哪些语言？ 4.如何运行spark各种语言版本例子？概述 spark是一个快速通用的计算系统集群。它提供Java高级APIs,Scala,Python和R和一个支持通用执行graphs优化引擎。他还支持一组丰富的高级工具包括spark sql和结构化数据处理，mllib机器学习， GraphX图像处理和Spark Streaming. 下载下载链接：http://spark.apache

2018-03-27

9820

spark开发基础之从Scala符号入门Scala

spark scala java

问题导读 1.Scala中有哪些常见符号？ 2.本文讲了哪些符号？ 3.你对符号的理解是什么？ 4.<-,->,=>,Int=,_ 它们含义是什么？用在什么地方？当我们学习spark的时候，我们知道spark是使用Scala语言开发的，由于语言是相通的，所以对于传统程序员【Java，.net，c等】，我们能看懂Scala程序是没有问题的。但是当我们看到它的时候，却傻眼了。那么多符号，左箭头，右箭头，下划线等等搞得摸不着头脑。看来如果想顺利的学习，我们必须学一下Scala了。很多都是从变量定义，函

2018-03-27

2.5K1

about云spark开发基础之Scala快餐

---- spark是用Scala语言来写的，因此学习Scala成为spark的基础。当然如果使用其它语言也是可以的。从性能上来讲，及代码简洁等方面，Scala是比较好的一个选择。当前我们的生活都是处于快节奏，各方面都讲究快，快--讲究的是效率，这里同样是想让大家快速入门Scala，如同吃快餐一样，因此命名为快餐Scala。文中如有不当之处，大家多批评指正。 Scala是函数式编程，继承了其它语言的很多特点，并且发展了自己特性。因此下面所涉及的内容，需要熟悉一门语言，特别是Java语言。如果没有语言基础

2018-03-27

7970

让你真正理解什么是SparkContext, SQLContext 和HiveContext

spark sql hive yarn

问题导读 1.你认为SparkContext的作用是什么？ 2.SQLContext 和HiveContext的区别是什么？ 3.SQLContext、HiveContext与SparkContext的区别是什么？第一步spark driver 应用程序创建SparkContext，SparkContext 允许spark driver 应用程序通过资源管理器访问集群。资源管理器可以是Yarn，或则spark集群管理器。为了创建SparkContext，你可以第一步创建SparkConf，Spa

2018-03-27

3.2K0

Spark1.0.0 学习路线指导

问题导读 1.什么是spark？ 2.spark编程模型是什么？ 3.spark运维需要具有什么知识？ 4.spark如何监控？ 5.如何搭建开发spark? 微信中带不上链接，导致每次发一些认为

2018-03-27

6030

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态