#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

【PySpark入门】手把手实现PySpark机器学习项目-回归算法

小小詹同学

PySpark作为工业界常用于处理大数据以及分布式计算的工具,特别是在算法建模时起到了非常大的作用。PySpark如何建模呢?这篇文章手把手带你入门PySpa...

600

从 PageRank Example 谈 Spark 应用程序调优

王知无

最近做了关于Spark Cache性能测试,开始是拿BigData-Benchmark中Spark KMeans来作为测试基准,分别测试各种Cache下应用程序...

1000

大数据平台架构的组成

加米谷大数据

是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kaf...

1800

系列 | Spark之数据倾斜调优

暴走大数据

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

600

从 PageRank Example 谈 Spark 应用程序调优

暴走大数据

Spark给我们提供了一种简单灵活的大数据编程框架,但是对于很多实际问题的处理,还应该多思考下如何让我们写出来的应用程序更高效更节约。除了最后关于性能监控外,以...

1200

Hadoop已死?Hadoop万岁!

昱良

百度 · 研发工程师 (已认证)

各种博客文章、杂志投稿中,“Hadoop已死”的说法死灰复燃,且又开始甚嚣尘上。近年来,Cloudera不再满足于Hadoop开源平台的身份,转而以企业数据公司...

3630

干货 | 数据质量良莠不齐?携程是这样来做多场景下的内容智能发现的

用户1292807

另一方面我们的数据很多是离线处理的,数据量很大(上亿级别),因此要使用大数据技术,结合spark进行大批量的运行。在结合spark过程中,传统机器学习的优势比较...

3240

系列 | Spark之数据倾斜调优

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

6400

艺术上的无尽想象,会以VR/AR的形式“重生”

VRPinea

近日,曾于E3上推出过AR艺术展览《Unreal Garden》的Enklu,在美国旧金山成立了一家线下AR艺术展馆E.den。

6220

免费下载 80多种的微软推出入门级 .NET视频

张善友

深圳市友浩达科技有限公司 · CTO (已认证)

.NET Core 3.0视频系列中宣布了80多个新的免费视频,这些视频同时放在Microsoft的Channel 9 和youtube上面。 在线观看由于跨洋...

10620

憋瞎说,大数据不是你想的那样!

木东居士

腾讯 · 数据分析 (已认证)

学生党以及很多没设计过大数据开发的小伙伴呢,都对大数据这么一个领域感到非常非常的好奇非常非常的神秘,我今天就非要戳穿给你们看。

7020

面向简历学习-数仓工程师成名之道

大蕉

废话不说,直奔主题,我们聊一下该如何学习。居士的观点很简单,就是标题的内容:面向简历学习!

5120

SuperSQL:跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

腾讯大数据

导语:SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Sp...

17840

【HTB系列】靶机Vault的渗透测试详解

徐焱

| gobuster -u http://10.10.10.109 -w /usr/share/wordlists/dirbuster/directory-li...

9430

Hadoop+Hive+HBase+Spark 集群部署(三)

ByteBye

本文由 bytebye 创作 本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名

6630

Hadoop+Hive+HBase+Spark 集群部署(一)

ByteBye

本文由 bytebye 创作 本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名

9410

小文件对HDFS的危害

希望的田野

小文件除了可能会撑爆NameNode。另一个是hive或者spark计算的时候会影响它的速度,因为spark计算时会将数据从硬盘读到内存,零碎的文件将产生较多的...

10320

HBaseSQL及分析-Phoenix&Spark

大数据和云计算技术

本文介绍了详细了HBaseSQL,Phoinix和Spark的架构,适用性以及优缺点,并在最后规划出未来将要设计的一款更符合用户需求的产品。

7610

Spark On HBase

大数据和云计算技术

MapReduce早已经对接了HBase,以HBase作为数据源,完成批量数据的读写。如今继MapReduce之后的Spark在大数据领域有着举足轻重的地位,无...

7820

Spark中的RDD介绍

大数据和云计算技术

我们在研究WordCount的时候碰到了很多诸如JavaRDD、Function之类的字眼,其实这些个代码逻辑就是我们以后日日夜夜不断去写去改的那部分程序了,从...

5410

扫码关注云+社区

领取腾讯云代金券