#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

大数据Spark框架:Spark生态圈入门

成都加米谷大数据

在大数据计算引擎当中,Spark不能忽视的一个重要技术框架,Spark继承了Hadoop MapReduce的优势,同时实现了计算效率的提升,满足更加实时性的数...

6130

从Hadoop到Spark,大数据技术发展概况

成都加米谷大数据

大数据从概念走向落地,得益于大数据技术的成熟,尤其是以Hadoop为代表的第一代大数据系统框架,为大数据在企业当中的现实落地,提供了稳固的技术支持,而随着大数据...

86110

【赵强老师】Flink的DataSet算子

赵强老师

京东大学 · 大数据学院院长 (已认证)

Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Sca...

133120

ThreadLocal企业中真实应用

公众号 IT老哥

SimpleDateFormat(下面简称sdf)类内部有一个Calendar对象引用,它用来储存和这个sdf相关的日期信息,例如sdf.parse(dateS...

9830

分布式文件系统FastDfs

公众号 IT老哥

随着文件数据的越来越多,通过tomcat或nginx虚拟化的静态资源文件在单一的一个服务器节点内是存不下的,如果用多个节点来存储也可以,但是不利于管理和维护,所...

8320

责任链设计模式:老哥用程序生孩子

公众号 IT老哥

责任链设计模式在日常工作中很常见,也很重要,很多开源框架都采用了责任链设计模式,比如;servlet中的Filter、Dubbo中的Filter、Mybatis...

6720

Spark GenericUDF动态加载外部资源

mikeLiu

文章1中提到的动态加载外部资源,其实需要重启Spark任务才会生效。受到文章2启动,可以在数据中加入常量列,表示外部资源的地址,并作为UDF的参数(UDF不能输...

194190

Spark UDF加载外部资源

mikeLiu

由于Spark UDF的输入参数必须是数据列column,在UDF中进行如Redis查询、白/黑名单过滤前,需要加载外部资源(如配置参数、白名单)初始化它们的实...

15630

Spark Java UDAF 输入struct嵌套结构

mikeLiu

虽然Spark3.0.0的官方文档1已对Spark Java UDAF进行了说明,并且有example代码。因此本文主要解决在实际开发过程中,遇到的2种问题:

15850

Spark UDF1 返回复杂结构

mikeLiu

由java开发UDF1需指定返回值的DataType,spark-2.3.1暂不支持Array、Map这些复杂结构。因此,需要自定义DataType,满足定制化...

18130

Spark UDF实现demo

mikeLiu

使用Spark开发代码过程时,很多时候当前库中的算子不能满足业务需求。此时,UDFs(user defined functions) 派上非常大的作用。基于Da...

16520

【赵强老师】什么是Spark SQL?

赵强老师

京东大学 · 大数据学院院长 (已认证)

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

14290

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

大数据学习与分享

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

13410

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

赵强老师

京东大学 · 大数据学院院长 (已认证)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下...

576950

Spark速度比MapReduce快,不仅是内存计算

大数据技术架构

作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会...

18820

Executor源码分析

幽鸿

腾讯 · 高级工程师 (已认证)

Executor源码的最主要代码是TaskRunner,TaskRunner是一个多线程,首先看其runner方法:

11350

TaskScheduler源码解读

幽鸿

腾讯 · 高级工程师 (已认证)

这里调用了taskScheduler接口,我们打开TaskScheduler trait,trait在scala里就是接口,在IDEA中查看实现的类,使用快捷键...

12730

DAGScheduler源码解读2-task创建

幽鸿

腾讯 · 高级工程师 (已认证)

在上一篇文章中,我们分析了DAGScheduler的代码,重点了解了stage的创建和划分,是重中之重。这篇文章重点分析下task的创建:

13850

【大数据】Spark优化经验&案例--数据倾斜

onephone

腾讯 · 工程师 (已认证)

53880

Hadoop/Spark读写ES之性能调优

ethanzhang

腾讯 · 高级工程师 (已认证)

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

71230

扫码关注云+社区

领取腾讯云代金券