腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1221190

阅读量

247

订阅数

闭包在Scala中的含义，使用场景和各个场景的代码案例

异步编程 scala 闭包变量函数

在 Scala 中，闭包是一种函数，它可以捕获并使用其作用域之外定义的变量。闭包由两部分组成：一个函数，以及该函数引用的外部变量的环境。这意味着即使外部变量的作用域已经结束，闭包依然可以访问和操作这些变量。

Spark学习技巧

2024-04-12

1010

Spark DataSource API v2 版本对比 v1有哪些改进？

api java python spark scala

1. 由于其输入参数包括 DataFrame / SQLContext，因此 DataSource API 兼容性取决于这些上层的 API。

Spark学习技巧

2022-04-18

8060

8.deltalake的merge四个案例场景

批量计算 javascript scala 数据库

实际上，线上业务很多时候数据源在上报数据的时候，由于各种原因可能会重复上报数据，这就会导致数据重复，使用merge函数可以避免插入重复的数据。具体操作方法如下：

Spark学习技巧

2021-03-05

8120

10.scala的柯里化

方法可以定义多个参数列表，当使用较少的参数列表调用多参数列表的方法时，会产生一个新的函数，该函数接收剩余的参数列表作为其参数。这被称为柯里化。

Spark学习技巧

2021-03-05

4320

8.scala高阶函数

ide 编程算法 scala

高阶函数是指使用其他函数作为参数、或者返回一个函数作为结果的函数。在Scala中函数是“一等公民”，所以允许定义高阶函数。这里的术语可能有点让人困惑，我们约定，使用函数值作为参数，或者返回值为函数值的“函数”和“方法”，均称之为“高阶函数”。

Spark学习技巧

2021-03-05

4790

30.scala的注解

java scala 编程算法 ide

注解将元信息与定义相关联。例如，方法之前的注解 @deprecated 会导致编译器在该方法被使用时打印警告信息。

Spark学习技巧

2020-06-01

4390

编程算法 scala

Scala 中的元组包含一系列类：Tuple2，Tuple3等，直到 Tuple22。因此，当我们创建一个包含 n 个元素（n 位于 2 和 22 之间）的元组时，Scala 基本上就是从上述的一组类中实例化一个相对应的类，使用组成元素的类型进行参数化。上例中，ingredient 的类型为 Tuple2[String, Int]。

Spark学习技巧

2020-05-04

7530

必知｜Scala类型层次结构

java的除了原始类型的所有类都有一个默认的父类Object，那么scala的统一父类是什么呢？这个是有人在群里问浪尖的一个问题，今天浪尖就给大家讲解一下Scala类型层次结构

Spark学习技巧

2020-04-27

1.1K0

Spark Core读取ES的分区问题分析

hadoop scala Elasticsearch Service 编程算法

ES也是比较火热，在日志数据分析，规则分析等确实很方便，说实话用es stack 浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程，有需要的暂时别购买，到时候还找浪尖返现吧。

Spark学习技巧

2019-06-20

1.5K0

一文详解scala泛型及类型限定

scala 微信 spark java

今天知识星球球友，微信问浪尖了一个spark源码阅读中的类型限定问题。这个在spark源码很多处出现，所以今天浪尖就整理一下scala类型限定的内容。希望对大家有帮助。

Spark学习技巧

2018-09-25

2.6K0

Spark的PIDController源码赏析及backpressure详解

spark 架构设计 scala

浪尖一直觉得spark 的源码值得我们细细品读，帮助解决我们生产中的问题，可以学习大牛的编程思路，学习spark架构设计，学习scala及java编程，到处都是成长。但是，成长欠缺的地方可能是大家希望有个人做指导，那么点击阅读原文加入浪尖知识星球，已经和正在公布源码学习视频及文章。帮助大家在技术方面更进一步。

Spark学习技巧

2018-08-01

6690

本节介绍如何在Flink中配置程序的并行执行。FLink程序由多个任务（转换/操作符、数据源和sinks）组成。任务被分成多个并行实例来执行，每个并行实例处理任务的输入数据的子集。任务的并行实例的数量称之为并行性。

Spark学习技巧

2018-08-01

2.4K0

入门大数据必读

大数据 java scala spark

前言，学大数据要先换电脑：保证电脑4核8G内存64位操作系统，尽量有ssd做系统盘，否则卡到你丧失信心。硬盘越大越好。 1，语言要求 java刚入门的时候要求javase。 scala是学习spark要用的基本使用即可。后期深入要求： java NIO，netty，多线程，ClassLoader，jvm底层及调优等，rpc。 2，操作系统要求 linux 基本的shell脚本的使用。 crontab的使用，最多。 cpu，内存，网络，磁盘等瓶颈分

Spark学习技巧

2018-06-22

5110

spark源码单步跟踪阅读-从毛片说起

spark scala eclipse sql

想当年读大学时，那时毛片还叫毛片，现在有文明的叫法了，叫小电影或者爱情动作片。那时宿舍有位大神，喜欢看各种毛片，当我们纠结于毛片上的马赛克时，大神大手一挥说道：这算啥，阅尽天下毛片，心中自然无码！突然想到我们在学习spark时，也可以有这种精神，当我们能读懂spark源码时，spark的技术世界也就真正为我们敞开了大门。中国台湾C++大师侯捷说过：源码面前，了无秘密！那我们就从如何单步调试spark源码开始讲起吧。首先开发工具推荐大家选择IntelliJ，Intellij在和scala语言的结合上，

Spark学习技巧

2018-06-22

1.4K0

scala中常用但其他语言不常见的符号含义 - 心灵空谷幽兰 - 博客园

本文旨在介绍Scala在其他语言中不太常见的符号含义，帮助理解Scala Code。随着我对Scala学习的深入，我会不断增加该篇博文的内容。修改记录 ----2016.11.23 新增scala中最神秘强大的下划线(_)用处下面介绍Scala中的符号： :::三个冒号运算符：表示list的连接操作 val one = List(1,2,3)val two = List(4,5,6)val three = one:::two 　　输出结果为：three: List[Int] = List(1, 2

Spark学习技巧

2018-01-31

4560

干货 | 如何成为大数据Spark高手

spark 大数据 scala java

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术的普及推广，对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热，轻而易举可以拿到百万的薪酬。而要想

Spark学习技巧

2018-01-31

9710

Flink DataStream编程指南

flink 大数据 java 文件存储 scala

Flink程序是执行分布式集合转换(例如，filtering, mapping, updating state, joining, grouping, defining windows, aggregating)的常规程序。集合创建于原始的数据源(例如，通过从文件读取，kafka主题或从本地内存集合中进行创建)。通过sinks返回结果，例如将数据写入（分布式）文件或标准输出(例如，命令行终端)。Flink程序以各种上下文运行，独立或嵌入其他程序中。执行可能发生在本地JVM或许多机器的集群上。取决于数据源的类

Spark学习技巧

2018-01-31

4.2K0

Scala语言基础之结合demo和spark讲实现链式计算

一，什么是链式计算 1，一般开发习惯把事情封装到一个方法中；链式编程思想是把要做的事情封装到block中，给外部提供一个返回这个block的方法 2，链式编程思想方法特点:方法的返回值必须是block，block的参数是需要操作的内容，block的返回值是返回这个block的方法的调用者二，举例说明比如我们定义个case class Person case class Person(private val parent: Person = null ,private val name: String =

Spark学习技巧

2018-01-30

1.1K0

SparkSql的优化器-Catalyst

spark scala sql

一，概述为了实现Spark SQL，基于Scala中的函数编程结构设计了一个新的可扩展优化器Catalyst。Catalyst可扩展的设计有两个目的。首先，希望能够轻松地向Spark SQL添加新的优化技术和功能，特别是为了解决大数据（例如，半结构化数据和高级分析）所遇到的各种问题。第二，我们希望使外部开发人员能够扩展优化器 - 例如，通过添加可将过滤或聚合推送到外部存储系统的数据源特定规则，或支持新的数据类型。Catalyst支持基于规则(rule-based)和基于成本(cost-based)的优化

Spark学习技巧

2018-01-30

2.6K0

Scala语法基础之隐式转换

一，简介从类型S到类型T的隐式转换由具有函数类型S => T的隐式值定义，或者通过可转换为该类型的值的隐式方法来定义。隐含转换适用于两种情况： 1)，如果表达式e是类型S，并且S不符合表达式的期望类型T. 2)，在具有类型S的e的e.m表达中，如果m不表示S的成员在第一种情况下，搜索适用于e并且其结果类型符合T的转换c。在第二种情况下，搜索适用于e的转换c，其结果包含名为m的成员。列表[Int]的两个列表xs和ys的以下操作是合法的： xs <= ys 前提是下面定义的隐式方法list2ordered

Spark学习技巧

2018-01-30

1.1K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态