鸿的学习笔记-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏成员

330

文章

292895

阅读量

49

订阅数

闲话 Spark 的一个重要改变

api apache spark python

最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2，文章写得很简单，但是体现了 Spark 的一个很重要的发展趋势，就是拥抱 Python 的数据科学社区。

2021-10-19

7310

简单聊聊 Spark 的诞生史

spark mapreduce 数据库腾讯云开发者社区 sql

这篇文章是关于 Spark 的，说实话，我是很犹豫写这篇文章的，因为 Spark 在国内非常火，大牛不计其数并且相关的文章也数不胜数，要找准一个有趣的角度去畅抒 Spark 是很难的。

2020-03-12

1.1K0

Koalas，构建在 Apache Spark 之上的 Pandas

spark python api

今天和大家简单聊下 Koalas 。简而言之，Koalas 试图在 Spark 之上提供一个和 Python 的 Pandas 一样接口的包。笔者在第一次接触到 Koalas 时非常惊艳，因为这意味着 Python 数据科学领域的生态圈里很多常用的包都可以直接应用在 Spark 之上，使分析师、数据科学家可以使用自己熟悉的工具操作大数据，而不需要重新学习。简直就是 killer package！

2019-11-19

1.1K0

Streaming SQL基础

apache sql https spark 网络安全

基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达，即Streaming SQL。在《Streaming Systems》中，Streaming SQL　并不像 StreamCQL（基于Storm）属于 SQL-like，而是作为 Classic SQL 的扩展，兼容 Classic SQL 的所有规则。

2019-05-14

1.1K0

一周好文推荐

https python apache http spark

这是一个新的尝试，分享这一周遇到的好文章和简要的评论。 Prometheus 和 Flink 搭配使用 https://flink.apache.org/features/2019/03/11/pr

2019-04-26

4030

由Dataflow模型聊Flink和Spark

spark 大数据数据处理 windows

Dataflow模型（或者说Beam模型）旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前，流处理常被认为是一种不可靠但低延迟的处理方式，需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果，这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦，例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰，并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据，将不间断的流数据切分为一个个微小的批处理块，从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构，使用类似于Kafka的日志型消息存储作为中间件，从流处理的角度处理批处理。在工程师的不断努力和尝试下，Dataflow模型孕育而生。

2019-04-26

1.6K0

《Streaming Systems》第四章-窗口

apache windows spark 大数据

《Streaming Systems》第四章相较于前三个章节更为复杂，倘若不是作者给出了大量的动图，恐怕大部分读者都会晕乎乎的了吧（所以强烈建议这一章观看Safari上的动图或者是Streaming 102）。

2019-04-26

1.4K1

2018年那些值得推荐的计算机类书籍

scala python spark

当之无愧的2018第一神书，虽然出版时间略晚，后发亦可先制。读此书之前可以先读《Streaming 101》和《Streaming 102》预热。《Streaming Systems》沉淀了谷歌过去十多年对流、批计算的思考，前半部分主要阐述了Dataflow模型，提出流计算不确定性和可靠性的有效解决方案，把批处理统一吸纳进同一套框架，后半部分叙述了Streaming SQL的可行性。这本书的也是大热的 Flink 和Structural Streaming 的理论基础。

2019-03-14

1.1K0

scala spark java

Scala确是一门神奇的语言，从语言特性上来说远比Java、Python更加学院派，Martin大大作为一名教授，使得每个Scala新的特性大多会有一篇博士论文作为支持，不像Python，只有一个PEP提案。看来语言的发明者是教授确实好处很多，但是带来的坏处也不言而喻，曲高而和寡，叫好而不叫座。例如扎根Scala里的函数式编程思想，使用val表示不变量还好理解，高阶函数和惰性求值也还好，稍微思考下也能勉强理解能用了，monoid是什么鬼？可应用和可遍历的函子又是啥？相信读者大部分也一脸迷糊了。这就是Scala，用Scala写Java的程序也还好，毕竟Scala兼容Java，允许程序员龟缩在自己的一亩三分地，抱怨着“学不动了”，更甚者，作为一个允许在Jvm上的，静态类型的编译语言，Scala也能让你写出Python的感觉。

2018-12-12

1.1K0

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

2018-08-06

1.2K0

spark的一些小总结

spark mapreduce hadoop 大数据

首先，DAG是MR的迭代模型。其中一个优点是，DAG可以做全局的优化，而Hadoop的MR没有意识到这点。

2018-08-06

3360

聊聊数据仓库的建设

数据库 spark

数据仓库的建设是不同于面向业务的操作型数据库，它的核心更应该是业务知识。单纯的理论是无聊的，那么我们从一个实例来，那么就已我手边正在放lpl直播的虎牙直播为例。

2018-08-06

7170

介绍Scala的样例类

scala spark sql

在Scala里存在样例类。它的意义是为了减少重复代码，预先给类定义一些常用的方法。在Scala里使用case关键字来描述样例类。

2018-08-06

7860

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态