首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏成员
330
文章
292895
阅读量
49
订阅数
闲话 Spark 的一个重要改变
最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2,文章写得很简单,但是体现了 Spark 的一个很重要的发展趋势,就是拥抱 Python 的数据科学社区。
哒呵呵
2021-10-19
7310
简单聊聊 Spark 的诞生史
这篇文章是关于 Spark 的,说实话,我是很犹豫写这篇文章的,因为 Spark 在国内非常火,大牛不计其数并且相关的文章也数不胜数,要找准一个有趣的角度去畅抒 Spark 是很难的。
哒呵呵
2020-03-12
1.1K0
Koalas,构建在 Apache Spark 之上的 Pandas
今天和大家简单聊下 Koalas 。简而言之,Koalas 试图在 Spark 之上提供一个和 Python 的 Pandas 一样接口的包。笔者在第一次接触到 Koalas 时非常惊艳,因为这意味着 Python 数据科学领域的生态圈里很多常用的包都可以直接应用在 Spark 之上,使分析师、数据科学家可以使用自己熟悉的工具操作大数据,而不需要重新学习。简直就是 killer package!
哒呵呵
2019-11-19
1.1K0
Streaming SQL基础
基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达,即Streaming SQL。在《Streaming Systems》中,Streaming SQL 并不像 StreamCQL(基于Storm)属于 SQL-like,而是作为 Classic SQL 的扩展,兼容 Classic SQL 的所有规则。
哒呵呵
2019-05-14
1.1K0
一周好文推荐
这是一个新的尝试,分享这一周遇到的好文章和简要的评论。 Prometheus 和 Flink 搭配使用 https://flink.apache.org/features/2019/03/11/pr
哒呵呵
2019-04-26
4030
由Dataflow模型聊Flink和Spark
Dataflow模型(或者说Beam模型)旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前,流处理常被认为是一种不可靠但低延迟的处理方式,需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果,这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦,例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰,并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据,将不间断的流数据切分为一个个微小的批处理块,从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构,使用类似于Kafka的日志型消息存储作为中间件,从流处理的角度处理批处理。在工程师的不断努力和尝试下,Dataflow模型孕育而生。
哒呵呵
2019-04-26
1.6K0
《Streaming Systems》第四章-窗口
《Streaming Systems》第四章相较于前三个章节更为复杂,倘若不是作者给出了大量的动图,恐怕大部分读者都会晕乎乎的了吧(所以强烈建议这一章观看Safari上的动图或者是Streaming 102)。
哒呵呵
2019-04-26
1.4K1
2018年那些值得推荐的计算机类书籍
当之无愧的2018第一神书,虽然出版时间略晚,后发亦可先制。读此书之前可以先读《Streaming 101》和《Streaming 102》预热。《Streaming Systems》沉淀了谷歌过去十多年对流、批计算的思考,前半部分主要阐述了Dataflow模型,提出流计算不确定性和可靠性的有效解决方案,把批处理统一吸纳进同一套框架,后半部分叙述了Streaming SQL的可行性。这本书的也是大热的 Flink 和Structural Streaming 的理论基础。
哒呵呵
2019-03-14
1.1K0
聊聊Scala
Scala确是一门神奇的语言,从语言特性上来说远比Java、Python更加学院派,Martin大大作为一名教授,使得每个Scala新的特性大多会有一篇博士论文作为支持,不像Python,只有一个PEP提案。看来语言的发明者是教授确实好处很多,但是带来的坏处也不言而喻,曲高而和寡,叫好而不叫座。例如扎根Scala里的函数式编程思想,使用val表示不变量还好理解,高阶函数和惰性求值也还好,稍微思考下也能勉强理解能用了,monoid是什么鬼?可应用和可遍历的函子又是啥?相信读者大部分也一脸迷糊了。这就是Scala,用Scala写Java的程序也还好,毕竟Scala兼容Java,允许程序员龟缩在自己的一亩三分地,抱怨着“学不动了”,更甚者,作为一个允许在Jvm上的,静态类型的编译语言,Scala也能让你写出Python的感觉。
哒呵呵
2018-12-12
1.1K0
Spark生态系统的顶级项目
Spark开发了一个丰富的生态系统,包括le 官方和第三方工具。 我们来看看5个以不同方式加强了Spark的第三方项目。
哒呵呵
2018-08-06
1.2K0
spark的一些小总结
首先,DAG是MR的迭代模型。其中一个优点是,DAG可以做全局的优化,而Hadoop的MR没有意识到这点。
哒呵呵
2018-08-06
3360
聊聊数据仓库的建设
数据仓库的建设是不同于面向业务的操作型数据库,它的核心更应该是业务知识。单纯的理论是无聊的,那么我们从一个实例来,那么就已我手边正在放lpl直播的虎牙直播为例。
哒呵呵
2018-08-06
7170
介绍Scala的样例类
在Scala里存在样例类。它的意义是为了减少重复代码,预先给类定义一些常用的方法。在Scala里使用case关键字来描述样例类。
哒呵呵
2018-08-06
7860
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档