腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

飞总聊IT

专栏作者

562

文章

493854

阅读量

87

订阅数

Spark Connect：等得黄花菜凉了。。。

网站编程算法 spark ide 打包

Spark Connect是我想写的一个大数据相关的选题。但是由于各种原因一直拖拖拉拉的，就拖到了2022年的最后几天。

2023-01-10

3170

飞总带大家解读 AWS re:Invent 2022大数据相关的发布，一句话总结：惨不忍睹。。。

spark 大数据

兴致勃勃的在网络上看了亚马逊AWS年度大会re:Invent2022。我每年有空就会看，虽然从来没去LasVegas现场参观。

2023-01-10

5450

Flink被阿里巴巴买后，果然还是废了

flink 大数据 spark 开源

Flink Forward Asia 2022最近在开，有关Flink的讨论，又开始在国内热闹起来。从技术上来说，Flink当然已经是streaming processing的一个标杆了。

2023-01-10

5210

Facebook的新开源项目Velox，有点命运多舛啊。。。

开源 spark 大数据 c++

本文首发微信公众号：飞总聊IT Velox是Facebook（Meta)开源的一个新的大数据项目。今年VLDB的会议上，Velox团队也发了论文。我每年都有阅读论文的习惯，一般就是看看SIGMOD/VLDB，之前也去开会，疫情以后这方面都懈怠了。今年的VLDB有几篇挺有意思的文章，所以我打算找时间看一下。我第一篇看的就是这个大名鼎鼎的Velox。具体Velox是什么的可以看看官方宣传： https://engineering.fb.com/2022/08/31/open-source/velox/

2022-10-09

1.2K0

Delta Lake 2.0正式发布，Databricks能赢吗？

开源网络安全 flink 大数据 spark

新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变，它都会生成Change Data Feed。你要是订阅了这个东西，比如说把它放进一个Kafka集群里面，理论上就可以准实施复制出一份数据来。这个东西有点像什么呢

2022-08-29

5700

这个大数据开源项目多半要黄，但我希望它能成。。。

spark 开源 hive

新粉请关注我的公众号今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢？简单来说，这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine，比如ClickHouse的能力。要具体来说呢，就是在Spark查询Plan生成的时候，Gluten把一些Spark的查询计划拦截下来，让下面的native 引擎比如ClickHouse去执行。当然，由于native引擎的问题，有些东西干不了，Gluten对干不了的operator重

2022-08-29

1.3K0

Delta Lake 2.0：Databricks的急病乱投医？？？

开源 spark 网站

新粉请关注我的公众号在今年的Data+AI summit上，Databricks宣布了不少东西，其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake，这次宣布开源2.0。这个2.0按照Databricks的说法，就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。 Delta Lake这个项目Databricks最开始做的应该是最早的，但是不开源，只是卖钱给付费客户用。 2019年的时候终于开源了。开

2022-07-01

6210

星环科创板上市获批，小心别被割韭菜！

hadoop spark 开源

新粉请关注我的公众号根据最新消息，星环科技上市科创板的申请被批准了。星环科技即将在科创板登录。对于在大数据领域工作的人来说，星环科技一定是很熟悉的一家公司了。有人对它的称呼是中国的Cloudera。当然这个称呼也不完全正确的形容和概括了这家公司。但是这家公司和Cloudera是很有渊源的。这渊源要从一家傻13公司Intel说起。Intel上海研发中心做了一款Hadoop的发行版，并代表Intel正式跨入到了Hadoop发行商的竞争行列。这个事情后面的发展就比较狗血了。Intel内部发生了一次政治斗争

2022-06-24

7460

Databricks一次拿了SIGMOD两个大奖

开源 spark flink mapreduce 大数据

新粉请关注我的公众号在最近费城召开的SIGMOD2022上，Databricks当仁不让成为了赢家，一共拿到了两项大奖： 1.Spark拿到了SIGMOD System Award 2.Photon拿到了Best Industry Paper Award SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多，但是大部分人还是觉得ICDE差一点。 2020年以前我每年会尽量争取去其中一个会议，以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了，很

2022-06-17

5640

聊聊DatabricksSQL和Apache Kyuubi

开源 sql apache 大数据 spark

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

2022-05-05

6710

Apache Kyuubi：一个有趣的大数据开源项目

spark hive sql apache jdbc

新粉请关注我的公众号我很久没写大数据的东西了，最主要的原因是因为我不知道写啥。这个领域里面还在发生着很多事情，但是有深度的，有意义的事情不多，有趣的事情也不多。最近看到了Apache Kyuubi这个项目，应该严格的说是Apache Kyuubi（incubating）。项目还在孵化器中，并没有升级成为Apache的正式项目。这是一个挺有趣的项目，所以我打算来写写。我花了一点时间去了解这个项目的实际情况，发现这个项目是由网易开源的，还是有点吃惊。 Kyuubi是一个什么项目呢？我们用它自己的英文

2022-05-05

1.1K0

三面字节总结：Spark+hadoop+数据仓+Flink+kafka 资料一应俱全！

大数据 hadoop spark java kafka

从时间节点上来看，每年的 3月、4月是一年中求职跳槽的黄金季！最近也收到很多小伙伴的后台留言 “有没有大数据学习资源，进阶学习路线，PDF，电子书，面试文档等等...” 一系列问题，这篇文章等于是针对以上的问题统一做回答了。肝了一周，做了一些资源筛选，依照自己的学习经验和相关的资料做个整理，把一些我看过的精品视频，技术书籍，学习路线，面试文档等资源一并打包好分享给大家，质量都非常高！！划重点：建议大家都保存一份！！学完之后不论是找工作、厂内晋升、还是跳槽涨薪都不在话下！一共分为 5 大板块组成

2022-04-19

3430

大数据凉凉了？Apache将一众大数据开源项目束之高阁！

hadoop 大数据 apache 开源 spark

这两天Apache基金会，这个因为大数据而成名的开源基金会连续不断的宣布将一系列的项目束之高阁报废，也就是所谓的进入Apache Attic。这些项目的PMC委员会会解散。

2021-04-21

8730

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

2019-12-09

1K0

抢尽 Spark 风头的 Flink 强在哪里？

大数据 spark apache 编程算法

Flink 也是出自 Apache Software Foundation, 师出名门。加入豪门 Apache 的技术都可以得到长足的发展，这观点在之前的文章中，已经说的太多了，如果你有能打的技术，不放开源给 ASF，有一帮子狂热分子能和你造福人类，维护世界和平。

2019-12-02

7760

Spark难点 | Join的实现原理

spark 大数据数据库 sql

当前SparkSQL支持三种join算法：Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join，只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实，Hash Join算法来自于传统数据库，而Shuffle和Broadcast是大数据在分布式情况下的概念，两者结合的产物。因此可以说，大数据的根就是传统数据库。Hash Join是内核。

2019-11-19

1.4K0

DataBricks新项目Delta Lake的深度分析和解读。

开源大数据 spark 数据库 sql

DataBricks最近新开源了一个项目Delta Lake。这其实不算是个新项目了。DataBricks在其商业版里面提供这样的功能已经有一段时日了。对我来说Delta Lake就是久闻大名，但是不知道庐山真面目。

2019-07-12

4.7K0

阿里Blink开源，会不会是Flink分崩离析的开始？

大数据开源 apache spark

今天刷朋友圈，首先看到的是AI前线的这篇文章：重磅！阿里Blink正式开源，重要优化点解读。这篇文章开篇大概是这样的：

2019-05-06

1.2K0

大数据那些事(9):起早贪黑竹篮打水的18摸(IBM)

大数据 nat spark 数据库

18摸的名字在国内怎么来的已经无法可考察了。International Business Machine的名字听起来要霸气很多。大数据这趟集，IBM是赶得早，自己把自己给玩掉了，现在一无所获的只能蹭Spark的残羹冷炙。曾经每次走进IBM Almaden Research Center的那个山顶的时候，我都油然升起一种顶礼膜拜的感觉。IBM Almaden Research Center里面有两个镇山之宝，一块油桶一般大的硬盘，一本System R的手册。前者代表它做出了世界上第一块硬盘。虽然说18摸

2018-04-08

1.2K0

大数据那些事(33):SparkSQL

大数据 spark sql

SparkSQL是Spark新推出来的一个模块。关于SparkSQL的八卦其实知道的不多，但是技术上倒能说几句。早先我文章提到了Shark是个失败的作品。这个观点从Shark出来不久我就这样觉得了。SparkSQL的论文承认Spark团队也认为Shark是一条胡同走到黑的选择。既不能够对本地的RDD做查询，也不能有效和其他的Spark的模块交互。英雄所见略同。当然狗熊所见也差不多。至于是英雄还是狗熊，各位看官自己判断。 SparkSQL最主要的东西有两个，一个是DataFrame全面取代了RDD。我必

2018-04-08

6870

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态