首页
学习
活动
专区
工具
TVP
发布

飞总聊IT

专栏作者
562
文章
494029
阅读量
87
订阅数
Trino Summit 2022:Trino的现状和未来
Trino Summit 2022今年11月在San Francisco召开。我今年挺想现场去参加这个会议的,但是公司今年砍掉了所有travel的budget,所以就没去。
用户1564362
2023-01-10
7140
Flink被阿里巴巴买后,果然还是废了
Flink Forward Asia 2022最近在开,有关Flink的讨论,又开始在国内热闹起来。从技术上来说,Flink当然已经是streaming processing的一个标杆了。
用户1564362
2023-01-10
5230
TiDB--OceanBase Cloud的另一场鏖战。。。
OceanBase Cloud是OceanBase做的跨云SaaS的HTAP数据库服务。之前我写了一篇文章:OceanBase Cloud大战PolarDB,好戏上演。。。,主要分析了OceanBase Cloud面对公有云厂商自己的云SaaS HTAP服务的时候,需要面临什么样的竞争和战斗。
用户1564362
2023-01-10
5080
Facebook的新开源项目Velox,有点命运多舛啊。。。
本文首发微信公众号:飞总聊IT Velox是Facebook(Meta)开源的一个新的大数据项目。今年VLDB的会议上,Velox团队也发了论文。 我每年都有阅读论文的习惯,一般就是看看SIGMOD/VLDB,之前也去开会,疫情以后这方面都懈怠了。 今年的VLDB有几篇挺有意思的文章,所以我打算找时间看一下。 我第一篇看的就是这个大名鼎鼎的Velox。具体Velox是什么的可以看看官方宣传: https://engineering.fb.com/2022/08/31/open-source/velox/
用户1564362
2022-10-09
1.2K0
能否掌控复杂性,是一个分布式数据库生存下去的唯一方法
2022 年 9 月 22 日,企业级开源分布式数据库厂商 PingCAP 用户峰会在京举行。参会的有PingCAP和其重量级客户、合作伙伴及产业大咖。我应邀在线参加了会议。 在会议上我听到了PingCAP的创始人兼CEO刘奇的观点:“分布式数据库是一个高度复杂的系统,和云的结合使得复杂性进一步提升。分布式数据库能否存活下去,取决于能否掌握复杂度。” 这个观点我觉得还是很有道理的。分布式数据库相对于单机版的数据库来说,其复杂性是指数级增长的。具体来说,一方面,数据会被存储在不同的机器上,另外一方面,很多查询
用户1564362
2022-10-09
4450
为什么大数据平台要回归SQL
先说观点:因为还没找到更好的。 接下来说原因,首先来看看大数据平台都在干什么。 原因 结构化数据计算仍是重中之重 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台 80% 以上都存储着非结构化数据。不过,数据光存储还不行,只有利用起来才能产生价值,这就要进行分析了。 大数据分析要分结构化和非结构化数据两部分讨论。 结构化数据主要是企业生产经营过程中产生的业务数据,可以说是企业的
用户1564362
2022-09-29
8440
中科院院士,解决“卡脖子”了。。。
根据深圳计算科学研究院的公众号文章“数字中国”成果奖出炉!深算院崖山数据库系统入选“十大硬核科技”!,由中科院外籍院士樊文飞带头研发的崖山数据库,凭借自主可控,源头创新,破解关键领域卡脖子问题的超群实力,获得了第五届数字中国建设峰会十大硬核科技奖项。 樊文飞院士是美籍华人,本科硕士毕业于北大,博士毕业于美国宾夕法尼亚大学。毕业后先进入美国贝尔实验室工作,2004年起开始长期在英国爱丁堡大学任职,2019年成为中科院外籍院士。 樊院士是数据库领域知名的学者,曾经获得了数据库领域SIGMOD/PODS/VLDB
用户1564362
2022-09-08
8410
Delta Lake 2.0正式发布,Databricks能赢吗?
新粉请关注我的公众号 我收到了一封邮件,具体内容截图如下: 简单说,就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布,也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。 首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变,它都会生成Change Data Feed。你要是订阅了这个东西,比如说把它放进一个Kafka集群里面,理论上就可以准实施复制出一份数据来。 这个东西有点像什么呢
用户1564362
2022-08-29
5720
Facebook的开源Native大数据引擎Velox能成为我说的又好又快的Native引擎吗?
新粉请关注我的公众号 昨天公众号的文章:这个大数据开源项目多半要黄,但我希望它能成。。。写了以后,后台留言最多的就是问我怎么看Facebook的Velox这个开源native引擎。 其中,有该团队的人说,Gluten也和他们合作,现在已经基本上能够替换Facebook内部的Presto了,Spark的替换还在开发中。 这个问题的答案,说实话,我也不知道。我没研究过它的代码。所以我也没有什么发言权。相比较而言,ClickHouse我还真的看过一些源代码,懂得多一点。所以多少能扯上几句。 但是我如果就这样回答了
用户1564362
2022-08-29
8660
这个大数据开源项目多半要黄,但我希望它能成。。。
新粉请关注我的公众号 今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢?简单来说,这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine,比如ClickHouse的能力。 要具体来说呢,就是在Spark查询Plan生成的时候,Gluten把一些Spark的查询计划拦截下来,让下面的native 引擎比如ClickHouse去执行。 当然,由于native引擎的问题,有些东西干不了,Gluten对干不了的operator重
用户1564362
2022-08-29
1.3K0
数据库内核开发人员,值一个马克杯!!!
新粉请关注我的公众号 今天和大家聊聊圈子里白嫖的事。 某HTAP数据库团队最近在其公众号上写文章,招募对数据库内核开发感兴趣的人员去给他们的开源项目做贡献。 这个贡献是什么呢?简单描述一下,这个HTAP产品,一边是A语言写的OLTP引擎,一边是B语言写的OLAP引擎。 在执行SQL的时候,OLTP里面已经实现的函数,需要在OLAP里用B语言再实现一遍。 否则的话,系统就没办法把包含了这部分函数的SQL操作给下推进OLAP系统执行。那SQL执行起来就死得难看了。 OLTP产品是兼容很成熟的某著名开源数据库,所
用户1564362
2022-07-27
4420
有没有完全自主的国产化数据库技术
前段时间的俄乌冲突,Oracle 宣布“暂停在俄罗斯的所有业务”,相信大家的心情绝不是隔岸观火,而是细思恐极。 数据库号称 IT 领域三大核心之一(其他两个是 CPU 和操作系统),一直以来都被国际巨头垄断,人家控制着核心,想什么时候锁喉就什么时候锁,你一点办法都没有。 现在解决这个问题的办法只能是自强,将数据库核心技术掌握在自己手里,做属于自己的国产数据库。其实,这个事我国也已经张罗了几十年,早在上世纪 80 年代以研究所和大学为主的国家队就开始投入研发国产数据库,并在 90 年代相继推出了几款数据库产
用户1564362
2022-07-20
6060
震撼!!!大佬们对ClickHouse的讨论,值得深思。。。
新粉请关注我的公众号 前两天在一个数据库大佬云集的群里,旁观目睹了几位大佬对ClickHouse的一段讨论,我觉得颇有收益,值得写下来。 我就试着还原记录一下这段对话的过程,然后再讨论为什么值得深思: 大佬A表示,现在互联网公司开始研究ClickHouse了。 大佬B接过话,表示,研究ClickHouse的人很多,但是有几家愿意给ClickHouse付钱呢? 大佬B继续说,假设基于ClickHouse的二次开发,需要500万人民币的投入,而为了解决问题,买ClickHouse公司的咨询费用,只需要投入200
用户1564362
2022-07-19
4040
PolarDB5年了,它做对了哪些事?
关系数据库技术,作为计算机技术的基石,兴起于上世纪的80年代。最初的两个系统是IBM Almaden研究院的System R和加州大学伯克利分校的Ingres。 在商业领域,经过一系列的厮杀,在淘汰掉包括Informix和SyBase这些强劲对手以后,Oracle,IBM和微软最终成为了商业数据库领域的三驾马车。 其中Oracle数据库更是一骑绝尘,在相当长一段时间内,Oracle数据库被广泛应用到了包括银行等在内的各种领域,在商业数据库领域是无敌的代名词。 进入21世纪以后,事情逐渐发生了变化。一方面,以
用户1564362
2022-07-12
4520
达梦数据库到底是不是全部源代码自主知识产权?
新粉请关注我的公众号 自从上篇文章“估值500亿!中国数据库第一股准备上市!!”发出来以后,我的读者们一直都有一个质疑:达梦数据库到底是不是100%源代码自主知识产权。 换个说法,达梦数据库的代码是不是都自己写的,还是说参考借鉴了某个版本的开源数据库? 这个问题我花了一些时间做了调查,结论呢也不是很确定。但是我会尽力把我知道的写下来。 坦白说,我本人没有用过达梦数据库,达梦数据库也不会敞开源代码给我去看,所以我无论如何是没办法知道真相的。 首先网上有一篇达梦数据库技术总监黄海明2018年5月10日在第九届中
用户1564362
2022-07-06
3.7K0
估值500亿!中国数据库第一股准备上市!!
新粉请关注我的公众号 6月29日,武汉达梦数据库股份有限公司准备在科创板上市,如果这次顺利上市,该公司的估值将高达500亿人民币,妥妥的成为国产数据库第一股。 武汉达梦数据库股份有限公司,对很多人来说可能并不熟悉,毕竟,这些年国产数据库如火如荼的时候,很多跳在前台的也是云厂商们的数据库。 但是在做数据库的圈子里,武汉达梦还是有很多人知道的。这家由现年70多岁的华中科技大学退休教授冯裕才创立的公司,妥妥的在数据库领域工作了几十年。1982年就开始了第一代数据库产品的研发。 说起来,冯教授开始做数据库的时候,
用户1564362
2022-07-04
7360
Delta Lake 2.0:Databricks的急病乱投医???
新粉请关注我的公众号 在今年的Data+AI summit上,Databricks宣布了不少东西,其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake,这次宣布开源2.0。 这个2.0按照Databricks的说法,就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。 Delta Lake这个项目Databricks最开始做的应该是最早的,但是不开源,只是卖钱给付费客户用。 2019年的时候终于开源了。开
用户1564362
2022-07-01
6210
开源ClickHouse是如何成为极致弹性的云原生数据仓库的?
大数据领域对ClickHouse可谓非常的熟悉了。这个最初由俄罗斯的Yandex公司开发并开源的数据仓库,以单表查询快闻名于世,一改传统Hadoop技术栈“笨,重,慢”的特点。很多时候,ClickHouse的性能相对于Hadoop技术栈,性能有百倍的提升。 ClickHouse的查询性能快,不仅仅在老东家Yandex得到了证实,更是征服了世界各地大量的互联网公司,成为了它们数据分析的不二选择。 然而开源版的ClickHouse要想用好并不是很容易。很多企业用ClickHouse不但没有见到它传说中的极速
用户1564362
2022-06-29
1.8K0
星环科创板上市获批,小心别被割韭菜!
新粉请关注我的公众号 根据最新消息,星环科技上市科创板的申请被批准了。星环科技即将在科创板登录。 对于在大数据领域工作的人来说,星环科技一定是很熟悉的一家公司了。有人对它的称呼是中国的Cloudera。当然这个称呼也不完全正确的形容和概括了这家公司。 但是这家公司和Cloudera是很有渊源的。这渊源要从一家傻13公司Intel说起。Intel上海研发中心做了一款Hadoop的发行版,并代表Intel正式跨入到了Hadoop发行商的竞争行列。 这个事情后面的发展就比较狗血了。Intel内部发生了一次政治斗争
用户1564362
2022-06-24
7470
Cloudera一己之力证明的火炕,网易却毫不犹豫跳进来。。。
新粉请关注我的公众号 最近网易数帆宣布自己要发布一个Hadoop的发行版,准备进军Hadoop发行商的市场。 Hadoop三大发行商Cloudera,Hortonworks和MapR,现在都已经是过去时了。当年Cloudera有多风光,现在就有多惨烈。Cloudera以一己之力证明了Hadoop发行商不是个好生意,是个火坑。 可是在2022的今天,在Cloudera已经私有化并停止更新它的Hadoop发行版的今天,网易却毫不犹豫跳进来了。难道网易的领导层发疯了? 我和网易做大数据的那群人有过一些接触,在
用户1564362
2022-06-24
4170
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档