腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
鸿的学习笔记
专栏作者
举报
330
文章
280140
阅读量
49
订阅数
订阅专栏
申请加入专栏
全部文章(330)
其他(123)
数据库(53)
python(45)
sql(44)
大数据(34)
https(32)
网络安全(28)
存储(26)
分布式(20)
编程算法(19)
scala(17)
apache(16)
机器学习(15)
神经网络(14)
hadoop(14)
mapreduce(13)
人工智能(13)
spark(13)
html(12)
深度学习(11)
开源(11)
api(9)
缓存(8)
数据分析(8)
nosql(7)
数据处理(7)
kafka(7)
oracle(6)
网站(6)
windows(6)
java(5)
云数据库 SQL Server(5)
TDSQL MySQL 版(5)
http(5)
hive(5)
数据结构(5)
云计算(5)
数据湖(5)
数据挖掘(4)
json(4)
git(4)
github(4)
linux(4)
unix(4)
文件存储(4)
erp(4)
hbase(4)
node.js(3)
容器(3)
推荐系统(3)
ntp(3)
processing(3)
javascript(2)
xml(2)
postgresql(2)
bash 指令(2)
shell(2)
zookeeper(2)
rpc(2)
微信(2)
安全(2)
腾讯云数据仓库 TCHouse(2)
官方文档(1)
NLP 服务(1)
c 语言(1)
c++(1)
bash(1)
android(1)
硬件开发(1)
sqlite(1)
云数据库 Redis(1)
memcached(1)
mvc(1)
ide(1)
搜索引擎(1)
全文检索(1)
lucene/solr(1)
容器镜像服务(1)
云数据库 MongoDB(1)
网络流日志(1)
数据加密服务(1)
腾讯云测试服务(1)
数据安全(1)
yarn(1)
kubernetes(1)
压力测试(1)
爬虫(1)
jvm(1)
卷积神经网络(1)
gui(1)
jdbc(1)
ftp(1)
udp(1)
gcc(1)
数据可视化(1)
架构设计(1)
腾讯云开发者社区(1)
jupyter notebook(1)
actor(1)
io(1)
supervisor(1)
worker(1)
备份(1)
科技(1)
搜索文章
搜索
搜索
关闭
Hadoop 诞生的历史
mapreduce
hadoop
lucene/solr
apache
编程算法
Hadoop 这个名称来源于一种已经灭绝的猛犸象,即 Yellow Hadoop。
哒呵呵
2022-03-11
1.2K
0
数据工程师的未来
apache
sql
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对数据工程师的现状的认知和未来发展的猜测,可供大家参考。
哒呵呵
2021-11-02
552
0
闲话 Spark 的一个重要改变
api
apache
spark
python
最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2,文章写得很简单,但是体现了 Spark 的一个很重要的发展趋势,就是拥抱 Python 的数据科学社区。
哒呵呵
2021-10-19
704
0
大公司是如何发展元数据的?
https
网络安全
大数据
html
apache
对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
哒呵呵
2020-12-29
1.9K
0
不负责任的聊下 Apache Doris
apache
hive
数据库
云数据库 SQL Server
sql
应读者的要求,这篇文章简单聊聊 Apache Doris。说实话,Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。
哒呵呵
2020-04-07
8.6K
1
超越 MapReduce ,要比它更快!
网站
mapreduce
大数据
apache
sql
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
426
0
趣谈交互式查询的历史之 Impala
mapreduce
c++
apache
hive
网站
接着上篇文章继续聊聊交互式查询,交互式查询崛起的原因是人类的懒惰本质,自从谷歌发表了 Dremel 论文后,相似的计算引擎不断地出现,在这篇文章里,针对几种典型的计算引擎简单聊聊。
哒呵呵
2020-03-25
981
0
闲聊数据可视化平台 Apache Superset
apache
sql
开源
git
github
Apache Superset(以下简称 superset)和 Apache Airflow 一样都是租房网站 airbnb 开源的,而且现在的主力开发者也是同一个人- mistercrunch (画外音:两个 Apache 项目的主要贡献者也是够强的了)。Apache Superset 于 2015 年 6 月开源,活跃度极高,基本每天都有新的特性诞生或者 bug 被修复,可惜的是与 Apache Airflow 今年毕业成为顶级项目不同,superset 依旧在孵化当中。当然孵化不代表不可用,superset 在国内外都有着广泛的应用。从 Github 首页上面可以发现使用 superset 的国内比较知名的互联网公司有:bilibili、Douban、Kuaishou、Qunar 等等,国外的更多了。因此 superset 质量是有保证的。
哒呵呵
2020-02-11
2.8K
0
闲聊调度系统 Apache Airflow
apache
git
github
开源
https
Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的 Apache 顶级项目。
哒呵呵
2019-12-24
9.1K
5
简单聊聊数据存储格式
存储
数据处理
数据结构
apache
hive
在现实生活中存在着两个不同的数据处理模型,一个是OLTP,另一个是OLAP。两者的区别不在这篇文章详细叙述,感兴趣的可以阅读参考文章。因为OLAP和OLTP所面临的困境是不一样的,所以两个选择的数据存储方式也就不一样了。OLTP的数据存储模型大多逃不过Key-Value、B-Tree、LSM-Tree三种行式存储,而OLAP对应的则是列式存储。
哒呵呵
2019-07-12
1.3K
0
Streaming SQL基础
apache
sql
https
spark
网络安全
基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达,即Streaming SQL。在《Streaming Systems》中,Streaming SQL 并不像 StreamCQL(基于Storm)属于 SQL-like,而是作为 Classic SQL 的扩展,兼容 Classic SQL 的所有规则。
哒呵呵
2019-05-14
1K
0
流表相对论
数据库
sql
https
apache
网络安全
《Streaming Systems》第二部分讨论的是Stream and Table Relativity,翻译过来就是流表相对论。从Stream and Table Relativity角度看待流(Stream)和表(Table),就会发现它们只不过是一枚硬币的正反两面;正如在爱因斯坦还没有提出相对论时,我们会认为牛顿的理论就是正确的,随着相对论的诞生使我们从更高的维度去思考现实,发现牛顿物理学只不过是相对论的特例而已。
哒呵呵
2019-04-26
748
0
一周好文推荐
https
python
apache
http
spark
这是一个新的尝试,分享这一周遇到的好文章和简要的评论。 Prometheus 和 Flink 搭配使用 https://flink.apache.org/features/2019/03/11/pr
哒呵呵
2019-04-26
384
0
《Streaming Systems》第四章-窗口
apache
windows
spark
大数据
《Streaming Systems》第四章相较于前三个章节更为复杂,倘若不是作者给出了大量的动图,恐怕大部分读者都会晕乎乎的了吧(所以强烈建议这一章观看Safari上的动图或者是Streaming 102)。
哒呵呵
2019-04-26
1.3K
1
Apache Kafka设计理念探究
apache
分布式
linux
zookeeper
存储
创造一个分布式的实时流处理平台,也正是因为这个原因,Kafka选择了将日志分区和消费者群组模型。
哒呵呵
2018-09-18
532
0
hadoop系统概览(三)
大数据
hadoop
mapreduce
分布式
apache
大数据不可避免地需要在计算机集群上进行分布式并行计算。因此,我们需要一个分布式数据操作系统来管理各种资源,数据和计算任务。今天,Apache Hadoop是现有的分布式数据操作系统。 Apache Hadoop是一个用于分布式存储的开源软件框架,以及商用硬件群集上的大数据的分布式处理。本质上,Hadoop由三部分组成:
哒呵呵
2018-08-06
720
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档