腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
鸿的学习笔记
专栏成员
举报
330
文章
293342
阅读量
49
订阅数
订阅专栏
申请加入专栏
全部文章(330)
其他(123)
数据库(53)
python(45)
sql(44)
大数据(34)
https(32)
网络安全(28)
存储(26)
分布式(20)
编程算法(19)
scala(17)
apache(16)
机器学习(15)
神经网络(14)
hadoop(14)
mapreduce(13)
人工智能(13)
spark(13)
html(12)
深度学习(11)
开源(11)
api(9)
缓存(8)
数据分析(8)
nosql(7)
数据处理(7)
kafka(7)
oracle(6)
网站(6)
windows(6)
java(5)
云数据库 SQL Server(5)
TDSQL MySQL 版(5)
http(5)
hive(5)
数据结构(5)
云计算(5)
数据湖(5)
数据挖掘(4)
json(4)
git(4)
github(4)
linux(4)
unix(4)
文件存储(4)
erp(4)
hbase(4)
node.js(3)
容器(3)
推荐系统(3)
ntp(3)
processing(3)
javascript(2)
xml(2)
postgresql(2)
bash 指令(2)
shell(2)
zookeeper(2)
rpc(2)
微信(2)
安全(2)
腾讯云数据仓库 TCHouse(2)
官方文档(1)
NLP 服务(1)
c 语言(1)
c++(1)
bash(1)
android(1)
硬件开发(1)
sqlite(1)
云数据库 Redis(1)
memcached(1)
mvc(1)
ide(1)
搜索引擎(1)
全文检索(1)
lucene/solr(1)
容器镜像服务(1)
云数据库 MongoDB(1)
网络流日志(1)
数据加密服务(1)
腾讯云测试服务(1)
数据安全(1)
yarn(1)
kubernetes(1)
压力测试(1)
爬虫(1)
jvm(1)
卷积神经网络(1)
gui(1)
jdbc(1)
ftp(1)
udp(1)
gcc(1)
数据可视化(1)
架构设计(1)
腾讯云开发者社区(1)
jupyter notebook(1)
actor(1)
io(1)
supervisor(1)
worker(1)
备份(1)
科技(1)
搜索文章
搜索
搜索
关闭
推荐几本书
大数据
TDSQL MySQL 版
数据库
sql
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏大的视野,了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年,有些技术已经跟不上现在的技术发展,比如云原生、分布式数据库。
哒呵呵
2022-06-08
419
0
保证数据质量为什么这么难?
sql
数据处理
大数据
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
哒呵呵
2022-06-08
573
0
一些闲谈
sql
网站
大数据
突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?
哒呵呵
2022-04-14
154
0
现代元数据平台
大数据
api
html
存储
kafka
这是一个新概念:The Modern Metadata Platform,直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生,是其中的一部分。
哒呵呵
2022-03-11
600
0
闲聊 modern data stack
开源
腾讯云数据仓库 TCHouse
大数据
编程算法
数据分析
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
哒呵呵
2021-12-24
1.3K
0
关于数据仓库的一些观点
腾讯云数据仓库 TCHouse
hadoop
大数据
存储
数据湖
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求 IPO;另一方面则是新一代的数据和机器学习创业公司正在崛起,无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。
哒呵呵
2021-10-19
671
0
重新解读 MapReduce
windows
分布式
mapreduce
大数据
数据库
在没有 MapReduce 编程模型的时候,做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型,写过代码的都知道这种的开发模式肯定推广不开来,后续的开发和维护都特别麻烦,但是当时也没人想着要弄一个通用的编程模型,直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》,大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里,而且还能通用。
哒呵呵
2021-08-12
275
0
大数据知识体系之数据采集
云计算
数据挖掘
存储
网站
大数据
数据平台数据采集系统日志采集网络数据采集设备数据采集数据同步数据存储数据计算实时计算离线计算数据挖掘数据服务数据模型数据建模方法论数据模型管理体系表设计数据管理元数据收集和搜索数据血缘数据质量计算任务管理平台成本管理数据应用互联网工业政务
哒呵呵
2021-06-17
1.5K
0
什么是 Data Mesh ?
数据湖
编程算法
https
网络安全
大数据
Data Mesh 的概念起源于 ThoughtWorks 的首席技术顾问 Zhamak Dehghani 发表在 martinfowler 官网上的两篇文章How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh和Data Mesh Principles and Logical Architecture。
哒呵呵
2021-03-16
3K
0
关于 Lakehouse 的一些笔记和看法
大数据
存储
数据湖
数据库
https
这是最经典的数据仓库模型,模型上面的不多说,可以参考数据仓库理论。从技术角度上来说,
哒呵呵
2021-02-24
714
0
大公司是如何发展元数据的?
https
网络安全
大数据
html
apache
对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
哒呵呵
2020-12-29
1.9K
0
Procella 数据库的简单介绍
https
大数据
网络安全
数据库
sql
最近看到了一个很有趣的数据库 Procella ,它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样,一眼就吸引住我了。
哒呵呵
2020-11-19
921
0
浅谈信息茧房的构建和破“茧”的一些思路
大数据
推荐系统
编程算法
信息茧房这个概念起源于2006年出版的凯斯·桑斯坦的《信息乌托邦》一书。2006年的时候,“信息茧房”还是仅仅停留在概念阶段,其赖以成长的技术基础大数据技术也才刚刚成长起来。直到大数据技术成熟,并孕育出像今日头条这类的信息流 APP 时,信息茧房才引起人们的重视。
哒呵呵
2020-06-23
1.4K
0
一部《计算机简史》,也是基建与动能的历史
大数据
硬件开发
关于《计算机简史》这本书,第一次了解到还是在图灵教育这个公众号上读到了余晟以为为其写的书评《计算机简史这门课,现在补,并不晚》。对于这篇文章里面的观点,比如“但凡学习一个新的知识领域,多半要从了解其历史开始”,非常认同。因为对于自己对于大数据领域的学习而言,真正的入门也是从了解了各个组件的渊源及其发展历史开始的。了解了各个大数据技术历史后,后面又花时间梳理了分布式系统的历史,大数据这块才算是有了一点点的“胸有成竹”的感觉。
哒呵呵
2020-05-27
481
0
写在 Python 3.9 即将出世的前夕
scala
大数据
机器学习
神经网络
今天读 PyCoder's Weekly( PyCoder's Weekly 会收集和整理一周内关于 Python 的最新文章和讨论,并发送给订阅者的邮箱)时候,发现 Python3.9 最新的版本3.9.0a5已经可以用了,有些感慨 Python3.8 还没用起来,Python3.9 就要来了,遂写下此文简单聊下 Python 这门语言。
哒呵呵
2020-05-12
548
0
兢兢业业的日志不该被世人遗忘
分布式
云计算
数据库
大数据
sql
前一篇文章聊了 Kafka 和日志,有读者希望我能更加深入的说下日志,解释下为什么没有日志这个概念,就没有现在的大数据,没有现在的数据库,为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。
哒呵呵
2020-05-08
397
0
Kafka 和隐藏在它背后的幽灵
kafka
大数据
分布式
官方文档
趁着周末简单聊下 Kafka。Kafka 基本上已经成为了大数据领域里的消息系统的标配,仿佛做实时处理不知道或者不懂 Kafka 就落伍了一样。不过也确实如此,不像很多大数据领域里的其它组件有很多竞品,比如计算引擎领域有 MapReduce、Spark、Impala、Presto等,资源调度有 Yarn 、K8S 等,诸如此类,不胜枚举。但是在大数据领域的消息系统这块除了近些年宣传的比较火的 Apache Pulsar 勉强一争外,基本上都是 Kafka 一家独大,或者是类似于 Kafka 的架构。那么 Kafka 有什么特别的呢?
哒呵呵
2020-05-08
530
0
看得见的与看不见的 - 计算机科学里的 trade-off
文件存储
编程算法
大数据
缓存
政府或企业的每一个决策、每一次行动,甚至不经意间的个人行为都可能会对现实生活中造成影响,其中有些影响是立马可以感受到的,是看得见的,而有些影响是第一时间很难感受到的,是看不见的。经济学里有一个很经典的例子是来说明看得见和看不见的影响,商店主人的儿子把商店的橱窗打破了,然后商店的主人花钱请玻璃工师傅把橱窗修复了,然后玻璃工师傅拿到了修复的费用,在某种程度上,这笔修复的费用使整个资金链运转起来,商店的橱窗修复了,玻璃工师傅有了收入,这是看的见的影响。同样的,还有看不见的影响,商店主人原本可以用这笔钱去创造更大的价值,比如购进新的货物、让商店更好看,然而因为橱窗的打破这笔钱没有了。
哒呵呵
2020-04-23
682
0
超越 MapReduce ,要比它更快!
网站
mapreduce
大数据
apache
sql
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
452
0
瞎扯 Hadoop 的历史
hadoop
mapreduce
开源
大数据
爬虫
在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖,手握 GFS 、 MapReduce 和 BigTable 三篇论文(下文称为谷歌的“三驾马车”),秒杀Hadoop生态圈,但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此,这篇文章就闲聊下 Hadoop 是如何发展壮大的。
哒呵呵
2020-02-26
1.5K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档