腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
鸿的学习笔记
专栏作者
举报
330
文章
280084
阅读量
49
订阅数
订阅专栏
申请加入专栏
全部文章(330)
其他(123)
数据库(53)
python(45)
sql(44)
大数据(34)
https(32)
网络安全(28)
存储(26)
分布式(20)
编程算法(19)
scala(17)
apache(16)
机器学习(15)
神经网络(14)
hadoop(14)
mapreduce(13)
人工智能(13)
spark(13)
html(12)
深度学习(11)
开源(11)
api(9)
缓存(8)
数据分析(8)
nosql(7)
数据处理(7)
kafka(7)
oracle(6)
网站(6)
windows(6)
java(5)
云数据库 SQL Server(5)
TDSQL MySQL 版(5)
http(5)
hive(5)
数据结构(5)
云计算(5)
数据湖(5)
数据挖掘(4)
json(4)
git(4)
github(4)
linux(4)
unix(4)
文件存储(4)
erp(4)
hbase(4)
node.js(3)
容器(3)
推荐系统(3)
ntp(3)
processing(3)
javascript(2)
xml(2)
postgresql(2)
bash 指令(2)
shell(2)
zookeeper(2)
rpc(2)
微信(2)
安全(2)
腾讯云数据仓库 TCHouse(2)
官方文档(1)
NLP 服务(1)
c 语言(1)
c++(1)
bash(1)
android(1)
硬件开发(1)
sqlite(1)
云数据库 Redis(1)
memcached(1)
mvc(1)
ide(1)
搜索引擎(1)
全文检索(1)
lucene/solr(1)
容器镜像服务(1)
云数据库 MongoDB(1)
网络流日志(1)
数据加密服务(1)
腾讯云测试服务(1)
数据安全(1)
yarn(1)
kubernetes(1)
压力测试(1)
爬虫(1)
jvm(1)
卷积神经网络(1)
gui(1)
jdbc(1)
ftp(1)
udp(1)
gcc(1)
数据可视化(1)
架构设计(1)
腾讯云开发者社区(1)
jupyter notebook(1)
actor(1)
io(1)
supervisor(1)
worker(1)
备份(1)
科技(1)
搜索文章
搜索
搜索
关闭
保证数据质量为什么这么难?
sql
数据处理
大数据
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
哒呵呵
2022-06-08
513
0
数据仓库体系梳理
数据处理
数据挖掘
hadoop
数据仓库的分层设计是为了实现数据仓库的高性能、低成本、高效率、高质量使用。而且分层设计后会带来如下好处:
哒呵呵
2020-07-14
719
0
闲聊大数据是什么
hadoop
大数据
数据处理
数据分析
数据挖掘
今年回家有人问了我一个问题,大数据是什么?在这个领域里工作了这么久,竟然一时不知道怎么回答。是的,大数据到底是什么呢?每个人都在谈论,比如大数据分析、大数据XX,政府工作报告上“大数据”这样的关键字眼也经常出现,但是大数据这个名词含义下到底是什么呢?
哒呵呵
2020-02-18
481
0
简单聊聊数据存储格式
存储
数据处理
数据结构
apache
hive
在现实生活中存在着两个不同的数据处理模型,一个是OLTP,另一个是OLAP。两者的区别不在这篇文章详细叙述,感兴趣的可以阅读参考文章。因为OLAP和OLTP所面临的困境是不一样的,所以两个选择的数据存储方式也就不一样了。OLTP的数据存储模型大多逃不过Key-Value、B-Tree、LSM-Tree三种行式存储,而OLAP对应的则是列式存储。
哒呵呵
2019-07-12
1.3K
0
由Dataflow模型聊Flink和Spark
spark
大数据
数据处理
windows
Dataflow模型(或者说Beam模型)旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前,流处理常被认为是一种不可靠但低延迟的处理方式,需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果,这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦,例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰,并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据,将不间断的流数据切分为一个个微小的批处理块,从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构,使用类似于Kafka的日志型消息存储作为中间件,从流处理的角度处理批处理。在工程师的不断努力和尝试下,Dataflow模型孕育而生。
哒呵呵
2019-04-26
1.5K
0
python的迭代器和生成器
python
数据处理
人工智能
迭代是数据处理的基础,迭代可以理解为是一种惰性求值。在python里迭代器和生成器是一回事,使用的是yield关键字。
哒呵呵
2018-08-06
328
0
批处理
数据处理
大数据
mapreduce
今天要聊的批处理,在前些年,有个忽悠人的外号,就是所谓的大数据。最经典的处理模式就是MapReduce,它起源于谷歌的《MapReduce:Simplified DataProcessing on Large Cluster》,初起风光,花式刷论文灌水,但是MapReduce饱受诟病,因为这是一个相当低层次的编程模型,类似于sql语句的group by。Hadoop的MapReduce作为一个逐渐走向没落的编程模型,我们学习更应该是其体现的理念,比如和Unix一样的,采用了统一的接口,对logic和wiring的分离。
哒呵呵
2018-08-06
1.5K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档