腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏作者

330

文章

280084

阅读量

49

订阅数

保证数据质量为什么这么难？

sql 数据处理大数据

关于数据质量的标准有很多，我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准：

2022-06-08

5130

数据仓库体系梳理

数据处理数据挖掘 hadoop

数据仓库的分层设计是为了实现数据仓库的高性能、低成本、高效率、高质量使用。而且分层设计后会带来如下好处：

2020-07-14

7190

闲聊大数据是什么

hadoop 大数据数据处理数据分析数据挖掘

今年回家有人问了我一个问题，大数据是什么？在这个领域里工作了这么久，竟然一时不知道怎么回答。是的，大数据到底是什么呢？每个人都在谈论，比如大数据分析、大数据XX，政府工作报告上“大数据”这样的关键字眼也经常出现，但是大数据这个名词含义下到底是什么呢？

2020-02-18

4810

简单聊聊数据存储格式

存储数据处理数据结构 apache hive

在现实生活中存在着两个不同的数据处理模型，一个是OLTP，另一个是OLAP。两者的区别不在这篇文章详细叙述，感兴趣的可以阅读参考文章。因为OLAP和OLTP所面临的困境是不一样的，所以两个选择的数据存储方式也就不一样了。OLTP的数据存储模型大多逃不过Key-Value、B-Tree、LSM-Tree三种行式存储，而OLAP对应的则是列式存储。

2019-07-12

1.3K0

由Dataflow模型聊Flink和Spark

spark 大数据数据处理 windows

Dataflow模型（或者说Beam模型）旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前，流处理常被认为是一种不可靠但低延迟的处理方式，需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果，这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦，例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰，并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据，将不间断的流数据切分为一个个微小的批处理块，从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构，使用类似于Kafka的日志型消息存储作为中间件，从流处理的角度处理批处理。在工程师的不断努力和尝试下，Dataflow模型孕育而生。

2019-04-26

1.5K0

python的迭代器和生成器

python 数据处理人工智能

迭代是数据处理的基础，迭代可以理解为是一种惰性求值。在python里迭代器和生成器是一回事，使用的是yield关键字。

2018-08-06

3280

数据处理大数据 mapreduce

今天要聊的批处理，在前些年，有个忽悠人的外号，就是所谓的大数据。最经典的处理模式就是MapReduce，它起源于谷歌的《MapReduce:Simplified DataProcessing on Large Cluster》，初起风光，花式刷论文灌水，但是MapReduce饱受诟病，因为这是一个相当低层次的编程模型，类似于sql语句的group by。Hadoop的MapReduce作为一个逐渐走向没落的编程模型，我们学习更应该是其体现的理念，比如和Unix一样的，采用了统一的接口，对logic和wiring的分离。

2018-08-06

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态