斑斓-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

斑斓

张逸的技术分享

专栏成员

256

文章

272220

阅读量

61

订阅数

对Flink流处理模型的抽象

数据处理大数据编程算法

作为目前最为高效的流处理框架之一，Flink在我们的大数据平台产品中得到了广泛运用。为了简化开发，我们对Flink做了一些封装，以满足我们自己的产品需求。

2019-05-08

6200

对Flink流处理模型的抽象

数据处理大数据编程算法

作为目前最为高效的流处理框架之一，Flink在我们的大数据平台产品中得到了广泛运用。为了简化开发，我们对Flink做了一些封装，以满足我们自己的产品需求。

2019-03-07

8900

剖析大数据平台的数据存储

大数据存储

数据作为一种资产，若少了存储，就成了无根之木，失去了后续挖掘的价值。在小数据时代，受存储容量与CPU处理能力限制，在现在看来相当小的数据，在当时其实也可以认为是“大数据”了。正如在蒸汽机时代，创造了时速126英里(203公里)纪录的Mallard蒸汽火车就可以被视为极速火车了。那么，为何在当时没人提出Big Data概念，得到业界关注并催生出一波数据浪潮呢？ Big Data概念是1998年由SGI首席科学家John Masey在USENIX大会上提出的。他当时发表了一篇名为Big Data and the

2018-03-07

1.3K0

剖析大数据平台的数据分析

大数据数据分析

无论是采集数据，还是存储数据，都不是大数据平台的最终目标。失去数据处理环节，即使珍贵如金矿一般的数据也不过是一堆废铁而已。数据处理是大数据产业的核心路径，然后再加上最后一公里的数据可视化，整个链条就算

2018-03-07

1.2K0

剖析大数据平台的数据源

大数据数据处理

我在一次社区活动中做过一次分享，演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中，我主要分析了大数据平台架构的生态环境，并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解，并结合具体的技术选型与需求场景，给出了我个人对大数据平台的理解。本文是演讲内容的第一部分。大数据平台是一个整体的生态系统，内容涵盖非常丰富，涉及到大数据处理过程的诸多技术。在这些技术中，除了一些最基础的平台框架之外，针对不同的需求场景，也有不同的技术选择。这其中，显然有共性与差异性的特征。若从整个开发生命周期的角

2018-03-07

1.6K0

剖析大数据平台的数据采集

数据采集的设计，几乎完全取决于数据源的特性，毕竟数据源是整个大数据平台蓄水的上游，数据采集不过是获取水源的管道罢了。在数据仓库的语境下，ETL基本上就是数据采集的代表，包括数据的提取（Extract)、转换(Transform)和加载(Load)。在转换的过程中，需要针对具体的业务场景对数据进行治理，例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。但是在大数据平台下，由于数据源具有更复杂的多样性，数据采集的形式也变得更加复杂而多样，当然，业务场景也可能变得迥然不同。下图展现

2018-03-07

1.6K0

我们的产品架构

大数据 spark sql

本文是我在中生代技术群分享的话题《创业一年经历的技术风雨》中的第一部分《产品架构与技术选型》的第一部分。整体架构我们的产品代号为Mort（这个代号来自电影《马达加斯加》那只萌萌的大眼猴），是基于

2018-03-07

9320

大数据系统的Lambda架构

大数据架构设计

在大数据处理系统中，如何有效地将real time与batch job结合起来，既发挥前者对响应的实时性，又能解决对海量数据的分析与处理？答案就是Lambda架构思想。 Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Labmda Architecture的概念，用于在大数据架构中，如何让real-time与batch job更好地结合起来，以达成对大数据的实时处理。传

2018-03-07

1.4K0

大数据 | Spark中实现基础的PageRank

大数据 spark

吴军博士在《数学之美》中深入浅出地介绍了由Google的佩奇与布林提出的PageRank算法，这是一种民主表决式网页排名技术。书中提到PageRank的核心思想为：在互联网上，如果一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。同时，该算法还要对来自不同网页的链接区别对待，排名越高的网页，则其权重会更高，即所谓网站贡献的链接权更大。例如网页Y被X1，X2，X3，X4四个网页所链接，且这四个网页的权重分别为0.001，0.01，0.02，0.04，则网页Y的Rank值=0.0

2018-03-07

1.4K0

大数据 | 理解Spark的核心RDD

大数据 spark

与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象（Unified Programming Abstraction）。这正是Spark这朵小火花让人着迷的地方。要理解Spark，就需得理解RDD。 RDD是什么？ RDD，全称为Resilient Distributed Da

2018-03-07

8470

【大数据】Spark的硬件配置

大数据 spark

从MapReduce的兴起，就带来一种思路，就是希望通过大量廉价的机器来处理以前需要耗费昂贵资源的海量数据。这种方式事实上是一种架构的水平伸缩模式——真正的以量取胜。毕竟，以现在的硬件发展来看，CPU的核数、内存的容量以及海量存储硬盘，都慢慢变得低廉而高效。然而，对于商业应用的海量数据挖掘或分析来看，硬件成本依旧是开发商非常关注的。当然最好的结果是：既要马儿跑得快，还要马儿少吃草。 Spark相对于Hadoop的MapReduce而言，确乎要跑得迅捷许多。然而，Spark这种In-Memory的计算模式，是

2018-03-07

2.3K0

大数据流处理平台的技术选型参考

选择太多，是一件好事情，不过也容易乱花渐欲迷人眼。倘若每个平台（技术）都去动手操练一下，似乎又太耗时间。通过阅读一些文档，可以帮我们快速做一次筛选。在将选择范围进一步缩小后，接下来就可以结合自己的应用场景去深入Spike，做深度的甄别，这是我做技术选型的一个方法。技术没有最好，只有最适用。在做技术选型时，需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断，而非理想主义的追捧。若是在实用的技术选型中，再能点燃一些些技术上的情怀，那就perfect了！属性矩阵(Attributes Matr

2018-03-07

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态