大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

351755

阅读量

96

订阅数

Cube.js 试试这个新的数据分析开源工具

react 数据可视化 api 开源 mongodb

Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据，将其组织为一致的定义，并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作，包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎，以及像 Postgres 这样的应用程序数据库。Cube 内置关系缓存引擎，为 API 请求提供亚秒级延迟和高并发。

大数据技术架构

2022-12-01

3.1K0

Kafka 3.0 重磅发布，有哪些值得关注的特性？

kafka tcp/ip api apache java

Apache Kafka 是一个分布式开源流平台，被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列，自 2011 年由 LinkedIn 开源以来，Kafka 迅速从消息队列演变为成熟的事件流处理平台。

大数据技术架构

2021-10-21

1.9K0

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

特征工程 spark 存储 api 数据库

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。

大数据技术架构

2021-07-05

1.3K0

Kylin 新定位：分析型数据仓库

apache hadoop 大数据数据分析 api

Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器，一年后从孵化器毕业成为 Apache 顶级项目。从第一天起，Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来，Kylin 已经成为了大数据版图中一个不可或缺的角色，帮助了全球上千家企业进行高效的大数据分析。

大数据技术架构

2020-04-07

8310

Flink State 可以代替数据库吗？

大数据 api 存储数据库 https

有状态的计算作为容错以及数据一致性的保证，是当今实时计算必不可少的特性之一，流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据，部分情况下甚至可以直接用 State 存储结果数据，这让业界不禁思考: State 和 Database 是何种关系？有没有可能用 State 来代替数据库呢？

大数据技术架构

2019-11-28

2.1K0

如何解决Elasticsearch的深度翻页问题

ES提供了3中解决深度翻页的操作，分别是scroll、sliced scroll 和 search after。

大数据技术架构

2019-08-29

2.9K0

玩转HBase百亿级数据扫描

hive hbase TDSQL MySQL 版 api

出于中通业务场景的特殊性，我们需要大量的回刷7-15天的数据，如果全部用离线抽取的方式，会给业务系统带来巨大压力，所以利用Hbaserowkey更新的特性，来存储业务数据的历史更新，每天ETL的任务需要大量从Hbase拉取数据，ETL任务需要扫描过滤近百亿数据。

大数据技术架构

2019-08-16

2K0

深入探讨为什么HBase Scan性能低下

hbase TDSQL MySQL 版数据结构缓存 api

原文：https://blog.51cto.com/12445535/2359652

大数据技术架构

2019-08-16

3.2K0

HBase漫谈 | HBase技术选型准则

TDSQL MySQL 版 hbase nosql 存储 api

NoSQL（Not only SQL）数据库，可以理解为区别于关系型数据库如mysql、oracle等的非关系型数据库。聊到NoSQL不得不提著名的CAP理论，全称 Consistency Available and Partition tolerance，即一致性、可用性与分区容错性，这是Eric Brewer教授提出的分布式系统设计理念，并给出了定论：任何分布式系统只能同时满足其中二点，无法做到三者兼顾。这可以说是NoSQL数据库的理论基石，至今NoSQL领域也称得上是百花齐放了，一直也没有哪一款NoSQL同时兼顾着这三点特性。

大数据技术架构

2019-08-16

3.2K0

Spark vs. Flink -- 核心技术点

spark api 数据处理 windows sql

Apache Spark 是一个统一的、快速的分布式计算引擎，能够同时支持批处理与流计算，充分利用内存做并行计算，官方给出Spark内存计算的速度比MapReduce快100倍。因此可以说作为当下最流行的计算框架，Spark已经足够优秀了。

大数据技术架构

2019-08-16

1.6K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态