首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
549143
阅读量
35
订阅数
下一代实时数据库:Apache Doris 【七】数据模型
Doris 的数据模型主要分为 3 类:Aggregate 、Uniq 、Duplicate
Maynor
2023-12-20
2440
下一代实时数据库:Apache Doris 【六】数据划分
以 AGGREGATE KEY 数据模型为例进行说明。更多数据模型参阅 Doris 数据模型。 列的基本类型, 可以通过在 mysql-client 中执行 HELP CREATE TABLE; 查看。
Maynor
2023-12-19
1960
[已解决]FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to
Failded with exception:unable to move source hdfs://…
Maynor
2023-11-02
1.6K0
【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
TypeError: ‘JavaPackage’ object is not callable
Maynor
2023-09-28
4450
下一代实时数据库:Apache Doris 【五】数据表的创建
一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一
Maynor
2023-09-25
2970
下一代实时数据库:Apache Doris 【四】扩容缩容
1)使用 MySQL 登录客户端后,可以使用 sql 命令查看 FE 状态,目前就一台 FE
Maynor
2023-09-24
3440
下一代实时数据库:Apache Doris 【三】集群部署
linux 系统 版本 Centos 7.1 及以上 Ubuntu 16.04 及以上 2)软件需求
Maynor
2023-09-22
5390
【已解决[ERROR] Could not execute SQL statement. Reason:java.lang.ClassNotFoundException: org.apache.had
安装paimon集成FLink引擎的时候报错了:[ERROR] Could not execute SQL statement. Reason:java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration
Maynor
2023-09-10
6080
流数据湖平台Apache Paimon(三)Flink进阶使用
当Sorted Run数量较少时,Paimon writer 将在单独的线程中异步执行压缩,因此记录可以连续写入表中。然而,为了避免Sorted Runs的无限增长,当Sorted Run的数量达到阈值时,writer将不得不暂停写入。下表属性确定阈值。
Maynor
2023-07-31
1.8K0
流数据湖平台Apache Paimon(二)集成 Flink 引擎
Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。
Maynor
2023-07-31
1.8K0
流数据湖平台Apache Paimon(一)概述
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日,FTS进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。
Maynor
2023-07-31
1.5K0
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
Hadoop 是采用了 Map Reduce 的一种分布式的计算框架,它是根据 GFS去开发了 HDFS 分布式文件系统,还有根据 Big Table 开发了 HBase数据存储系统。可以了解到的是,Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。
Maynor
2023-03-18
3040
Apache Flume及快速安装
在一个完整的离线大数据处理系统中,除了 hdfs+mapreduce+hive 组成分析系统的核心之外, 还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop 生态体系中都有便捷的开源框架,如图所示:
Maynor
2022-11-30
3300
一文快速了解Elastic Search 开源搜索引擎(技术选型+启动命令)
Elasticsearch是一个基于Apache Lucene™的开源搜索引擎。无论在开源还是专有领域, Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 特点:
Maynor
2022-05-08
4130
今日指数项目之需求调研【三】
大数据平台作为底层的基础数据平台,集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,以满足多业务场景下,不同应用需求的建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能。 本项目大数据平台在建设过程中,将满足如下性能指标: 批处理部分指标: 支持批处理集群批量总写入速度2GB/秒,批量读取速度300MB/秒; 平台支持并发执行300个查询和200个加载任务; 应用查询时间对于数据库的简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟; 复杂批处理任务,ETL的处理时间将不超过2个小时; 实时流处理指标: 平台支持接收峰值为每秒100万条+的流数据; 平台能够在峰值条件下,完成2秒内的实时预警,2秒内完成针对当日数据的查询; 平台每日实时处理模块能够累积处理144亿笔(按4小时交易日保持峰值流速计)订单流数据; 平台支持至少50个并发访问/查询当日数据。 应用响应指标: 数仓应用项目离线报表30秒内完成数据响应查询; 实时大屏数据展示5秒内完成数据响应查询; 应用平台支持并发执行500个用户查询请求;
Maynor
2022-04-11
2930
快速入门RabbitMQ
两种方式各有优劣,打电话可以立即得到响应,但是你却不能跟多个人同时通话。发送邮件可以同时与多个人收发邮件,但是往往响应会有延迟。
Maynor
2022-03-30
3270
Kylin 是什么?
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Maynor
2022-03-28
6390
Caused by: org.apache.ibatis.type.TypeException: Could not resolve type alias ‘order‘. Caus
Caused by: org.apache.ibatis.type.TypeException: Could not resolve type alias ‘order’. Caus
Maynor
2021-12-07
6600
Spring Data OVERVIEW
Spring Data春季数据 2021.0.5 OVERVIEW 概览 LEARN 学习 Spring Data’s mission is to provide a familiar and consistent, Spring-based programming model for data access while still retaining the special traits of the underlying data store.
Maynor
2021-12-07
1.3K0
✨[hadoop3.x]新一代的存储格式Apache Arrow(四)
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021-12-06
4020
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档