首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
546588
阅读量
35
订阅数
下一代实时数据库:Apache Doris 【七】数据模型
Doris 的数据模型主要分为 3 类:Aggregate 、Uniq 、Duplicate
Maynor
2023-12-20
2400
下一代实时数据库:Apache Doris 【六】数据划分
以 AGGREGATE KEY 数据模型为例进行说明。更多数据模型参阅 Doris 数据模型。 列的基本类型, 可以通过在 mysql-client 中执行 HELP CREATE TABLE; 查看。
Maynor
2023-12-19
1950
手把手做一个公众号GPT智能客服(三)客服消息
https://developers.weixin.qq.com/doc/offiaccount/Message_Management/Service_Center_messages.html
Maynor
2023-09-28
2500
下一代实时数据库:Apache Doris 【五】数据表的创建
一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一
Maynor
2023-09-25
2960
助力工业物联网,工业大数据之服务域:项目总结【三十九】
开启动态分区裁剪:自动在Join时对两边表的数据根据条件进行查询过滤,将过滤后的结果再进行join
Maynor
2023-08-24
1810
流数据湖平台Apache Paimon(一)概述
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日,FTS进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。
Maynor
2023-07-31
1.5K0
Hudi:数据湖技术引领大数据新风口
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。
Maynor
2023-07-25
4400
助力工业物联网,工业大数据之分层总体设计【六】
Oracle:hostname、port、username、password、sid
Maynor
2023-02-17
4650
金三银四V2.0之大数据面试常见的10个问题
面试官你好,我是面试咱们公司大数据开发实习岗位的xxx,曾就读于xx学校数据科学与大数据专业,2022年毕业。
Maynor
2023-02-01
7950
大数据物流项目:Kudu 入门使用(五)
KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:
Maynor
2022-11-30
1.1K0
Hive的基本知识(一)
💃 Hive架构 📷 💃Hive 组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行; Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是 通过浏览器访问Hive。 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Dri
Maynor
2022-05-08
3620
大数据开发岗面试30天冲刺 - 日积月累,每日五题【Day01】——Hive1
Hive 和数据库除了拥有类似的查询语言,再无类似之处。 1)数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2)数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟 Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。 4)数据规模 Hive支持很大规模的数据计算;数据库可以支持的数据规模较小。
Maynor
2022-05-08
3090
hive 内部表和外部表的区别
未被 external 修饰的是内部表(managed table),被 external 修饰的为外部表 (external table)
Maynor
2022-05-08
7100
大数据面试题百日更新_Hive专题(Day13)
查询语言不同,传统数据库用的是SQL语句,hive是集成的HQL语句. 数据存储地方不同,不同于传统数据库存储在原始设备或本地文件系统(Raw Device or Local FS),Hive 存储在HDFS. 执行方式不同,传统数据库是Excutor单元执行,hive是MapReduce 同时hive执行延迟高,处理数据规模大,无索引(0.8版本后才加入位图索引,mysql有复杂的索引),都是hive与传统的区别.
Maynor
2022-05-08
2350
知行大数据分析平台需求说明
尽管学校多年的信息化应用积累了大量的数据,但信息孤岛的壁垒一直没有打破,对这些数据无法进一步的挖掘、分析、加工、整理,不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。目前的公司现状:
Maynor
2022-05-03
7470
大数据繁荣生态圈组件之实时大数据Druid小传(二)Druid架构与原理
索引服务是数据摄入创建和销毁Segment的重要方式,Druid提供一组支持索引服务(Indexing Service)的组件,即Overlord和MiddleManager节点。
Maynor
2022-04-21
5380
今日指数项目之数据实时业务开发(需求说明)【九】
秒级行情(Hbase):存储5日内秒级行情,数据量为2.88亿条 分时行情(Druid):存储半年内分时行情数据,数据量为8.64亿条; 历史数据(Hive数仓):以沪深市场2万只证券,存储时间按1年统计: 秒级行情: 210亿条以上 分时行情: 20亿条以上 K线: 1500万条以上
Maynor
2022-04-18
2570
Mysql高级完整版
1.中央处理器(英文Central Processing Unit,CPU)是一台计算机的运算核心和控制核心。CPU、内部存储器和输入/输出设备是电子计算机三大核心部件。其功能主要是解释计算机指令以及处理计算机软 件中的数据。 CPU核心组件: 1.算术逻辑单元(Arithmetic&logical Unit)是中 央处理器(CPU)的执行单元,是所有中央处理器的核 心组成部分,由"And Gate"(与门) 和"Or Gate"(或门)构成的算术逻辑单元,主要功能是进行二位元的算术运算,如加减乘(不包括整数除法)。 2.PC:负责储存内存地址,该地址指向下一条即将执行的指令,每解释执行完一条指令,pc寄存器的值 就会自动被更新为下一条指令的地址。 3.寄存器(Register)是CPU内部的元件,所以在寄存器之间的数据传送非常快。 用途:1.可将寄存器内的数据执行算术及逻辑运算。 2.存于寄存器内的地址可用来指向内存的某个位置,即寻址。 3.可以用来读写数据到电脑的周边设备。4.Cache:缓存
Maynor
2022-04-15
5380
今日指数项目之项目介绍和数据采集【四】
基于flink实时流计算的,金融证券项目,实时大屏展示,预警模块和离线模块的处理。
Maynor
2022-04-11
4800
今日指数项目之需求调研【三】
大数据平台作为底层的基础数据平台,集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,以满足多业务场景下,不同应用需求的建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能。 本项目大数据平台在建设过程中,将满足如下性能指标: 批处理部分指标: 支持批处理集群批量总写入速度2GB/秒,批量读取速度300MB/秒; 平台支持并发执行300个查询和200个加载任务; 应用查询时间对于数据库的简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟; 复杂批处理任务,ETL的处理时间将不超过2个小时; 实时流处理指标: 平台支持接收峰值为每秒100万条+的流数据; 平台能够在峰值条件下,完成2秒内的实时预警,2秒内完成针对当日数据的查询; 平台每日实时处理模块能够累积处理144亿笔(按4小时交易日保持峰值流速计)订单流数据; 平台支持至少50个并发访问/查询当日数据。 应用响应指标: 数仓应用项目离线报表30秒内完成数据响应查询; 实时大屏数据展示5秒内完成数据响应查询; 应用平台支持并发执行500个用户查询请求;
Maynor
2022-04-11
2930
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档