首页
学习
活动
专区
工具
TVP
发布

桥路_大数据

专栏成员
183
文章
246415
阅读量
36
订阅数
探索PostgreSQL的多模型世界:灵活存储,无限可能
在数据库的世界里,有一种神器,它以其无与伦比的灵活性和强大的功能,赢得了全球开发者的青睐。它就是——PostgreSQL,一个真正的多模型数据库管理系统。
十里桃花舞丶
2024-06-10
1560
新型数据库技术一览
新型数据库技术是信息技术领域中不断发展和创新的一部分,它们旨在解决传统数据库系统面临的挑战,如大数据量的处理、实时分析、云服务集成、数据安全性和多模型支持等。以下是一些当前备受关注的新型数据库技术:
十里桃花舞丶
2024-06-10
1480
MySQL一些特殊功能的索引(6/16)
创建全文索引的示例: CREATE FULLTEXT INDEX fulltext_index_name ON table_name (column1, column2);
十里桃花舞丶
2024-04-12
870
MySQL表空间管理与优化(8/16)
一个表单独存储为一个文件更容易管理,而且在你不需要这个表的时候,通过 drop table 命令,系统就会直接删除这个文件。而如果是放在共享表空间中,即使表删掉了,空间也是不会回收的。所以参数推荐为ON。
十里桃花舞丶
2024-04-12
1520
MySQL索引优化方法(1/16)
主键索引(Primary Key Index):每个表都有一个主键,主键索引是自动创建的唯一索引。它通常是聚簇索引(在索引树的叶子结点中存储的是需要查找的数据)。
十里桃花舞丶
2024-04-12
1310
MySQL分区表(14/16)
分区表是数据库中一种用于优化大型表数据管理和查询性能的技术。它将一个表的数据根据特定的规则或条件分割成多个部分,每个部分称为一个分区。每个分区可以独立于其他分区进行存储、管理和查询,这样可以提高数据处理的效率,尤其是在处理大量数据时。
十里桃花舞丶
2024-04-12
1310
MPP技术的优势与严重缺陷
MPP代表"Massively Parallel Processing",是一种计算机架构,旨在通过分布式处理来实现大规模数据处理和分析。它使用多个处理器或计算节点同时工作,以加快数据处理速度和提高性能。MPP架构通常用于处理海量数据的应用程序,如数据仓库、商业智能和大数据分析。
十里桃花舞丶
2023-10-16
5550
大数据常见应用场景及架构改进
对于离线场景,最典型的就是数据仓库。它和传统的数仓不太一样。因为传统数仓它只能解决中小规模的数据存储与分析问题。大数据这一块要能承接海量的数据。
十里桃花舞丶
2023-10-16
4260
转型大数据,要在恰当的时机
当传统数据存储与处理架构,在数据达到海量以后,产生了存储与性能瓶颈。这个时候大数据出现了,它帮忙解决了数据在海量规模情况下的的存储与计算问题。这是一个技术发展的必要途径,旧的技术无法适应新出现的场景,新技术就要诞生去进行解决。
十里桃花舞丶
2023-10-16
1260
大数据技术为何诞生,它究竟解决了哪些问题?
大数据是什么?其实大数据是满足数据达到海量这个规模以后,对这部分数据要完成存储包括计算的一种技术。
十里桃花舞丶
2023-10-16
4980
【微话】究竟什么是大数据?
我认为,大数据是一种在海量数据规模下进行数据存储和计算的一种技术体系(或解决方案)。
十里桃花舞丶
2022-05-10
2610
【简介】分布式NoSQL数据库
NoSQL是一些分布式非关系型数据库的统称,它采用非关系的数据模型,弱化模式或表结构、弱化完整性约束、弱化甚至取消事务机制,可能无法支持,或不能完整的支持SQL语句。
十里桃花舞丶
2021-12-06
1K0
【MapReduce】基本原理
首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之间由空格隔开;现在需要使用MapReduce来统计每个单词的出现次数。
十里桃花舞丶
2021-09-10
4130
【HDFS】系统架构与存储机制
HDFS是主从架构(Master/Slave),当然这也是大数据产品最常见的架构。主节点为NameNode,从节点为DataNode。其中DataNode用于存储数据,存储的数据会被拆分成Block块(默认按照128M进行切分),然后均匀的存放到各个DataNode节点中,为了保证数据安全性,这些Block块会进行多副本的存储,备份到不同的节点。而NameNode则负责管理整个集群,并且存储数据的元数据信息(记录数据被拆分为哪几块,分别存储到了哪个DataNode中)。DataNode会通过心跳机制,与NameNode进行通信(默认3秒),汇报健康状况和存储的Block数据信息,如果NameNode超过一定时间没有收到DataNode发送的心跳信息,则认为DataNode宕机,会启动容灾机制。
十里桃花舞丶
2021-09-10
3650
Hive权限管控
一般而言,会推荐使用基于存储的授权和基本标准SQL的授权,来对Hive进行权限管控。
十里桃花舞丶
2021-09-10
7830
表的高级操作:分桶
但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。
十里桃花舞丶
2021-09-10
3530
表的高级操作:分区
表在存储时,可以进行分区操作,将数据按分区键的列值存储在表目录的子目录中,子目录名=“分区键=键值”。
十里桃花舞丶
2021-09-10
2850
SQL DDL:存储格式&压缩
Hive创建表时默认使用的格式为TextFile,当然内置的存储格式除了TextFile,还有sequencefile、rcfile、ORC、Parquet、Avro。
十里桃花舞丶
2021-09-10
3640
表存储格式&数据类型
Hive支持的表类型,或者称为存储格式有:TextFile、SequenceFile、RCFile、ORC、Parquet、AVRO。
十里桃花舞丶
2021-09-10
1.7K0
【单点】每日突破,HBase布隆过滤器
如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。
十里桃花舞丶
2021-09-10
7120
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档