腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
机器学习与统计学
专栏成员
举报
823
文章
1169481
阅读量
97
订阅数
订阅专栏
申请加入专栏
全部文章(823)
编程算法(282)
机器学习(206)
python(161)
神经网络(157)
深度学习(135)
https(111)
人工智能(106)
网络安全(97)
数据分析(61)
r 语言(50)
github(45)
模型(43)
git(37)
数据(33)
开源(29)
决策树(29)
numpy(28)
线性回归(27)
matlab(25)
tensorflow(22)
数据库(19)
http(19)
sql(17)
大数据(14)
云计算(13)
函数(12)
性能(12)
pytorch(11)
数据结构(11)
工作(10)
scikit-learn(9)
数据可视化(9)
工具(9)
云数据库 SQL Server(8)
监督学习(8)
keras(8)
windows(8)
论文(8)
数学(8)
NLP 服务(7)
c++(7)
javascript(7)
html(7)
api(7)
linux(7)
网站(7)
数据处理(7)
chatgpt(7)
统计(7)
数据挖掘(6)
java(6)
批量计算(6)
腾讯云测试服务(6)
markdown(6)
gpt(6)
css(5)
ide(5)
文件存储(5)
图像处理(5)
游戏(5)
缓存(5)
爬虫(5)
hadoop(5)
卷积神经网络(5)
kernel(5)
anaconda(5)
部署(5)
测试(5)
c 语言(4)
php(4)
bash(4)
node.js(4)
unix(4)
mapreduce(4)
容器(4)
强化学习(4)
正则表达式(4)
机器人(4)
学习方法(4)
基础(4)
教程(4)
算法(4)
优化(4)
自动驾驶(3)
go(3)
bootstrap(3)
打包(3)
命令行工具(3)
yarn(3)
shell(3)
图像识别(3)
scrapy(3)
腾讯云开发者社区(3)
特征工程(3)
data(3)
excel(3)
openai(3)
plot(3)
shift(3)
变量(3)
博客(3)
翻译(3)
技巧(3)
开发(3)
设计(3)
实践(3)
视频(3)
数据科学(3)
索引(3)
原理(3)
官方文档(2)
actionscript(2)
xml(2)
json(2)
云数据库 Redis(2)
postgresql(2)
vba(2)
搜索引擎(2)
中文分词(2)
apache(2)
访问管理(2)
视频处理(2)
企业(2)
serverless(2)
存储(2)
自动化(2)
无人驾驶(2)
hive(2)
opencv(2)
微信(2)
fpga(2)
jupyter(2)
pandas(2)
pivot(2)
precision(2)
random(2)
spss(2)
table(2)
word(2)
编辑器(2)
工作流(2)
互联网(2)
集合(2)
脚本(2)
开发者(2)
可视化(2)
框架(2)
连接(2)
内存(2)
入门(2)
事件(2)
手机(2)
字符串(2)
云点播(1)
对象存储(1)
人脸识别(1)
mac os(1)
react(1)
jquery(1)
android(1)
qt(1)
单片机(1)
oracle(1)
nosql(1)
flask(1)
ubuntu(1)
bash 指令(1)
日志服务(1)
TDSQL MySQL 版(1)
数据库一体机 TData(1)
音视频点播加速(1)
SSL 证书(1)
图片标签(1)
机器翻译(1)
大数据处理套件 TBDS(1)
云推荐引擎(1)
医疗(1)
渲染(1)
electron(1)
svg(1)
分布式(1)
运维(1)
gui(1)
面向对象编程(1)
推荐系统(1)
grep(1)
tcp/ip(1)
udp(1)
无监督学习(1)
安全(1)
物联网(1)
haskell(1)
nest(1)
sdn(1)
聚类算法(1)
jupyter notebook(1)
ipv6(1)
迁移(1)
flink(1)
程序人生(1)
数据库管理(1)
数据湖(1)
汽车(1)
alpha(1)
altair(1)
amp(1)
app(1)
axis(1)
chat(1)
com(1)
component(1)
copy(1)
correlation(1)
csv(1)
cursor(1)
curve(1)
difference(1)
el(1)
explorer(1)
heatmap(1)
int(1)
kaggle(1)
label(1)
math(1)
matrix(1)
mean(1)
meta(1)
model(1)
object(1)
output(1)
partial(1)
pca(1)
pdf(1)
pip(1)
return(1)
sample(1)
scipy(1)
self(1)
series(1)
solver(1)
space(1)
stack(1)
subplot(1)
subset(1)
sum(1)
title(1)
torch(1)
txt(1)
var(1)
video(1)
view(1)
webp(1)
z3(1)
编程(1)
编程语言(1)
遍历(1)
编码(1)
编译(1)
操作系统(1)
产品经理(1)
程序员(1)
创业(1)
对象(1)
管理(1)
行业(1)
集群(1)
计算机(1)
架构(1)
交换机(1)
科技(1)
命令行(1)
排序(1)
数组(1)
搜索(1)
调试(1)
图表(1)
网络(1)
移动端(1)
源码(1)
数据预处理(1)
语音助手(1)
机器学习算法(1)
MacOS(1)
玩转腾讯混元大模型(1)
搜索文章
搜索
搜索
关闭
一篇文章彻底明白Hive数据存储的各种模式
存储
hive
大数据
hadoop
数据库
Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中,那么是将数据复制到表所在的目录中)。 Hive中主要包含以下几种数据模型:Table(表),External Table(外部表),Partition(分区),Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。 1、表:Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置,这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上),我们可以根据实际的情况来修改这个配置。如果我有一个表wyp,那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。 2、外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包括元数据都会被删除。 3、分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区,则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ,所有属于这个分区的数据都存放在这个目录中。 4、桶:对指定的列计算其hash,根据hash值切分数据,目的是为了并行,每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中,首先对id列的值计算hash,对应hash值为0和16的数据存储的HDFS目录为:/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为:/user/hive/warehouse/wyp/part-00002。 来看下Hive数据抽象结构图
统计学家
2019-04-10
2.6K
0
【NumPy学习指南】day2 NumPy 数组对象
编程算法
numpy
存储
NumPy数组一般是同质的(但有一种特殊的数组类型例外,它是异质的),即数组中的所有
统计学家
2019-04-10
558
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档