腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
A2Data
专栏作者
举报
373
文章
385892
阅读量
30
订阅数
订阅专栏
申请加入专栏
全部文章(373)
编程算法(97)
python(70)
sql(49)
数据库(41)
linux(29)
hive(28)
ide(26)
java(25)
apache(19)
云数据库 SQL Server(17)
网络安全(16)
存储(15)
数据分析(14)
大数据(13)
http(12)
https(12)
git(11)
github(11)
开源(11)
打包(10)
网站(9)
ssh(9)
面向对象编程(9)
windows(9)
mysql(9)
node.js(8)
html(8)
oracle(8)
numpy(8)
javascript(7)
unix(7)
神经网络(7)
腾讯云测试服务(7)
tcp/ip(7)
机器学习(6)
jquery(6)
深度学习(6)
文件存储(6)
人工智能(6)
bash(5)
vue.js(5)
matlab(5)
spring(5)
mapreduce(5)
专用宿主机(5)
容器(5)
jdk(5)
yum(5)
hexo(5)
数据结构(5)
虚拟化(5)
c++(4)
bash 指令(4)
云推荐引擎(4)
hadoop(4)
线性回归(4)
ftp(4)
npm(4)
微服务(4)
jupyter notebook(4)
编程(4)
数据挖掘(3)
xml(3)
api(3)
jar(3)
maven(3)
日志服务(3)
访问管理(3)
命令行工具(3)
NAT 网关(3)
serverless(3)
爬虫(3)
正则表达式(3)
dns(3)
spring boot(3)
anaconda(3)
nat(3)
特征工程(3)
break(3)
data(3)
hdfs(3)
import(3)
null(3)
pandas(3)
root(3)
工具(3)
php(2)
scala(2)
json(2)
nosql(2)
云数据库 Redis(2)
全文检索(2)
TDSQL MySQL 版(2)
webpack(2)
xslt & xpath(2)
缓存(2)
shell(2)
jvm(2)
gui(2)
hbase(2)
任务调度(2)
rust(2)
axis(2)
default(2)
hadoop2(2)
int(2)
it(2)
join(2)
key(2)
max(2)
methods(2)
rank(2)
return(2)
static(2)
sum(2)
zip(2)
百度(2)
教程(2)
排序(2)
统计(2)
源码(2)
字符串(2)
NLP 服务(1)
mac os(1)
react(1)
css(1)
sqlite(1)
flask(1)
eclipse(1)
tomcat(1)
搜索引擎(1)
ubuntu(1)
windows server(1)
nginx(1)
容器镜像服务(1)
短信(1)
电商(1)
express(1)
rollup.js(1)
babel.js(1)
游戏(1)
分布式(1)
黑客(1)
spark(1)
卷积神经网络(1)
sql server(1)
grep(1)
powershell(1)
安全(1)
数据可视化(1)
kafka(1)
聚类算法(1)
数据库管理(1)
数据集成(1)
add(1)
backup(1)
bind(1)
boolean(1)
bug(1)
case(1)
comparison(1)
component(1)
contour(1)
copy(1)
count(1)
dashboard(1)
dataset(1)
date(1)
dump(1)
element(1)
error(1)
exe(1)
exists(1)
expression(1)
filewriter(1)
for循环(1)
frame(1)
func(1)
get(1)
getter(1)
gif(1)
google(1)
having(1)
host(1)
im(1)
image(1)
impala(1)
input(1)
insert(1)
io(1)
jsonp(1)
jupyter(1)
lag(1)
launch(1)
lda(1)
list(1)
localhost(1)
mac(1)
mask(1)
min(1)
newline(1)
object(1)
offset(1)
overflow(1)
package(1)
partition(1)
pascal(1)
pip(1)
post(1)
product(1)
protected(1)
ps(1)
public(1)
readline(1)
rename(1)
request(1)
restore(1)
reverse(1)
row(1)
rows(1)
scale(1)
select(1)
setter(1)
shift(1)
sort(1)
stack(1)
string(1)
tampermonkey(1)
time(1)
truncate(1)
ui(1)
union(1)
upload(1)
void(1)
watch(1)
wizard(1)
备份(1)
编程语言(1)
变量(1)
插件(1)
产品(1)
程序(1)
磁盘(1)
地图(1)
动画(1)
二进制(1)
二维码(1)
工作(1)
集合(1)
集群(1)
配置(1)
日志(1)
数据类型(1)
索引(1)
效率(1)
增长黑客(1)
指针(1)
作用域(1)
搜索文章
搜索
搜索
关闭
Hive表操作二(管理表、外部表、分区表)
数据分析
hive
云推荐引擎
编程算法
python
Hive表操作二(管理表、外部表、分区表) *管理表 --我们目前所创建的表都是管理表,也叫内部表 --Hive会控制管理表数据的生命周期,Hive默认会将表数据存储在/user/hive/warehouse子目录下 --删除一个管理表时,Hive也会删除这个表中数据 --管理表不方便和其他工具共享数据 eg:我们有一份由Pig或其他工具创建并且主要由这一工具使用的数据,同时我们还想使用Hive执行查询,可以创建一个外部表指向这份数据,并不需要对其具有所有权 *外部表 --文件位于分布式文件系统的/data/test eg:CREATE EXTERNAL TABLE IF NOT EXISTS app ( hour string, name string, pv string, uv string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/data/test'; 对以上语句分析: 1.关键字EXTERNAL告诉Hive这个表是外部表,LOCATION告诉Hive数据位于哪个路径下 2.因为是外部表,所以Hive并非认为其完全拥有这份数据,删除该表时并不会删除这份数据,只会删除描述表的元数据信息 *管理表VS外部表 --可以用 DESCRIBE EXTENDED tablename语句的输出中查看到表是否是管理表或外部表 --对于管理表,可看到如下信息 ... tableType:MANAGED_TABLE) --对于外部表,可看到如下信息 ... tableType:EXTERNAL_TABLE) 注:如果语句省略 EXTERNAL 关键字而源表是外部表的话,那么生成的新表也是外部表 如果语句省略 EXTERNAL 关键字而源表是管理表的话,那么生成的新表也是管理表 如果语句有EXTERNAL关键字而源表是管理表的话,那么生成的新表是外部表 *分区管理表 --管理表和外部表都可以加分区 eg:CREATE TABLE IF NOT EXISTS tmp.table1( userId string COMMENT '用户ID', name string COMMENT '用户姓名', createtime string COMMENT '创建时间' ) PARTITIONED BY (country string,state string ); --分区表改变了Hive对数据存储的组织方式。如果我们在tmp库下创建这个表,那么对于这个表只会有一个table1目录与之对应: /user/hive/warehouse/tmp/table1 但是,Hive在表目录下将会建好可以反映分区结构的子目录 eg:/table1/country=CA/state=AB /table1/country=CA/state=BC ... /table1/country=US/state=AL /table1/country=US/state=AK ... 这些都是实际的目录名称,州目录下将会包含有零个文件或者多个文件,这些文件中存放着那些州的用户信息 分区字段一旦创建好,表现得就和普通字段一样,除非优化查询性能,否则不需要关心是否是分区字段 如果要查某个国家的用户,那仅仅需要扫描那个国家对应的目录就可以 --查看表中存在的所有分区 eg: hive> SHOW PARTITIONS table
DataScience
2020-04-14
880
0
Hive_基础操作
hive
世间也需要没用的东西,如果一切事物都必须有其意义,会让人喘不过气来。by 是枝裕和
DataScience
2020-04-13
299
0
Apache Hive Hue
hive
apache
hadoop
大数据
oracle
⊙Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。
DataScience
2020-01-02
2.2K
0
Apache Hive File
存储
hive
文件存储
apache
其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;
DataScience
2020-01-02
377
0
Amabri hive权限设置
hive
当我们安装好Amabri ,启动hive、Hadoop等组件时我们在操作HDFS时可能会遇到这样的问题 [root@Master ~]# hive log4j:WARN No such property [maxFileSize] in org.apache.log4j.DailyRollingFileAppender. Logging initialized using configuration in file:/etc/hive/2.6.3.0-235/0/hive-log4j.propert
DataScience
2020-01-02
2K
0
Apache Hive View
hive
apache
从逻辑上讲,可以想象为Hive限制性这个视图,然后使用这个结果进行余下后续的查询。
DataScience
2019-12-30
518
0
Apache Hive Index
apache
hive
Apache Hive INDEX (索引) Apache Hive INDEX 创建索引 ◆ ◆ ◆ ◆ ◆ CREATE INDEX index_name ON TABLE base_table_name (col_name, ...) AS 'index.handler.class.name' [WITH DEFERRED REBUILD] [IDXPROPERTIES (property_name=property_value, ...)] [IN T
DataScience
2019-12-30
687
0
Hive中苦笑不得的坑
sql
大数据
hive
apache
大家都知道,hive -f 后面指定的是一个文件,然后文件里面直接写sql,就可以运行hive的sql,hive -e 后面是直接用双引号拼接hivesql,然后就可以执行命令。
DataScience
2019-12-30
1.5K
0
Apache Hive Like
apache
hive
Apache Hive Like ---Rlike---- Not Like ----- Like Not
DataScience
2019-12-30
1.6K
0
Apache Hive Random
apache
hive
1,表a2data.test为一个普通的表,别名为e,里面存有数据,我们要从表e中随机抽出1000条数据作为数据样本。
DataScience
2019-12-30
2.1K
0
Apache Hive FROM_UNIXTIME
unix
apache
hive
⊙时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
DataScience
2019-12-30
869
0
Apache Hive Regexp
apache
hive
Apache Hive Regexp (正则表达式) Apache Hive Regexp 正则案例 ⊙hive 通过regexp_extract(), 取域名中.com/.cn前的字符串? 例: 5
DataScience
2019-12-30
2.8K
0
Apache Hive With
apache
hive
一般情况,with 查询用到多次情况下,在引用select语句之前定义,同级只能定义with关键字只能使用一次,多个用逗号分割。
DataScience
2019-12-30
443
0
Apache Hive SQRT
hive
apache
云数据库 SQL Server
sql
数据库
有心无力码字的我,一致遵循着,没有什么事情是一个SQL 解决不了的问题,那就两个。
DataScience
2019-12-30
708
0
Apache Hive Length
apache
hive
字符串
Apache Hive Length (字符串) Apache Hive Length 字符串操作 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from a2data.test; 7 字符串反转函数:reverse 语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果 举例:
DataScience
2019-12-30
2.1K
0
Apache Hive Cube
hive
javascript
打包
rollup.js
apache
Apache Hive GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
DataScience
2019-12-30
905
0
Apache Hive MSCK
hive
apache
大数据
node.js
翻译成中文的大概意思就是:Hive将每个表的分区信息保存在metastore中,如果通过hadoop fs -put命令直接将分区信息添加到HDFS,metastore是不会感知到这些新增的分区,除非执行了ALTER TABLE table_name ADD PARTITION命令。但是用户可以运行metastore检查命令MSCK REPAIR TABLE table_name;该命令将关于分区的元信息添加到Hive metastore中,这是对于那些没有元信息的分区来说的。换句话说,就是将任何存在于HDFS上但不在metastore上的分区添加到metastore。
DataScience
2019-12-30
897
0
Apache Hive DlLPAR
mapreduce
apache
hive
sql
我们可以使用DISTRIBUTE BY rand()将数据随机分配给Reduce,
DataScience
2019-12-30
544
0
Apache Hive Table
存储
hive
数据库
sql
这两种文件格式Hive都支持,但是有个缺点就是:用户要对文本文件中那些不需要作为分隔符处理的逗号或者制表符格外小心。
DataScience
2019-12-30
664
0
Apache Hive Select
hive
mapreduce
apache
比如:INT 和 BIGINT,INT 转化为 BIGINT。INT 和 FLOAT,INT转化为 FLOA
DataScience
2019-12-30
338
0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
立即学习
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档