腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
A2Data
专栏作者
举报
373
文章
384417
阅读量
30
订阅数
订阅专栏
申请加入专栏
全部文章(373)
编程算法(97)
python(70)
sql(49)
数据库(41)
linux(29)
hive(28)
ide(26)
java(25)
apache(19)
云数据库 SQL Server(17)
网络安全(16)
存储(15)
数据分析(14)
大数据(13)
http(12)
https(12)
git(11)
github(11)
开源(11)
打包(10)
网站(9)
ssh(9)
面向对象编程(9)
windows(9)
mysql(9)
node.js(8)
html(8)
oracle(8)
numpy(8)
javascript(7)
unix(7)
神经网络(7)
腾讯云测试服务(7)
tcp/ip(7)
机器学习(6)
jquery(6)
深度学习(6)
文件存储(6)
人工智能(6)
bash(5)
vue.js(5)
matlab(5)
spring(5)
mapreduce(5)
专用宿主机(5)
容器(5)
jdk(5)
yum(5)
hexo(5)
数据结构(5)
虚拟化(5)
c++(4)
bash 指令(4)
云推荐引擎(4)
hadoop(4)
线性回归(4)
ftp(4)
npm(4)
微服务(4)
jupyter notebook(4)
编程(4)
数据挖掘(3)
xml(3)
api(3)
jar(3)
maven(3)
日志服务(3)
访问管理(3)
命令行工具(3)
NAT 网关(3)
serverless(3)
爬虫(3)
正则表达式(3)
dns(3)
spring boot(3)
anaconda(3)
nat(3)
特征工程(3)
break(3)
data(3)
hdfs(3)
import(3)
null(3)
pandas(3)
root(3)
工具(3)
php(2)
scala(2)
json(2)
nosql(2)
云数据库 Redis(2)
全文检索(2)
TDSQL MySQL 版(2)
webpack(2)
xslt & xpath(2)
缓存(2)
shell(2)
jvm(2)
gui(2)
hbase(2)
任务调度(2)
rust(2)
axis(2)
default(2)
hadoop2(2)
int(2)
it(2)
join(2)
key(2)
max(2)
methods(2)
rank(2)
return(2)
static(2)
sum(2)
zip(2)
百度(2)
教程(2)
排序(2)
统计(2)
源码(2)
字符串(2)
NLP 服务(1)
mac os(1)
react(1)
css(1)
sqlite(1)
flask(1)
eclipse(1)
tomcat(1)
搜索引擎(1)
ubuntu(1)
windows server(1)
nginx(1)
容器镜像服务(1)
短信(1)
电商(1)
express(1)
rollup.js(1)
babel.js(1)
游戏(1)
分布式(1)
黑客(1)
spark(1)
卷积神经网络(1)
sql server(1)
grep(1)
powershell(1)
安全(1)
数据可视化(1)
kafka(1)
聚类算法(1)
数据库管理(1)
数据集成(1)
add(1)
backup(1)
bind(1)
boolean(1)
bug(1)
case(1)
comparison(1)
component(1)
contour(1)
copy(1)
count(1)
dashboard(1)
dataset(1)
date(1)
dump(1)
element(1)
error(1)
exe(1)
exists(1)
expression(1)
filewriter(1)
for循环(1)
frame(1)
func(1)
get(1)
getter(1)
gif(1)
google(1)
having(1)
host(1)
im(1)
image(1)
impala(1)
input(1)
insert(1)
io(1)
jsonp(1)
jupyter(1)
lag(1)
launch(1)
lda(1)
list(1)
localhost(1)
mac(1)
mask(1)
min(1)
newline(1)
object(1)
offset(1)
overflow(1)
package(1)
partition(1)
pascal(1)
pip(1)
post(1)
product(1)
protected(1)
ps(1)
public(1)
readline(1)
rename(1)
request(1)
restore(1)
reverse(1)
row(1)
rows(1)
scale(1)
select(1)
setter(1)
shift(1)
sort(1)
stack(1)
string(1)
tampermonkey(1)
time(1)
truncate(1)
ui(1)
union(1)
upload(1)
void(1)
watch(1)
wizard(1)
备份(1)
编程语言(1)
变量(1)
插件(1)
产品(1)
程序(1)
磁盘(1)
地图(1)
动画(1)
二进制(1)
二维码(1)
工作(1)
集合(1)
集群(1)
配置(1)
日志(1)
数据类型(1)
索引(1)
效率(1)
增长黑客(1)
指针(1)
作用域(1)
搜索文章
搜索
搜索
关闭
Day6 | 数据库操作-索引补充、非空表达式、CASE WHEN函数
全文检索
云推荐引擎
数据分析
唯一索引要求作为索引的字段列值唯一;主键索引是特殊的唯一索引,要求作为索引的字段唯一且不为空。
DataScience
2020-07-02
551
0
Hive表操作二(管理表、外部表、分区表)
数据分析
hive
云推荐引擎
编程算法
python
Hive表操作二(管理表、外部表、分区表) *管理表 --我们目前所创建的表都是管理表,也叫内部表 --Hive会控制管理表数据的生命周期,Hive默认会将表数据存储在/user/hive/warehouse子目录下 --删除一个管理表时,Hive也会删除这个表中数据 --管理表不方便和其他工具共享数据 eg:我们有一份由Pig或其他工具创建并且主要由这一工具使用的数据,同时我们还想使用Hive执行查询,可以创建一个外部表指向这份数据,并不需要对其具有所有权 *外部表 --文件位于分布式文件系统的/data/test eg:CREATE EXTERNAL TABLE IF NOT EXISTS app ( hour string, name string, pv string, uv string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/data/test'; 对以上语句分析: 1.关键字EXTERNAL告诉Hive这个表是外部表,LOCATION告诉Hive数据位于哪个路径下 2.因为是外部表,所以Hive并非认为其完全拥有这份数据,删除该表时并不会删除这份数据,只会删除描述表的元数据信息 *管理表VS外部表 --可以用 DESCRIBE EXTENDED tablename语句的输出中查看到表是否是管理表或外部表 --对于管理表,可看到如下信息 ... tableType:MANAGED_TABLE) --对于外部表,可看到如下信息 ... tableType:EXTERNAL_TABLE) 注:如果语句省略 EXTERNAL 关键字而源表是外部表的话,那么生成的新表也是外部表 如果语句省略 EXTERNAL 关键字而源表是管理表的话,那么生成的新表也是管理表 如果语句有EXTERNAL关键字而源表是管理表的话,那么生成的新表是外部表 *分区管理表 --管理表和外部表都可以加分区 eg:CREATE TABLE IF NOT EXISTS tmp.table1( userId string COMMENT '用户ID', name string COMMENT '用户姓名', createtime string COMMENT '创建时间' ) PARTITIONED BY (country string,state string ); --分区表改变了Hive对数据存储的组织方式。如果我们在tmp库下创建这个表,那么对于这个表只会有一个table1目录与之对应: /user/hive/warehouse/tmp/table1 但是,Hive在表目录下将会建好可以反映分区结构的子目录 eg:/table1/country=CA/state=AB /table1/country=CA/state=BC ... /table1/country=US/state=AL /table1/country=US/state=AK ... 这些都是实际的目录名称,州目录下将会包含有零个文件或者多个文件,这些文件中存放着那些州的用户信息 分区字段一旦创建好,表现得就和普通字段一样,除非优化查询性能,否则不需要关心是否是分区字段 如果要查某个国家的用户,那仅仅需要扫描那个国家对应的目录就可以 --查看表中存在的所有分区 eg: hive> SHOW PARTITIONS table
DataScience
2020-04-14
869
0
DDL 描述数据世界
sql
云数据库 SQL Server
云推荐引擎
数据库
关系型数据库是指“采用了关系模型来组织数据的数据库,以行和列的形式存储数据,便于用户理解。关系型数据库这一系列的行和列被称为表,一组表组成了数据库。”
DataScience
2019-12-30
687
0
Hive表操作一
hive
编程算法
云推荐引擎
数据库
sql
Hive表操作一 *文本文件 -CSV:以逗号分隔的文本文件 -TSV:以制表符分隔的文本文件 这两种文件格式Hive都支持,但是有个缺点就是用户要对文本文件中那些不需要作为分隔符处理的逗号或者制表符格外小心 *创建表 CREATE TABLE语句遵循SQL语法惯例,但比较灵活,可定义表的数据文件存储在什么位置,使用什么存储格式等 eg:CREATE TABLE IF NOT EXISTS tmp.table1(
DataScience
2019-12-30
1.1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档