RegexSerDe 可以从 Hive 两个jar文件的类中获取,hive-serde-<version>.jar中的 org.apache.hadoop.hive.contrib.serde2.RegexSerDe 以及 hive-contrib-<version>.jar 中的 org.apache.hadoop.hive.serde2.RegexSerDe。
PIG中输入输出分隔符默认是制表符\t,而到了hive中,默认变成了八进制的\001, 也就是ASCII: ctrl - A Oct Dec Hex ASCII_Char 001 1 01 SOH (start of heading) 官方的解释说是尽量不和文中的字符重复,因此选用了 crtrl - A,单个的字符可以通过 row format delimited fields terminated by '#'; 指定,PIG的单个分隔符的也可以通过 PigStor
所谓·生活 就是一系列下定决心的努力 · 正 · 文 · 来 · 啦 · Bulk Upload Data jps 查看集群服务 [root@quickstart ~]# jps 3646 RunJar 3130 ResourceManager 2583 SecondaryNameNode 2849 NodeManager 5344 5315 Bootstrap 2709 Bootstrap 3499 RESTServer 2195 QuorumPeerMain 5124 Boots
LOCATION 是指定外部表的存储路径,MANAGEDLOCATION 是指定管理表的存储路径(hive 4.0.0 才支持),官方建议默认就行,让所有的表都在一个根目录下。
在这里可以回顾一下Hadoop的相关知识: 1.x job tracker 既管资源调度又管任务分配 2.x 分为ResourceManager(资源分配)和DataManager(任务分配) 牢记Hadoop 1.x与2.x架构图
领取专属 10元无门槛券
手把手带您无忧上云