Sqoop从关系型数据库导入数据到Hive时,发现数据量增多了,查找之后发现是由于源数据中含义\r\t\n特殊字符的数据,这样Hive遇到之后就将其视为换行,所以导入到Hive后数据条数增多了很多,问题找到了,怎么解决呢.
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。
本文主要讲述怎样用hive计算日期差问题。 首先,hive本身有一个UDF,名字是datediff。我们来看一下这个日期差计算的官方描述,(下面这个是怎么出来的): hive> desc function extended datediff; //*查函数功能*// OK datediff(date1, date2) - Returns the number of days between date1 and date2 date1 and date2 are strings in the for
首先,hive本身有一个UDF,名字是datediff。我们来看一下这个日期差计算的官方描述,(下面这个是怎么出来的):
该python脚本是用于执行hive脚本的,需要设置hive的可执行环境变量,其实质转化为shell下命令 hive -e 'sql语句’ 的方式执行,然后把结果重定向到控制台显示。注:由于该脚本是直接调用shell中的hive命令,所以需要在安装hive的服务器上执行。
大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段,需要对 json 串数据进行转换“拍平”处理。
查询来的数据没发现有什么异常;照理说逐字段查出来没问题,再逐字段插入应该不会错位。实际上 hive 的 insert 跟想象中传统的 insert 不太一样。
hive字符串函数 1. 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例:hive> select length('abcedfg') from lxw_dual; 7 2. 字符串反转函数:reverse 语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果 举例: hive> select reverse(abcedfg') from lxw_dual; gfdecba 3. 字符串连接
hive字符串函数 1. 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例:hive> select length('abcedfg') from lxw_dual; 7 2. 字符串反转函数:reverse 语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果 举例: hive> select reverse(abcedfg') from lxw_dual; gfdecba 3. 字符串连接函数:concat 语法: concat(string A, string B…) 返回值: string 说明:返回输入字符串连接后的结果,支持任意个输入字符串 举例: hive> select concat('abc','def','gh') from lxw_dual; abcdefgh 4. 带分隔符字符串连接函数:concat_ws 语法: concat_ws(string SEP, string A, string B…) 返回值: string 说明:返回输入字符串连接后的结果,SEP表示各个字符串间的分隔符 举例: hive> select concat_ws(',','abc','def','gh') from lxw_dual; abc,def,gh 5. 字符串截取函数:substr,substring 语法: substr(string A, int start),substring(string A, int start) 返回值: string 说明:返回字符串A从start位置到结尾的字符串 举例: hive> select substr('abcde',3) from lxw_dual; cde hive> select substring('abcde',3) from lxw_dual; cde hive> selectsubstr('abcde',-1) from lxw_dual; (和ORACLE相同) e 6. 字符串截取函数:substr,substring 语法: substr(string A, int start, int len),substring(string A, intstart, int len) 返回值: string 说明:返回字符串A从start位置开始,长度为len的字符串 举例: hive> select substr('abcde',3,2) from lxw_dual; cd hive> select substring('abcde',3,2) from lxw_dual; cd hive>select substring('abcde',-2,2) from lxw_dual; de 7. 字符串转大写函数:upper,ucase 语法: upper(string A) ucase(string A) 返回值: string 说明:返回字符串A的大写格式 举例: hive> select upper('abSEd') from lxw_dual; ABSED hive> select ucase('abSEd') from lxw_dual; ABSED 8. 字符串转小写函数:lower,lcase 语法: lower(string A) lcase(string A) 返回值: string 说明:返回字符串A的小写格式 举例: hive> select lower('abSEd') from lxw_dual; absed hive> select lcase('abSEd') from lxw_dual; absed 9. 去空格函数:trim 语法: trim(string A) 返回值: string 说明:去除字符串两边的空格 举例: hive> select trim(' abc ') from lxw_dual; abc 10. 左边去空格函数:ltrim 语法: ltrim(string A) 返回值: string 说明:去除字符串左边的空格 举例: hive> select ltrim(' abc ') from lxw_dual; abc 11. 右边去空格函数:rtrim 语法: rtrim(string A) 返回值: string 说明:去除字符串右边的空格 举例: hive> select rtrim(' abc ') from lxw_dual; abc 12. 正则表达式替换函数:regexp_replace 语法: regexp_replace(string A, string B, string C) 返回值: string 说明:将字符串A中的符合java正则表达式B的部分替换为C。注意,在
SQL 中的 TRIM 函数是用来移除掉一个字串中的字头或字尾。最常见的用途是移除字首或字尾的空白。
在前两篇文章中,我们从多个角度,由浅入深,对比了pandas和SQL在数据处理方面常见的一些操作。
下面我们将建好的表t_od_use_cnt重命名为t_od_use_cnt_new,然后再改回来。
3,拷贝表从远程集群到本地(跨集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】
使用Spark开发代码过程时,很多时候当前库中的算子不能满足业务需求。此时,UDFs(user defined functions) 派上非常大的作用。基于DataFrame(或者DataSet) 的Java(或Python、Scale) 可以轻松的定义注册UDF,但是想在SQL(SparkSQL、Hive) 中自定义或者想共用就遇到困难。这时,可以先按照一定规约自定义函数,再向Spark(或Hive)注册为永久函数,实现在Spark和Hive共享UDF的目的。
上一篇文章一场pandas与SQL的巅峰大战中,我们对比了pandas与SQL常见的一些操作,我们的例子虽然是以MySQL为基础的,但换作其他的数据库软件,也一样适用。工作中除了MySQL,也经常会使用Hive SQL,相比之下,后者有更为强大和丰富的函数。本文将延续上一篇文章的风格和思路,继续对比Pandas与SQL,一方面是对上文的补充,另一方面也继续深入学习一下两种工具。方便起见,本文采用hive环境运行SQL,使用jupyter lab运行pandas。关于hive的安装和配置,我在之前的文章MacOS 下hive的安装与配置提到过,不过仅限于mac版本,供参考,如果你觉得比较困难,可以考虑使用postgreSQL,它比MySQL支持更多的函数(不过代码可能需要进行一定的改动)。而jupyter lab和jupyter notebook功能相同,界面相似,完全可以用notebook代替,我在Jupyter notebook使用技巧大全一文的最后有提到过二者的差别,感兴趣可以点击蓝字阅读。希望本文可以帮助各位读者在工作中进行pandas和Hive SQL的快速转换。本文涉及的部分hive 函数我在之前也有总结过,可以参考常用Hive函数的学习和总结。
案例 - 1 : regexp_replace(s,regex,replacement)
在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录。
语法: concat_ws(string SEP, string A, string B…)
Hive内部提供了很多函数给开发者使用,包括数学函数,集合函数,类型转换函数,日期函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。
本文介绍了如何使用 Hive 进行数据倾斜处理。首先介绍了 Hive 数据倾斜的基本概念,然后通过示例介绍了如何通过分桶、合并小文件、增加 Reduce 数目、使用 CombineTable 等方式来解决数据倾斜问题。同时,本文还提供了避免数据倾斜的一些建议,例如通过合理设置 Map 和 Reduce 数目、使用 Merge-on-Read(MOR)表、合理设置缓存、使用 Table 和 Partition 等方法。通过这些方法,可以有效地解决 Hive 中的数据倾斜问题,提高数据处理效率。
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
a STRING COMMENT '哈哈', b BIGINT COMMENT '嘻嘻', c STRING COMMENT 'c' )
Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!
1、命令行操作 (1)打印查询头,需要显示设置: set hive.cli.print.header=true; (2)加"--",其后的都被认为是注释,但 CLI 不解析注释。带有注释的文件只能通过这种方式执行: hive -f script_name (3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出: hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery (4)遍历所有分区的查询将产生一个巨大的MapRe
我们进行ETL(Extract-Transfer-Load) 过程中,经常会遇到从不同数据源获取的不同格式的数据,其中某些字段就是json格式,里面拼接了很多字段key和指标值value,今天讲一下如何解析出来相关数据。
hive默认解析的日期必须是: 2019-11-24 08:09:10 unix_timestamp:返回当前或指定时间的时间戳 from_unixtime:将时间戳转为日期格式 current_date:当前日期 current_timestamp:当前的日期加时间 to_date:抽取日期部分 year:获取年 month:获取月 day:获取日 hour:获取时 minute:获取分 second:获取秒 weekofyear:当前时间是一年中的第几周 dayofmonth:当前时间是一个月中的第几天 months_between: 两个日期间的月份,前-后 add_months:日期加减月 datediff:两个日期相差的天数,前-后 date_add:日期加天数 date_sub:日期减天数 last_day:日期的当月的最后一天
目前,线上反馈一个问题:同一张表,使用Hive查询正常,但是使用Impala查询,返回的数据中,部分字段值为NULL。 我们使用impala执行了invalidate metadata xxx,排查了元数据不一致的问题,同时查看源文件,也排除了数据本身的问题。最终,通过在Impalad的web页面上查看该SQL的profile发现,其中存在如下的Errors:
有以下数据集I,表查询结果如下图所示,设置该表为表:test_user_scan。
详细讲解Hive自定义函数UDF、UDTF、UDAF基础知识,带你快速入门,首先在Hive中新建表”apache_log”
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
继承 org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringOperators
注意:使用insert插入数据时会产生临时表,重新连接后会表会小时,因此大批量插入数据时不建议用insert tips1:在hdfs的hive路径下以.db结尾的其实都是实际的数据库 tips2:默认的default数据库就在hive的家目录
在某一张 hive 表中需要有一列去唯一标识某一行,有些类似于MySQL中的自增ID
注意: 在sqoop-1.4.6以前,从MySQL中导出数据到hive表中,不能指定文件格式为parquet,只能先导入到HDFS,在从HDFS上load parquet file
①保证环境变量中有JAVA_HOME ②基于HADOOP工作,保证环境变量中有HADOOP_HOME ③在环境变量中配置HIVE_HOME,默认hive在启动时,会读取HIVE_HOME/conf中的配置文件
昨晚装好了oozie,能启动了,并且配置了mysql作为数据库,好了,今天要执行oozie自带的demo了,好家伙,一执行就报错!报错很多,就不一一列举了,就说我最后解决的方法吧。 oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties –run 这句话需要在oozie的目录里面执行,然后在网上查了很多资料,最后搞定了,需要修改三个配置文件。 在说修改配置文件之前,还漏
今天来小结一下工作中经常会使用到的一些Hive函数。关于Hive函数的总结,网上早有十分全面的版本。参考:https://blog.csdn.net/doveyoung8/article/details/80014442。本文主要从最常用和实用的角度出发,说明几个使用频率较高的函数,更注重使用函数组合来解决实际问题而不局限于单个函数的使用。所有数据都是虚构,代码均在本地的Hive环境上都通过测试。本文代码较多,需要各位看官耐心学习,可以收藏备查,欢迎补充和讨论。由于公众号对代码的支持不太友好,您可以在后台回复“hive函数”获取本文的PDF版本,方便阅读。
json_tuple(json_object,'key1','key2','keyN')
添加之后字段由于hive底层是文件和系列化的设计,因此查数据会发现新增的列在所有已有列的后面
本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。
查看peer的情况,当前的glusterfs集群中,有当前节点和11、12三个节点组成。
在工作中,有时候会遇到老表的数据已经不能支持新的业务需求,若是重新创建一个表来承载,稍微麻烦,若是用旧表来写数据,就需要对旧表做调整。下面的内容就是介绍如何对hive表结构做修改
hive -S -e 'select table_cloum from table' -S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。
hive中不支持alter table table_name drop columns这种语法,支持replace
dataphin拉链表起始时间转成多行日期: (ps:dataphin split()怎么都识别不出空格,自闭了。。。替换成字符解决了)
1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。
领取专属 10元无门槛券
手把手带您无忧上云