hive replace_Hive SQL查询中Regexp_replace的奇怪行为_REGEX_REPLACE的spark、hive和scala不能像预期的那样工作 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Sqoop之导入到Hive时特殊字符导致数据变乱

Sqoop从关系型数据库导入数据到Hive时，发现数据量增多了，查找之后发现是由于源数据中含义\r\t\n特殊字符的数据，这样Hive遇到之后就将其视为换行，所以导入到Hive后数据条数增多了很多，问题找到了，怎么解决呢.

03

hive 正则表达式详解[通俗易懂]

项目github地址：bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star，留言，一起学习进步

01

您找到你想要的搜索结果了吗？

是的

没有找到

一文学会Hive解析Json数组（好文收藏）

在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。

03

hive计算日期差函数datediff，hive修改日期连接符

本文主要讲述怎样用hive计算日期差问题。首先，hive本身有一个UDF，名字是datediff。我们来看一下这个日期差计算的官方描述，（下面这个是怎么出来的）： hive> desc function extended datediff; //*查函数功能*// OK datediff(date1, date2) - Returns the number of days between date1 and date2 date1 and date2 are strings in the for

05

hive计算日期差函数datediff，hive修改日期连接符

首先，hive本身有一个UDF，名字是datediff。我们来看一下这个日期差计算的官方描述，（下面这个是怎么出来的）：

03

Python执行hive sql

该python脚本是用于执行hive脚本的，需要设置hive的可执行环境变量，其实质转化为shell下命令 hive -e 'sql语句’ 的方式执行，然后把结果重定向到控制台显示。注：由于该脚本是直接调用shell中的hive命令，所以需要在安装hive的服务器上执行。

01

刚发现了 Hive 超赞的解析 Json 数组的函数，分享给你~

大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段，需要对 json 串数据进行转换“拍平”处理。

01

[1022]Hive insert 字段表错位

查询来的数据没发现有什么异常；照理说逐字段查出来没问题，再逐字段插入应该不会错位。实际上 hive 的 insert 跟想象中传统的 insert 不太一样。

01

hive字符串函数

hive字符串函数 1. 字符串长度函数：length 语法: length(string A) 返回值: int 说明：返回字符串A的长度举例：hive> select length('abcedfg') from lxw_dual; 7 2. 字符串反转函数：reverse 语法: reverse(string A) 返回值: string 说明：返回字符串A的反转结果举例： hive> select reverse(abcedfg') from lxw_dual; gfdecba 3. 字符串连接

07

hive字符串函数

hive字符串函数 1. 字符串长度函数：length 语法: length(string A) 返回值: int 说明：返回字符串A的长度举例：hive> select length('abcedfg') from lxw_dual; 7 2. 字符串反转函数：reverse 语法: reverse(string A) 返回值: string 说明：返回字符串A的反转结果举例： hive> select reverse(abcedfg') from lxw_dual; gfdecba 3. 字符串连接函数：concat 语法: concat(string A, string B…) 返回值: string 说明：返回输入字符串连接后的结果，支持任意个输入字符串举例： hive> select concat('abc','def','gh') from lxw_dual; abcdefgh 4. 带分隔符字符串连接函数：concat_ws 语法: concat_ws(string SEP, string A, string B…) 返回值: string 说明：返回输入字符串连接后的结果，SEP表示各个字符串间的分隔符举例： hive> select concat_ws(',','abc','def','gh') from lxw_dual; abc,def,gh 5. 字符串截取函数：substr,substring 语法: substr(string A, int start),substring(string A, int start) 返回值: string 说明：返回字符串A从start位置到结尾的字符串举例： hive> select substr('abcde',3) from lxw_dual; cde hive> select substring('abcde',3) from lxw_dual; cde hive> selectsubstr('abcde',-1) from lxw_dual; （和ORACLE相同） e 6. 字符串截取函数：substr,substring 语法: substr(string A, int start, int len),substring(string A, intstart, int len) 返回值: string 说明：返回字符串A从start位置开始，长度为len的字符串举例： hive> select substr('abcde',3,2) from lxw_dual; cd hive> select substring('abcde',3,2) from lxw_dual; cd hive>select substring('abcde',-2,2) from lxw_dual; de 7. 字符串转大写函数：upper,ucase 语法: upper(string A) ucase(string A) 返回值: string 说明：返回字符串A的大写格式举例： hive> select upper('abSEd') from lxw_dual; ABSED hive> select ucase('abSEd') from lxw_dual; ABSED 8. 字符串转小写函数：lower,lcase 语法: lower(string A) lcase(string A) 返回值: string 说明：返回字符串A的小写格式举例： hive> select lower('abSEd') from lxw_dual; absed hive> select lcase('abSEd') from lxw_dual; absed 9. 去空格函数：trim 语法: trim(string A) 返回值: string 说明：去除字符串两边的空格举例： hive> select trim(' abc ') from lxw_dual; abc 10. 左边去空格函数：ltrim 语法: ltrim(string A) 返回值: string 说明：去除字符串左边的空格举例： hive> select ltrim(' abc ') from lxw_dual; abc 11. 右边去空格函数：rtrim 语法: rtrim(string A) 返回值: string 说明：去除字符串右边的空格举例： hive> select rtrim(' abc ') from lxw_dual; abc 12. 正则表达式替换函数：regexp_replace 语法: regexp_replace(string A, string B, string C) 返回值: string 说明：将字符串A中的符合java正则表达式B的部分替换为C。注意，在

03

大数据入门与实战-Hive 常见SQL、技巧与问题

SQL 中的 TRIM 函数是用来移除掉一个字串中的字头或字尾。最常见的用途是移除字首或字尾的空白。

03

一场pandas与SQL的巅峰大战（三）

在前两篇文章中，我们从多个角度，由浅入深，对比了pandas和SQL在数据处理方面常见的一些操作。

02

「基础」SQL-Hive中常用的表格操作（下）

下面我们将建好的表t_od_use_cnt重命名为t_od_use_cnt_new，然后再改回来。

03

[1185]hive distcp数据同步

3，拷贝表从远程集群到本地(跨集群)，拷贝完后记得修复分区表【如果没有队列则不要：-Dmapred.job.queue.name=root.bi_qipu.p1】

02

[1185]hive distcp数据同步

3，拷贝表从远程集群到本地(跨集群)，拷贝完后记得修复分区表【如果没有队列则不要：-Dmapred.job.queue.name=root.bi_qipu.p1】

06

Spark UDF实现demo

使用Spark开发代码过程时，很多时候当前库中的算子不能满足业务需求。此时，UDFs(user defined functions) 派上非常大的作用。基于DataFrame(或者DataSet) 的Java(或Python、Scale) 可以轻松的定义注册UDF，但是想在SQL(SparkSQL、Hive) 中自定义或者想共用就遇到困难。这时，可以先按照一定规约自定义函数，再向Spark(或Hive)注册为永久函数，实现在Spark和Hive共享UDF的目的。

03

一场pandas与SQL的巅峰大战（二）

上一篇文章一场pandas与SQL的巅峰大战中，我们对比了pandas与SQL常见的一些操作，我们的例子虽然是以MySQL为基础的，但换作其他的数据库软件，也一样适用。工作中除了MySQL，也经常会使用Hive SQL，相比之下，后者有更为强大和丰富的函数。本文将延续上一篇文章的风格和思路，继续对比Pandas与SQL，一方面是对上文的补充，另一方面也继续深入学习一下两种工具。方便起见，本文采用hive环境运行SQL，使用jupyter lab运行pandas。关于hive的安装和配置，我在之前的文章MacOS 下hive的安装与配置提到过，不过仅限于mac版本，供参考，如果你觉得比较困难，可以考虑使用postgreSQL，它比MySQL支持更多的函数(不过代码可能需要进行一定的改动)。而jupyter lab和jupyter notebook功能相同，界面相似，完全可以用notebook代替，我在Jupyter notebook使用技巧大全一文的最后有提到过二者的差别，感兴趣可以点击蓝字阅读。希望本文可以帮助各位读者在工作中进行pandas和Hive SQL的快速转换。本文涉及的部分hive 函数我在之前也有总结过，可以参考常用Hive函数的学习和总结。

02

Hive 的正则应用，用会了没？

案例 - 1 ： regexp_replace(s,regex,replacement)

02

Hive实现oracle的Minus函数[通俗易懂]

在Oracle中minus运算的主要功能是：在进行两个表格或者两个查询结果的时候，返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录。

02

2021年大数据Hive（五）：Hive的内置函数（数学、字符串、日期、条件、转换、行转列）

语法: concat_ws(string SEP, string A, string B…)

02

干货分享 | Hive的内置函数（数学、字符串、日期、条件、转换、行转列）建议收藏

Hive内部提供了很多函数给开发者使用，包括数学函数，集合函数，类型转换函数，日期函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。

02

HIVE入门_1

本文介绍了如何使用 Hive 进行数据倾斜处理。首先介绍了 Hive 数据倾斜的基本概念，然后通过示例介绍了如何通过分桶、合并小文件、增加 Reduce 数目、使用 CombineTable 等方式来解决数据倾斜问题。同时，本文还提供了避免数据倾斜的一些建议，例如通过合理设置 Map 和 Reduce 数目、使用 Merge-on-Read（MOR）表、合理设置缓存、使用 Table 和 Partition 等方法。通过这些方法，可以有效地解决 Hive 中的数据倾斜问题，提高数据处理效率。

08

Apache Impala 4.0技术揭秘与最新进展

展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*

02

【踩坑实录】hive删除字段报错

a STRING COMMENT '哈哈', b BIGINT COMMENT '嘻嘻', c STRING COMMENT 'c' )

02

Hive改表结构的两个坑|避坑指南

Hive在大数据中可能是数据工程师使用的最多的组件，常见的数据仓库一般都是基于Hive搭建的，在使用Hive时候，遇到了两个奇怪的现象，今天给大家聊一下，以后遇到此类问题知道如何避坑！

02

Hive 基础（2）：库、表、字段、交互式查询的基本操作

1、命令行操作（1）打印查询头，需要显示设置： set hive.cli.print.header=true; （2）加"--"，其后的都被认为是注释，但 CLI 不解析注释。带有注释的文件只能通过这种方式执行： hive -f script_name （3）-e后跟带引号的hive指令或者查询，-S去掉多余的输出： hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery （4）遍历所有分区的查询将产生一个巨大的MapRe

hive解析json

我们进行ETL(Extract-Transfer-Load) 过程中,经常会遇到从不同数据源获取的不同格式的数据，其中某些字段就是json格式，里面拼接了很多字段key和指标值value，今天讲一下如何解析出来相关数据。

03

Hive函数

hive默认解析的日期必须是： 2019-11-24 08:09:10 unix_timestamp:返回当前或指定时间的时间戳 from_unixtime：将时间戳转为日期格式 current_date：当前日期 current_timestamp：当前的日期加时间 to_date：抽取日期部分 year：获取年 month：获取月 day：获取日 hour：获取时 minute：获取分 second：获取秒 weekofyear：当前时间是一年中的第几周 dayofmonth：当前时间是一个月中的第几天 months_between：两个日期间的月份，前-后 add_months：日期加减月 datediff：两个日期相差的天数，前-后 date_add：日期加天数 date_sub：日期减天数 last_day：日期的当月的最后一天

02

问题排查--Impala查询Decimal数据为NULL，Hive查询正常

目前，线上反馈一个问题：同一张表，使用Hive查询正常，但是使用Impala查询，返回的数据中，部分字段值为NULL。我们使用impala执行了invalidate metadata xxx，排查了元数据不一致的问题，同时查看源文件，也排除了数据本身的问题。最终，通过在Impalad的web页面上查看该SQL的profile发现，其中存在如下的Errors：

02

面对高难度的 Sql 需求，HQL没在怕的！

有以下数据集I，表查询结果如下图所示，设置该表为表：test_user_scan。

02

Hive自定义函数UDF、UDTF、UDAF入门

详细讲解Hive自定义函数UDF、UDTF、UDAF基础知识，带你快速入门，首先在Hive中新建表”apache_log”

01

Hive 基础操作

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

04

【Hive】SQL语句大全

继承 org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

01

hive中 regexp_replace的用法，替换特殊字符问题

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringOperators

02

Hive使用必知必会系列

注意:使用insert插入数据时会产生临时表，重新连接后会表会小时，因此大批量插入数据时不建议用insert tips1:在hdfs的hive路径下以.db结尾的其实都是实际的数据库 tips2:默认的default数据库就在hive的家目录

03

hive创建唯一标识列(自增id)

在某一张 hive 表中需要有一列去唯一标识某一行，有些类似于MySQL中的自增ID

01

利用Sqoop实现Hive的数据与MySQL数据的互导

注意：在sqoop-1.4.6以前，从MySQL中导出数据到hive表中，不能指定文件格式为parquet，只能先导入到HDFS，在从HDFS上load parquet file

02

Hive个人笔记总结

①保证环境变量中有JAVA_HOME ②基于HADOOP工作，保证环境变量中有HADOOP_HOME ③在环境变量中配置HIVE_HOME，默认hive在启动时，会读取HIVE_HOME/conf中的配置文件

03

oozie 运行demo

昨晚装好了oozie，能启动了，并且配置了mysql作为数据库，好了，今天要执行oozie自带的demo了，好家伙，一执行就报错！报错很多，就不一一列举了，就说我最后解决的方法吧。 oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties –run 这句话需要在oozie的目录里面执行，然后在网上查了很多资料，最后搞定了，需要修改三个配置文件。在说修改配置文件之前，还漏

08

常用Hive函数的学习和总结

今天来小结一下工作中经常会使用到的一些Hive函数。关于Hive函数的总结，网上早有十分全面的版本。参考：https://blog.csdn.net/doveyoung8/article/details/80014442。本文主要从最常用和实用的角度出发，说明几个使用频率较高的函数，更注重使用函数组合来解决实际问题而不局限于单个函数的使用。所有数据都是虚构，代码均在本地的Hive环境上都通过测试。本文代码较多，需要各位看官耐心学习，可以收藏备查，欢迎补充和讨论。由于公众号对代码的支持不太友好，您可以在后台回复“hive函数”获取本文的PDF版本，方便阅读。

01

hive使用笔记

json_tuple(json_object,'key1','key2','keyN')

02

[1142]hive中如何新增字段

添加之后字段由于hive底层是文件和系列化的设计，因此查数据会发现新增的列在所有已有列的后面

02

0867-7.1.6-Hue中Spark Notebook与Livy集成问

本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。

02

Glusterfs的peer/volume/brick

查看peer的情况，当前的glusterfs集群中，有当前节点和11、12三个节点组成。

02

hive 修改表结构

在工作中，有时候会遇到老表的数据已经不能支持新的业务需求，若是重新创建一个表来承载，稍微麻烦，若是用旧表来写数据，就需要对旧表做调整。下面的内容就是介绍如何对hive表结构做修改

01

Hive基础09、HQL查询语句

hive -S -e 'select table_cloum from table' -S，终端上的输出不会有mapreduce的进度，执行完毕，只会把查询结果输出到终端上。

02

Hive编程指南 | 增加、修改、删除字段

hive中不支持alter table table_name drop columns这种语法，支持replace

02

拉链表起始时间转成多行日期

dataphin拉链表起始时间转成多行日期： (ps:dataphin split()怎么都识别不出空格，自闭了。。。替换成字符解决了)

02

快速学习-DDL数据定义

1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭