在presto中将文本字符串拆分为匹配的列

在 Presto 中，将文本字符串拆分为匹配的列可以通过正则表达式和预定义的函数来实现。

Presto 是一个开源的分布式 SQL 查询引擎，它支持在大规模数据集上进行快速、交互式的数据分析。以下是将文本字符串拆分为匹配的列的步骤：

使用正则表达式定义要匹配的模式。
使用 regexp_extract_all 函数可以根据正则表达式从文本字符串中提取所有匹配的子字符串。该函数的语法为：regexp_extract_all(source, pattern, [index])。其中，source 是要匹配的文本字符串，pattern 是正则表达式模式，index 是可选参数，表示要提取的子字符串在匹配结果中的位置。
使用 unnest 函数可以将 regexp_extract_all 函数返回的数组展开成多行数据。该函数的语法为：unnest(array)，其中 array 是要展开的数组。
使用 with_column 函数可以将展开的数据添加为新的列。该函数的语法为：with_column(table, column_name, expression)，其中 table 是要添加列的表，column_name 是新列的名称，expression 是新列的值。
可以选择性地使用其他 Presto 函数对拆分后的列进行进一步处理和转换，例如使用 trim 函数去除空格，或使用 cast 函数将列转换为特定的数据类型。

以下是一个示例查询，演示了如何在 Presto 中将文本字符串拆分为匹配的列：

SELECT 
  with_column(
    t, 'column1', trim(cast(unnested[1] AS VARCHAR)), 
    'column2', trim(cast(unnested[2] AS VARCHAR))
  ) AS result
FROM (
  SELECT unnest(regexp_extract_all('string1 string2', '(\\w+)\\s+(\\w+)')) AS unnested
) AS t;

在这个示例中，我们将字符串 'string1 string2' 拆分为两个匹配的列 'column1' 和 'column2'，使用空格作为分隔符。这个查询会返回一个包含拆分后列的表格结果。

根据您的需求，这里推荐使用腾讯云的云原生数据库 TDSQL-C（点击查看产品介绍：TDSQL-C）。TDSQL-C 是腾讯云自研的一款高性能、高可用的云原生数据库产品，支持 MySQL、PostgreSQL 和 TiDB 三个引擎，适用于各种场景下的数据存储和查询需求。

希望以上信息能对您有所帮助！

在presto中将文本字符串拆分为匹配的列

我有一个来自presto查询的报告，它给出了字符串形式的信息原始数据如下所示： c_pre=CI2UhdX95uACFcKIdwodZ8QETQ;gtm=2od241;auiddc=*;u1=cz;u14=SGD;u15=Not Available;u3=pdp;u4=undefined;u6=Not Available;~oref=https://www.bbc.com/ 我发现了一个excel的变通方法，可以将它分成多个单独的列。sc

浏览 88提问于2019-03-07得票数 0

回答已采纳

2回答

使用特定的模式在文件中的行中添加空格。

0.40318151E-03 0.45064186E+04795 0.16254624E+01 -0.40318151E-03 0.45064186E+04 搜索的正则表达式是

浏览 1提问于2018-08-15得票数 0

回答已采纳

1回答

如何使在k/v对上循环中调用awk的脚本更快？

、、

我有大量的文本文件，我想循环通过。在循环时，我希望找到与字符串列表相匹配的行，并将每个字符串提取到一个单独的文件夹中。我有一个变量"ij“，需要将其拆分为"i”和"j“，以匹配两列。例如，需要将2733分为27和33。脚本搜索每个文本文件并提取每一行的i和j值为2733。这里的问题是，我有将近10

浏览 0提问于2019-08-22得票数 1

回答已采纳

2回答

在R中使用strsplit拆分逗号分隔的混合文本和数字字符串

、、

我有许多形式为name1, name2 and name3, 0, 1, 2或name1, name2, name3 and name4, 0, 1, 2的字符串，并希望将向量拆分为4个元素，其中第一个元素将是完整的名称文本字符串问题是strsplit在文本和数字之间没有区别，在第一种情况下将字符串拆分为5个元素，在第二个示例中将字符串拆

浏览 1提问于2013-10-07得票数 0

回答已采纳

2回答

使用带正则表达式的str.split在大写字符串和属性字符串之间拆分

、、

我有一列包含全名的字符串。后缀名被区分为全大写字母的组，而姓氏则以propercase大写形式给出。大多数名称被排序为(Firstname，LASTNAME)，但许多名称在字符串的中间或开头包含LASTNAME信息，如这里的最后一个条目。Vincent MUANDUMBA3 Luis FILIPE da Rivera我想根

浏览 5提问于2021-11-29得票数 0

回答已采纳

2回答

为什么包含字符串的PHP变量在div之外移动？

、、

</p><p>A lot of nice text etc. etc.</p>$myVar = 'AFDKAAGKAGGAMAGKGASKGASKLNANÖLASDNASFDNAFSDNÖADSNLNLKFDSNKAFDSNKFASDLNÖAFSÖNLAFSLNÖKAFSD

浏览 1提问于2012-10-15得票数 0

回答已采纳

1回答

如何在flask-WTF &wtforms的字符串字段中输入新行/多行

、、

在处理多行文本输入的Flask wtform的StringField中，我只能有一个很长的文本字符串，即使我需要放入多行。如果我粘贴的原始文本有多行，它也会变成一个很长的单行字符串。在文本区域(字符串字段)中按enter键不会创建新行，而是确认输入。如何在StringField中将一段文本拆分为</em

浏览 16提问于2020-02-02得票数 1

回答已采纳

1回答

在Athena中将字符串格式转换为日期时出现问题

请求您的帮助，因为您一直在尝试解决此问题，但无法解决。我在雅典娜有一列字符串。我想在雅典娜中将该列转换为时间戳。%fZ') from wqmparquetformat ; 但我收到错误: INVALID_FUNCTION_ARGUMENT: Invalid format："1589832352“在"832352”处格式不正确我已经尝试了时间戳格式的Presto的所有

浏览 46提问于2020-06-17得票数 0

2回答

你对这个RegEx有什么理解？

、、

我正在使用VBA并尝试将字符串拆分为三列，几乎所有的字符串都类似于Company Name 3567782 Agent Name.pdf。使用此模式，我希望匹配空格和数字(第一组)、数字(第二组)和空格之后的所有文本以及.pdf (第三组)之前的所有文本。.+).pdf"你能帮我找到我想要的</em

浏览 5提问于2021-03-04得票数 1

回答已采纳

2回答

在内存中使用.NET进行文本搜索

、、

我在内存中将一些文本存储在一个二维数组中，其中第一列是行号，第二列是文本本身。我想要做的是找到一个现有的解决方案，在这个解决方案中，我可以传递这种数据结构(它是可塑性的)和布尔搜索查询，最好是使用通配符，并找出哪些行包含匹配项。有没有API可以做到这一点？我不想使用Lucene这样的东西，因为我不想费心构建索引。我基本上是想枚举一个字符串集合，并返回与传入的查询匹配</em

浏览 2提问于2012-10-04得票数 3

回答已采纳

1回答

在xsl-fo中区分表格和其他文本的方法

、、

我在我的simple-page-master中将column-count设置为2。下面是完整的fo文件：在layout-master-set中，列计数设置为"2“。

浏览 2提问于2012-02-15得票数 0

回答已采纳

1回答

如何从查询中获取列列表？

、

PowerBuilder数据窗口有一些参数，这些参数显然与数据窗口查询中的列相匹配。查询太复杂了。在我的脚本中，我得到字符串变量中的查询语法。此外，我在数据窗口中定义了参数列表。现在，我想从查询语法中获取列列表，其中将列与检索参数进行比较。我不需要那些列与检索参数相比的列。例如，查询字符串的文本中有"

浏览 0提问于2019-01-09得票数 0

1回答

是否可以在Elasticsearch中按术语拆分单词以提高`通配符`的性能？

我发现它的表现相当糟糕。我的想法是手动将文本标记为一个术语数组。例如，字段有一个类似ABCD的文本，而不是执行前缀查询或通配符查询，而是在索引构建过程中将文本拆分为数组["A", "AB", "ABC", "ABCD"]。然后在该字段上使用match查询。因此，当用户发送像AB这样的请求时，它将执行精确匹配</e

浏览 16提问于2020-01-28得票数 0

回答已采纳

1回答

理解Excel中的vlookup公式？

、、、

我在电子表格中有两个列表，其中一些名称匹配，有些则不匹配。例如:在B2中，它会读取0或false，因为C列中没有Jimmy。但是，在B3中，公式的工作方式应该像A3中的文本匹配C列中的任何文本一样--它分配相应的<

浏览 2提问于2014-01-02得票数 0

1回答

日期列与字符串的雅典娜分区投影

、

我希望使用雅典娜分区投影来分析来自AWS应用程序的日志文件，负载平衡器和消防水管发出的日志。S3中的数据以年/月/日和潜在小时作为前缀。我已经能够使用完成了；但是，这个示例使用了一个字符串格式的分区列。我想看看是否可以使用日期格式的分区列(通过分区项目和消防水管发出的s3前缀格式)，因为我们的查询编写器已经习惯了大多数涉及日期列的查询，它避免了为相对日期查询<e

浏览 5提问于2020-11-13得票数 4

回答已采纳

2回答

mysql -如何分割逗号分隔的文本并创建表

如何将逗号分隔的字符串从一列中分离出来，并将其转换为多列？这是我的桌子：--------------------------1 111 131

浏览 12提问于2022-08-22得票数 1

回答已采纳

1回答

无法在Spark Dataframe中将列拆分为多个列

、、、

无法在Spark Data-frame和RDD中将该列拆分为多个列。我尝试了其他一些代码，但只使用固定的列。例如：我有一个文本文件，输入数据如下所需输出为： C,hy

浏览 15提问于2019-10-23得票数 0

回答已采纳

1回答

在MySQL中查找表中多列中的连接字符串

、

我有一个单一的用户输入文本框用于地址字符串，即它不被划分为区号、街道地址、城市、州和邮政编码。但是，我的MySql表中的每个address组件都有单独的列。我的任务是从用户那里获取地址字符串，并在地址表中查找它，然后返回与之匹配的行的id。如何针对address表中的这些单独列对整个字符串进行反向查找？此外，

浏览 4提问于2012-01-08得票数 0

2回答

基于两个条件提取字符串的一部分

、、

我在我的数据集中有一个字符列，我想根据两个条件从其中提取字符串的一部分： a)如果字符串以"Therapist:“开头，则将字符串拆分为两列:一列包含单词"Therapist”，另一列包含其余文本。b)如果是"Patient:"，则将字符串拆分为两列:一列包含单词&quo

浏览 17提问于2019-03-15得票数 0

回答已采纳

2回答

R中最后下划线后面的拆分字符串

、、、

我有一个类似"ABC_Something_Filename“的字符串。如何在R中将其拆分为"ABC_Something“和"Filename”？编辑:我尝试使用前面提到的列分离，但这对于我的用例来说太广泛了。因此，我找到了一个regex替代方法，可以简单地拆分一个字符串。

浏览 2提问于2020-08-13得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在presto中将文本字符串拆分为匹配的列

相关·内容

在presto中将文本字符串拆分为匹配的列

使用特定的模式在文件中的行中添加空格。

如何使在k/v对上循环中调用awk的脚本更快？

在R中使用strsplit拆分逗号分隔的混合文本和数字字符串

使用带正则表达式的str.split在大写字符串和属性字符串之间拆分

为什么包含字符串的PHP变量在div之外移动？

如何在flask-WTF &wtforms的字符串字段中输入新行/多行

在Athena中将字符串格式转换为日期时出现问题

你对这个RegEx有什么理解？

在内存中使用.NET进行文本搜索

在xsl-fo中区分表格和其他文本的方法

如何从查询中获取列列表？

是否可以在Elasticsearch中按术语拆分单词以提高`通配符`的性能？

理解Excel中的vlookup公式？

日期列与字符串的雅典娜分区投影

mysql -如何分割逗号分隔的文本并创建表

无法在Spark Dataframe中将列拆分为多个列

在MySQL中查找表中多列中的连接字符串

基于两个条件提取字符串的一部分

R中最后下划线后面的拆分字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐