首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在BigQuery中,从字符串中拆分列的最有效方法是什么?

在BigQuery中,从字符串中拆分列的最有效方法是什么?
EN

Stack Overflow用户
提问于 2022-05-26 22:44:50
回答 1查看 116关注 0票数 0

我在BigQuery中有一个非常大的表,其中数据作为一个空格分隔的字段输入,我需要将该字段解析为列。我一直在使用BigQuery中的SPLIT()函数来解析这个函数,但是它感觉效率很低。

让我们简单地说,这是其中一个记录的例子:

代码语言:javascript
运行
复制
firstname lastname timestamp eventtype errorcode

下面是一个例子,说明我如何将字段划分为不同的列:

代码语言:javascript
运行
复制
SELECT SPLIT(unparsed_field, " ")[SAFE_OFFSET(0)]  AS first,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(1)]  AS last,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(2)]  AS timestamp,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(3)]  AS eventtype,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(4)]  AS errorcode
FROM `project.dataset.table`

然而,这是一张非常大的桌子,每天都有数千亿的事件出现。我发布的示例已经被抽象了一些,实际上,我正在提取的列有30列。因此,对于表中的每条记录,我实际上是在30个不同的时间调用拆分()函数。这可能导致查询失败,因为缺乏资源,等等。

有没有更有效的方法来做到这一点?

我一直在玩弄使用过程语言的想法,看看是否有可能将记录拆分一次,然后引用不同的值。例如,如下所示:

代码语言:javascript
运行
复制
DECLARE parsed DEFAULT (SELECT SPLIT("firstname lastname timestamp eventtype errorcode", " "));

SELECT 
parsed[SAFE_OFFSET(0)] AS first, 
parsed[SAFE_OFFSET(1)] AS last,
parsed[SAFE_OFFSET(2)] AS timestamp,
parsed[SAFE_OFFSET(3)] AS eventtype,
parsed[SAFE_OFFSET(4)] AS errorcode

这将阻止我在每条记录中拆分30次不同的字符串,但是我需要对每一行执行某种方法。使用用户定义函数似乎有一种方法可以做到这一点,但我对它们没有太多的经验。

有什么想法吗?或者,拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗?

EN

回答 1

Stack Overflow用户

发布于 2022-05-26 22:54:43

或者,拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗?

是。我也这么想!

代码语言:javascript
运行
复制
SELECT cols[SAFE_OFFSET(0)]  AS first,
       cols[SAFE_OFFSET(1)]  AS last,
       cols[SAFE_OFFSET(2)]  AS timestamp,
       cols[SAFE_OFFSET(3)]  AS eventtype,
       cols[SAFE_OFFSET(4)]  AS errorcode
FROM `project.dataset.table`,
UNNEST([STRUCT(SPLIT(unparsed_field, " ") AS cols)])
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72398747

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档