文章/答案/技术大牛

发布

社区首页 >问答首页 >在BigQuery中，从字符串中拆分列的最有效方法是什么？

问在BigQuery中，从字符串中拆分列的最有效方法是什么？
EN

Stack Overflow用户

提问于 2022-05-26 22:44:50

回答 1查看 116关注 0票数 0

我在BigQuery中有一个非常大的表，其中数据作为一个空格分隔的字段输入，我需要将该字段解析为列。我一直在使用BigQuery中的SPLIT()函数来解析这个函数，但是它感觉效率很低。

让我们简单地说，这是其中一个记录的例子：

firstname lastname timestamp eventtype errorcode

下面是一个例子，说明我如何将字段划分为不同的列：

SELECT SPLIT(unparsed_field, " ")[SAFE_OFFSET(0)]  AS first,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(1)]  AS last,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(2)]  AS timestamp,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(3)]  AS eventtype,
       SPLIT(unparsed_field, " ")[SAFE_OFFSET(4)]  AS errorcode
FROM `project.dataset.table`

然而，这是一张非常大的桌子，每天都有数千亿的事件出现。我发布的示例已经被抽象了一些，实际上，我正在提取的列有30列。因此，对于表中的每条记录，我实际上是在30个不同的时间调用拆分()函数。这可能导致查询失败，因为缺乏资源，等等。

有没有更有效的方法来做到这一点？

我一直在玩弄使用过程语言的想法，看看是否有可能将记录拆分一次，然后引用不同的值。例如，如下所示：

DECLARE parsed DEFAULT (SELECT SPLIT("firstname lastname timestamp eventtype errorcode", " "));

SELECT 
parsed[SAFE_OFFSET(0)] AS first, 
parsed[SAFE_OFFSET(1)] AS last,
parsed[SAFE_OFFSET(2)] AS timestamp,
parsed[SAFE_OFFSET(3)] AS eventtype,
parsed[SAFE_OFFSET(4)] AS errorcode

这将阻止我在每条记录中拆分30次不同的字符串，但是我需要对每一行执行某种方法。使用用户定义函数似乎有一种方法可以做到这一点，但我对它们没有太多的经验。

有什么想法吗？或者，拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗？

sql

google-bigquery

bigquery-udf

回答 1

Stack Overflow用户

发布于 2022-05-26 22:54:43

或者，拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗？

是。我也这么想!

SELECT cols[SAFE_OFFSET(0)]  AS first,
       cols[SAFE_OFFSET(1)]  AS last,
       cols[SAFE_OFFSET(2)]  AS timestamp,
       cols[SAFE_OFFSET(3)]  AS eventtype,
       cols[SAFE_OFFSET(4)]  AS errorcode
FROM `project.dataset.table`,
UNNEST([STRUCT(SPLIT(unparsed_field, " ") AS cols)])

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72398747

复制

相似问题

问在BigQuery中，从字符串中拆分列的最有效方法是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在BigQuery中，从字符串中拆分列的最有效方法是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在BigQuery中，从字符串中拆分列的最有效方法是什么？
EN