我在BigQuery中有一个非常大的表,其中数据作为一个空格分隔的字段输入,我需要将该字段解析为列。我一直在使用BigQuery中的SPLIT()函数来解析这个函数,但是它感觉效率很低。
让我们简单地说,这是其中一个记录的例子:
firstname lastname timestamp eventtype errorcode
下面是一个例子,说明我如何将字段划分为不同的列:
SELECT SPLIT(unparsed_field, " ")[SAFE_OFFSET(0)] AS first,
SPLIT(unparsed_field, " ")[SAFE_OFFSET(1)] AS last,
SPLIT(unparsed_field, " ")[SAFE_OFFSET(2)] AS timestamp,
SPLIT(unparsed_field, " ")[SAFE_OFFSET(3)] AS eventtype,
SPLIT(unparsed_field, " ")[SAFE_OFFSET(4)] AS errorcode
FROM `project.dataset.table`
然而,这是一张非常大的桌子,每天都有数千亿的事件出现。我发布的示例已经被抽象了一些,实际上,我正在提取的列有30列。因此,对于表中的每条记录,我实际上是在30个不同的时间调用拆分()函数。这可能导致查询失败,因为缺乏资源,等等。
有没有更有效的方法来做到这一点?
我一直在玩弄使用过程语言的想法,看看是否有可能将记录拆分一次,然后引用不同的值。例如,如下所示:
DECLARE parsed DEFAULT (SELECT SPLIT("firstname lastname timestamp eventtype errorcode", " "));
SELECT
parsed[SAFE_OFFSET(0)] AS first,
parsed[SAFE_OFFSET(1)] AS last,
parsed[SAFE_OFFSET(2)] AS timestamp,
parsed[SAFE_OFFSET(3)] AS eventtype,
parsed[SAFE_OFFSET(4)] AS errorcode
这将阻止我在每条记录中拆分30次不同的字符串,但是我需要对每一行执行某种方法。使用用户定义函数似乎有一种方法可以做到这一点,但我对它们没有太多的经验。
有什么想法吗?或者,拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗?
发布于 2022-05-26 22:54:43
或者,拆分和SAFE_OFFSET方法真的是解决这个问题最有效的方法吗?
是。我也这么想!
SELECT cols[SAFE_OFFSET(0)] AS first,
cols[SAFE_OFFSET(1)] AS last,
cols[SAFE_OFFSET(2)] AS timestamp,
cols[SAFE_OFFSET(3)] AS eventtype,
cols[SAFE_OFFSET(4)] AS errorcode
FROM `project.dataset.table`,
UNNEST([STRUCT(SPLIT(unparsed_field, " ") AS cols)])
https://stackoverflow.com/questions/72398747
复制相似问题