我有许多存储在gcs中的.CSV文件,我希望通过使用以下命令将.CSV中的数据存储到创建的表中
bq load 'dataset.table' gs://path.csv schema我试过了,但总是出错
如何在导入.CSV之前删除不需要的值?
发布于 2019-12-23 07:35:53
我知道您可能有许多CSV文件,但并不是所有文件都与您的目标表模式一一匹配。解决此问题的一种方法是调整CSV字段的数量,您可以使用无服务器Storage Mirror Recover settings
考虑到你已经在谷歌云存储中有CSV文件,另一种考虑方式是使用BqTail进行无服务器数据摄取。
使用BqTail,您可以为CSV字段指定一个专用的临时模式,以便最终将其摄取到目标表。下面是e2e测试规则将CSV摄取到临时表,然后再摄取到最终目标表的link示例。
有时数据质量是我们无法控制的,在这种情况下,我一直在使用BqTail自动检测批加载作业中损坏的文件,将它们发送到存储镜像恢复,以调整并将其发送回另一个加载作业。
https://stackoverflow.com/questions/59441246
复制相似问题