nodejs中的bigquery无法查询到对gcs的Parquet写入_无法在python中运行对bigquery的standardSQL查询 - 腾讯云开发者社区

node.js、google-bigquery、google-cloud-storage、parquet、parquetjs

问题是，bigquery无法从文件中读取数据，但当我使用parquet-tools时，一切看起来都很正常。

浏览 19提问于2021-11-23得票数 0

回答已采纳

2回答

如何将DeltaLake文件从GCS包含到BigQuery

apache-spark、google-cloud-platform、google-bigquery、google-cloud-storage、delta-lake

是否有库/连接器可直接将存储在Google (GCS)中的文件导入到BigQuery？我已经成功地使用Spark作为中介编写了BigQuery表，但是我找不到--任何直接连接器或BigQuery库--如果不通过spark 进行转换就可以做到这一点。Update 1：我尝试使用正式的连接器，但是缺少关于如何指向BigQuery中的特定项目的文档，所以我只能将DeltaLake文件从G

浏览 3提问于2021-10-27得票数 2

回答已采纳

1回答

运行BigQuery查询并使用airflow将数据写入parquet中的云存储桶

google-bigquery、airflow

我正在尝试创建一个DAG，它将从BigQuery查询中提取数据，并以拼图格式写入gcs bucket。我调查了一下，在这里得到了一些帮助。它建议使用BigQueryOperator执行查询，然后使用BigQueryToCloudStorageOperator写入gcs bucket。使用这种方法，我必须首先将查询结果写入一个表中，然后从该表中写入gcs存储桶。&#

浏览 7提问于2021-11-24得票数 1

1回答

列为零值的拼花被转换为整数

google-bigquery、parquet、google-cloud-data-transfer

我在GCS中使用python大熊猫来编写一个DataFrame到parquet，然后使用将GCS文件传输到Bigquery表中。有时，当DataFrame很小时，整个列可能具有空值。当发生这种情况时，Bigquery将空值列视为INTEGER类型，而不是parquet声明的类型。当试图将其附加到期望该列为NULLABLE STRING的现有表时，大查询传输服务将在INVALID_ARGUMENT:

浏览 25提问于2022-08-18得票数 0

1回答

Datalake环境下Dataproc元数据存储的功能

google-cloud-platform、google-bigquery、google-cloud-dataproc、google-cloud-dataproc-metastore

我正在看，在这段17:33左右的视频中，主持人说： SELECT * FROM my_bigquery</em

浏览 15提问于2022-05-10得票数 4

1回答

到原始数据源的数据持久化

intake

谁能告诉我下面的用例是有意义的，适用于进气口软件组件。我们喜欢使用入口来构建抽象层或API服务端点，以封装典型的数据操作，如数据检索和数据持久化返回到原始数据系统。简而言之，从数据库系统构建read()和save()，例如GCP BigQuery。

浏览 2提问于2020-04-17得票数 1

1回答

是否有更好的方法通过管道将数据从Bigquery同步到单存储区？

node.js、google-bigquery、singlestore

我在Bigquery表中有数据，并希望将其同步到singlestore表。我可以在这里看到单商店管道文档，。它有使用GCS加载数据的选项。它似乎期待着来自谷歌云的文件。我是单身商店的新手，有人能给我一个更好的建议吗？我要不要用管道？我已经从Bigquery创建了一个查询流，现在希望将数据插入到Nodejs中的单存储DB中。我们可以使用写入

浏览 10提问于2022-09-12得票数 0

回答已采纳

1回答

直接将BigQuery查询结果写入GCS* --是否有可能？*

google-bigquery、google-cloud-storage、google-cloud-platform

我尝试了bq命令行工具，但它似乎无法直接将结果写入GCS。我能看到的唯一方法就是：我正在寻找一种直接将结果写入GCS的方法。

浏览 4提问于2016-08-10得票数 2

回答已采纳

2回答

无法使用spark查询分区数据上的BigQuery外部表

google-cloud-platform、google-bigquery、partitioning

我试图在GCS中的分区数据上创建一个外部表，该数据是从星星之火作业中编写的，其日期以拼花格式划分。 }, "sourceUris": [ "gs://transaction_data_bucket_for_bigquery<

浏览 4提问于2020-05-03得票数 1

回答已采纳

2回答

向bigquery表加载分区(星火)块

apache-spark、google-bigquery、parquet

我有数据写从火花，到拼花文件在gcs，分区的日期列。gcs中的数据如下所示：gs://mybucket/dataset/fileDate=2019-06-17/001.parquet 我希望将其加载到bigquery中<

浏览 0提问于2019-06-17得票数 1

回答已采纳

2回答

亚马逊S3拼花文件-传输到GCP / BQ

amazon-s3、google-cloud-platform、google-bigquery、parquet、google-cloud-data-transfer

我有一个GCS桶，它有从我们的亚马逊S3桶中传输的文件。这些文件采用.gz.parquet格式。我正在尝试用传输功能设置一个从GSC桶到BigQuery的传输，但是我遇到了与拼花文件格式有关的问题。当我创建一个传输并将文件格式指定为Parquet时，我会收到一个错误，说明数据不是以parquet格式显示的。当我尝试在CSV中指定文件时，奇怪的值会出现在我的

浏览 7提问于2021-05-26得票数 0

1回答

运行现有数据流模板GCS_Text_Bigquery的Google函数

node.js、google-cloud-platform、google-cloud-functions、google-cloud-dataflow

我创建了一个数据流作业"jsonbq-1"，并使用现有的GCS_Text_BigQuery模板创建了一个简单的uDF来接收传入的CSV数据并放入表中。云函数被执行，数据流被调用，但是没有响应，log:Error中显示的错误:模板参数无效。Index.js 看起来像这样。bigQueryLoadingTemporaryDirectory: 'gs://test-bucket-np' },

浏览 0提问于2018-08-12得票数 2

2回答

Azure Data Google BigQuery复制数据活动不返回嵌套列名

azure、google-bigquery、azure-data-factory、azure-data-factory-2、azure-databricks

我有一个复制活动在Azure数据工厂与谷歌BigQuery的来源。我需要导入整个表(其中包含嵌套字段-BigQuery中的记录)。嵌套字段按如下方式导入(仅包含数据值的字符串)： "{\"v\":{\"f\":[{\"v\":\"1\"},{\"v\":\"1\"},{\"v\":\"1\"},{\"v\&qu

浏览 4提问于2021-09-15得票数 2

回答已采纳

2回答

如何使用Arrow/Parquet* C++库将Parquet文件读写到GCS？*

c++、parquet、apache-arrow

我需要访问GCS上的Parquet格式数据。我们正在使用对Apache和Parquet都可用的C++库。使用Parquet C++库读取/写入本地磁盘相对简单。然而，如果一个人想要做同样的事情，但是对于GCS，这一努力似乎是复杂的。我对此做了一些研究。我注意到Arrow中有一个GCS文件系统类，还有一个Parquet适配器。不幸

浏览 8提问于2022-05-18得票数 0

4回答

使用BigQuery将Python表数据导出到Google Cloud Storage having where子句

python、google-bigquery、google-cloud-storage

我想从BigQuery中导出表数据到Google Cloud Storage。问题是，我需要从date1到date2的数据，而不是整个表数据。location='US') # API request这就是我在google cloud帮助中找到的。没有使用where子句添加查询或限制数据的空间。

浏览 0提问于2018-06-11得票数 6

1回答

使用BigQuery从GCS读取数据失败，但日期(文件)存在

google-bigquery、google-cloud-storage、http-status-code-404、gcs

我有一个服务，它不断地用hive格式更新GCS桶中的文件： device_id=aaaa part-0.parquet如果我们今天在month=02，而我使用BigQuery运行了以下操作：FROM `project_id.dataset.table` 我得到了错误：Not found: Files /bi

浏览 16提问于2022-03-29得票数 1

回答已采纳

1回答

将数据从Google Analytics迁移到AWS Athena

google-analytics、google-bigquery

我正在基于雅典娜在AWS中创建一个Datalake，我想查询我现在存储在Google Analytics中的数据。据我所知，我无法访问分析的原始数据，但我可以将其导出到BigQuery，然后从那里我可以再次将其导出到GCS (谷歌云存储)。我知道我可以创建一个自动流程，将数据从Analytics导出到BigQuery。如何(轻松地)创建从BigQuery到GCS的</em

浏览 23提问于2020-07-23得票数 1

回答已采纳

2回答

Apache的BigQuery连接器-更新一个分区表

scala、apache-spark、google-bigquery、google-cloud-dataproc

记录按年月组合分组，每个组被写入GCS中的一个单独的每月拼花文件(例如，2018-07-file.parquet、2018-08-file.parquet等)。请注意，这些文件可以追溯到5年前，并形成一个非常大的数据集(~1TB)。我希望将这些文件写入BigQuery，并让作业只更新当前运行中更改的月度记录。为了简单起见，我想用更新的记录删除任

浏览 0提问于2018-08-27得票数 0

回答已采纳

1回答

阿夫罗，蜂巢或HBASE -使用什么10兆。每天都有记录？

python、hive、hbase、parquet、avro

我有以下要求:我需要每天处理大约20.000个元素(让我们称之为篮子)，这些元素生成100到1.000条记录(让我们把它们称为篮子中的产品)。这意味着，我的产量在5到最大值之间。20米。每天都有记录。从分析的角度，我需要做一些总结，过滤，特别是显示趋势在多天等。这个解决方案是基于Python的，我可以使用任何Hadoop、、Google等等。我正在阅读很多关于Avro、Parquet、Hive、HBASE等的文章。在第一个测试<em

浏览 4提问于2022-12-02得票数 0

回答已采纳

9回答

将Pandas DataFrame写到或BigQuery

python、google-cloud-storage、google-cloud-platform、google-cloud-datalab

你好，谢谢您的时间和关心。我正在Google平台/ Datalab中开发一个木星笔记本。我已经创建了一个Pandas DataFrame，并且希望将这个DataFrame写到(GCS)和/或BigQuery中。我在GCS中有一个桶，并通过以下代码创建了以下对象：import gcp.storage as storage project = gcp.Context.default().project_idbucket_path = bucket

浏览 14提问于2016-03-30得票数 47

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云