从表中提取metadata_fields以及从bigquery表中提取数据列_Google ()从表中提取数据_从Web表中提取数据 - 腾讯云开发者社区

google-bigquery、google-cloud-dataflow

我正在尝试使用Google Cloud Dataflow从BigQuery表中提取数据。我的BigQuery表有很少的空值(对于String数据类型)和null (对于Numeric数据类型)。当我尝试使用BigQueryIO.readTableRows().fromQuery(select * from table_name)提取数据流中的数据时，我看不到具有空值的列。我如何才能将所有列都作为TableRow对象的一部分呢？任何帮助我们都将不胜感激

浏览 1提问于2019-12-16得票数 1

1回答

将空值设置为缺失表字段的默认值

java、sql、google-bigquery

我使用Java和SQL将数据移动到一个新表。我想：从BigQuery中的旧表中提取数据更新/修改几个条目将其推送到BigQuery中的另一个现有表不幸的是，一些旧数据遵循不同的模式。一些旧表可能有从一个到几百个缺失的列(字段)。我没有任何可靠的方法来生成或填充这些缺失的数据，所以我决定将它保留为空。如何添加具有缺省空值的列？目前，我正在使用SQL QueryJobConfiguration来提取、更新和将数据推回BQ： QueryJobConfiguration queryConfig = QueryJobConfiguration.new

浏览 0提问于2019-01-28得票数 0

回答已采纳

1回答

如何使用BigQuery访问PubMed数据库

google-bigquery、pubmed、google-patent-search

当从google_patents_research.publications访问BigQuery表时，我可以通过top_terms列过滤结果。本专栏使用谷歌的机器学习algo搜索专利中的文本，并提取它认为最有意义的单词。我想知道是否有类似的搜索使用BigQuery，可以在PubMed的数据库上完成。根据NCBI文档，有一个名为nih-sra-datastore的数据集应该可以从BigQuery访问，但是在BigQuery的控制台搜索框中搜索它时它不会显示出来。

浏览 6提问于2022-02-24得票数 0

回答已采纳

1回答

只需将云SQL中的新数据导入BigQuery？

mysql、google-bigquery、google-cloud-sql

我的情况是：我想安排从Cloud SQL到BigQuery的定期数据更新。云SQL上的表的数据会定期更新，可以对该表中的旧数据进行编辑。该表中大约有20列。当涉及到更新计划时，我希望在Cloud SQL和BigQuery中的表之间进行同步。如何在BigQuery中添加新数据、更新最近编辑的数据以及删除不再存在于CLoud SQL中的数据？目前，每次执行更新计划时，我都会使用该方法覆盖此表。我仍然没有一个真正好的解决方案来保存查询时的数据。

浏览 2提问于2020-08-18得票数 0

1回答

理解BigQuery中的集群表

google-bigquery

当表被分区时，数据是如何在BigQuery中构造的，以及Oracle群集和BigQuery集群表之间有什么区别？在BigQuery中创建群集表时，表数据将根据表架构中一个或多个列的内容自动组织。它们是否意味着一些索引已经完成或者？

浏览 1提问于2019-05-15得票数 2

1回答

使用App Script或Node JS将列数据堆叠成行

node.js、google-apps-script、google-sheets、google-cloud-storage

我有用户在列中提交的数据。我正在尝试将它们从列转换为堆栈行，这样数据库就可以将它们作为单个列读取，而不是必须引入X列来捕获数据。您可以在柱状示例屏幕截图中看到我当前所在的位置，以及在堆叠示例中看到我想要的位置。我可以使用应用程序脚本在谷歌工作表中执行此操作-加载数据为柱状数据，然后转换为堆叠数据并移动到BigQuery -或者-使用谷歌云存储加载柱状数据，然后在移动到BigQuery时使用节点转换为堆叠数据。无论哪种方式，这都需要进入BigQuery作为堆叠示例。你有什么建议吗？

浏览 0提问于2020-02-20得票数 0

1回答

从另一列提取用于分区的日期

python、google-cloud-platform、google-bigquery、extract

我正在上传一些CSV文件到一个大的查询表。有一个名为filename的列，其格式为：sales_2021-09-09T21-27-05_010555Z 我正在尝试将来自google云存储的数据上传到大查询中的分区表中。请帮助我创建下面的字段，这里没有日期列，我需要从文件名中提取 date 。 time_partitioning=bigquery.TimePartitioning( type_=bigquery.TimePartitioningType.DAY, field="date", # Name of the column

浏览 3提问于2022-11-16得票数 0

1回答

使用现有架构将表数据从一个BigQuery表传输到另一个表

google-bigquery

我有两个BigQuery数据集：dataset_a和dataset_b 每个数据集都包含一个表，例如dataset_a_table和dataset_b_table dataset_a_table包含流式数据，我想将数据从dataset_a_table流式传输到dataset_b_table。我有TableSchema类型的dataset_a_table模式。如何将流行从一个表复制到另一个表并保留现有架构？到目前为止，我已经研究了BigQuery的insertAll方法，但是我有点不确定在哪个数据结构中提取行，以及在插入到新表中时如何指定TableSchema。我希望能得到一些关于如何做

浏览 18提问于2020-07-10得票数 0

1回答

Google BigQuery:行的最后修改日期时间

google-bigquery、google-cloud-dataflow

我正在尝试测量数据流管道的持续时间，数据流管道从发布/订阅中提取消息并将其加载到BigQuery表中。我找不到如何在BigQuery表中获取行的最后修改时间，尽管有表的最后修改日期时间。谁知道如何将上次修改的日期时间设置为BigQuery表的行？

浏览 2提问于2018-11-07得票数 0

1回答

提取BigQuery分区表

google-bigquery

有没有一种方法可以用一条命令提取完整的BigQuery分区表，以便将每个分区的数据提取到一个单独的文件夹中，格式为part_col=date_yyyy-mm-dd 既然Bigquery分区表可以从hive类型的分区目录中读取文件，那么是否有一种方法可以以类似的方式提取数据。我可以单独提取每个分区，但是当我提取大量分区时，这是非常麻烦的

浏览 25提问于2019-07-02得票数 5

回答已采纳

1回答

将数据提取和加载自动化到BigQuery

python、google-bigquery、google-cloud-functions、data-extraction、google-cloud-scheduler

我正在学习如何从GraphQL API中提取数据，并每天将其加载到BigQuery表中。我是GCP的新手，并试图理解建立安全数据管道所需的设置。为了使常规数据提取和加载过程自动化，我将遵循以下步骤，我首先使用BigQuery、Python库与熊猫和pyarrow创建了一个云函数。我使用下面所示的方法将数据加载到BigQuery中--使用BigQuery和Pandas -google bigquery文档(触发器类型)，我选择了Cloud /Sub。请让我知道，这是否是一个好的选择(安全和高效)的数据提取，还是我应该使用HTTP，它需要身份验证或任何其他触发器类型的我的用例。，在设置之后，我只

浏览 4提问于2022-04-29得票数 0

1回答

谷歌分析中的BigQuery设置

google-analytics、google-bigquery

我想要一些指导，建立BigQuery数据存储从谷歌分析。我们有6个不同的网站，其中4个属于一个项目，2个属于另一个，但我们希望分别对每个网站的数据进行分析；项目与网站数据分开；以及所有网站一起分析。因此，在BigQuery中设置哪种结构最好？：两个项目，有4个和2个数据集，或者一个主项目，有2个数据集，4个和2个表？或者甚至有可能。或者，提取数据是如此容易，而这并不重要，我们可以将每个站点放在一个自己的项目中，并提取我们想要的数据。请在这个问题上给我一些指导。亲切的问候

浏览 0提问于2018-06-06得票数 1

回答已采纳

1回答

使用Apache将结果列添加到现有的BigQuery表中

python、google-bigquery、google-cloud-dataflow、apache-beam

我想添加列，这是BigQuery中两个现有列的结果。我使用Apache从BigQuery读取数据，然后处理它，并将结果更新到与新列相同的BigQuery表中。

浏览 0提问于2018-01-24得票数 1

2回答

谷歌BigQuery -导入CSV -如何匹配列？

csv、google-bigquery

我有定期进口到BigQuery通过CSV，这是很好的。 CSV文件格式是：第1行- header =列名，与我要导入的BigQuery表中的列名完全匹配。其余的行=数据但是，我的CSV中列的顺序最近发生了变化，当导入到BigQuery时-- CSV中的列名与BigQuery表中的列名不匹配。它们基本上是按照CSV列的顺序导入的，这是错误的。有没有办法从我的CSV中告诉BigQuery哪一列属于BigQuery表中的哪一列？我正在使用正式的PHP库。示例：

浏览 0提问于2017-06-30得票数 0

2回答

将数据从没有临时表的BigQuery select语句导出到google云存储

google-bigquery、google-cloud-storage

有没有办法在不创建表的情况下将数据从select语句(BigQuery)导出到Google云存储中。我每天都需要根据select语句(BigQuery)提取数据，并将文件放入中。我知道我们可以通过以下方式从BigQuery进行导出。命令行-在这个选项中，我需要创建一个临时表。没有临时表，我就看不到任何示例或语法。 bq查询 WebConsole --这个选项已经退出，因为需要安排时间。 API -使用API，我也无法从SQL查询中看到。我看到了整张桌子的例子。请告诉我，是否有任何方法可以将数据从Bigquery语句导出到google云存储，而无需创建临时表。

浏览 4提问于2017-06-29得票数 1

2回答

使用GCP数据融合将数据从MySQL复制到BigQuery -获取“日期”数据类型的问题

mysql、google-cloud-platform、google-bigquery、replication、google-cloud-data-fusion

我希望将中保存的Mysql表复制到GC BigQuery中。我引用了这个文档：。所以我决定在工作中使用GCP数据融合。一切正常，数据在Bigquery中被复制。因此，我测试了对此复制的不同数据类型支持。当我在复制管道中遇到问题时，，所以每当我尝试为数据融合复制放置'DATE‘数据类型列时，整个表(其中包含'DATE’列)不会出现在BigQuery中。它使用与Bigquery中相同的模式和“日期”数据类型创建表，并且我使用了BigQuery支持的相同的日期格式。我还查看了数据融合日志，它显示管道正在将数据非常好地加载到BigQuery中，还捕获了从源Mysql添加到Mys

浏览 3提问于2021-04-29得票数 1

回答已采纳

1回答

如何将基于Google的BigQuery数据库连接到Looker？

permissions、google-api、database-connection、google-bigquery、looker

我正在尝试将BigQuery与Looker连接起来。我正在将样本数据从Google文档中提取到一个BigQuery数据集中；这个部分工作正常，因为我的内部BigQuery查询对这个数据集运行得很好。使用Looker中的，我尝试创建一个服务帐户键，将我的BigQuery数据集连接到Looker。不幸的是，文档有点过时了: Google现在询问要附加键的服务帐户(计算引擎默认服务帐户、应用程序引擎默认服务帐户或可以具有多个角色的新服务帐户)。到目前为止，我已经尝试使用为计算引擎默认服务帐户、应用程序引擎默认服务帐户以及新的Project服务帐户创建的P12密钥。当我在Looker中创建连接时，管

浏览 2提问于2016-08-10得票数 0

1回答

使用数据流从大查询中提取数据的问题[ apache beam ]

google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

我需要使用Dataflow从BigQuery表中提取数据，然后写到GCS。数据流是使用apache (Java)构建的。数据流从BigQuery中提取出来，第一次完美地写入到GCS中。但是，当第二个数据流在第一个管道成功执行后从同一表中提取数据时，它并不是从Big Query中提取任何数据。我在堆栈驱动程序日志中看到的唯一错误是代码409请求失败，由于IOExceptions执行0次重试，由于状态代码不成功执行0次重试，HTTP表示请求可以重试，(负责重试的调用方)：“ 我用于提取的示例代码是 pipeline.apply("Extract from BQ",

浏览 0提问于2020-01-12得票数 1

回答已采纳

1回答

将CSV文件上载到分区的bigquery表中(从文件名生成分区)

python、google-cloud-platform、google-bigquery

我使用bigquery客户端对象将一些CSV文件(位于云存储中)上载到bigquery表中。我成功地将数据上载到bigquery表中，但我希望将目标表更改为已分区表。分区将是文件名中的日期。文件名是CSV文件中的一个列，与CSV文件名相同。这就是我如何从文件名(假设文本是文件名)中提取数据的方法，date1稍后将用作我们的分区： text = 'sales_2022-09-09T21-27-05_018787' match = re.search(r'\d{4}-\d{2}-\d{2}', text) date1 = datetime.strptime(m

浏览 7提问于2022-11-21得票数 0

1回答

使用数据帧/矩阵为sklearn和Tensorflow创建输入

pandas、tensorflow、sklearn-pandas、google-cloud-datalab

我正在使用pandas / python /numpy / datalab/bigQuery为机器学习处理生成一个输入表。数据是基因组的--现在，我正在处理174行12430列的小子集以同样的方式从bigQuery (df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True))中提取列名，提取行名：samples_rows = bq.Query('SELECT sample_id FROMspeedy-emissary-167213.pg

浏览 8提问于2017-06-28得票数 1

回答已采纳

8回答

BigQuery -将查询结果导出到本地文件/Google存储

google-bigquery、google-cloud-storage

我想将查询结果从BigQuery导出到本地文件/Google存储。我尝试了'bq提取‘命令，但它不允许查询作为输入。 Usage: bq extract <source_table> <destination_uris> 我不想提取整个表，因为表中包含许多不需要的列，我需要聚合数据。到目前为止，我能找到的唯一解决办法是使用'bq query‘命令创建一个表，然后使用'bq extract’提取数据。我正在寻找任何更好的方式来实现这一点，通过做一些类似下面的事情。 bq extract 'select dept_id,sum(sal)

浏览 3提问于2018-05-24得票数 15

2回答

通过连接另一个表来更新历史数据

sql、join、google-bigquery

我有一个BigQuery表A(下面的简化版本)，它使用每日计划的查询进行更新。上周，我们向表中添加了一个新列-- ad_number。展望未来，ad_number将填充数据。但是，我想为本专栏提取去年的历史数据。 Event_date (dimension) App_id (dimension) Country (dimension) Ad_network (dimension) Total_revenue (metric) Ad_number (metric) 由于数据量很大，我已经创建了一个具有相同维度和ad_number的单独的表B，以从调度查询中指示的源表中提取数据。我计划将其加入到

浏览 12提问于2020-12-07得票数 0

回答已采纳

1回答

Bigquery云函数

google-bigquery、google-cloud-functions

是否可以使用从BigQuery返回到BigQuery的数据流脚本创建云函数。我们的主表很大，并且有多个嵌套的字段，这破坏了提取功能。我们想要创建多个简单的表，这些表可以提取包含可视化的所有相关信息。仅当主表中有更改时，才应执行查询。

浏览 2提问于2018-09-03得票数 0

1回答

从PCollection<TableRow>转换到PCollection<KV<K，V>>

google-cloud-dataflow

我试图从BigQuery中的两个表中提取数据，然后通过CoGroupByKey加入它。虽然BigQuery的输出是PCollection<TableRow>，但是CoGroupByKey需要PCollection<KV<K,V>>。如何将PCollection<TableRow>转换为PCollection<KV<K,V>>

浏览 5提问于2016-12-20得票数 0

回答已采纳

1回答

交换BigQuery行

google-bigquery、google-cloud-platform

我一直试图从存储在桶中的BigQuery文件中创建一个.csv表。创建了表，并以正确的行数和列来加载数据，但是，由于某种原因，行在BigQuery中被交换。我尝试使用R连接器将数据从本地计算机推送到BigQuery，同样的问题也发生了。因此，当我选择* FROM时，它将显示BigQuery中的完整表，但行被交换(例如，第21行变成第1行，第4000行变成第3行)。我会感谢你的回应。

浏览 0提问于2017-11-03得票数 1

回答已采纳

1回答

在使用BigQuery连接器进行星火时，我可以发出查询而不是指定表吗？

google-bigquery、google-cloud-dataproc

通过在Google上运行代码，我使用从BigQuery中的表中提取数据。据我所知，这里共享的代码如下： conf = { # Input Parameters. 'mapred.bq.project.id': project, 'mapred.bq.gcs.bucket': bucket, 'mapred.bq.temp.gcs.path': input_directory, 'mapred.bq.input.project.id': 'publicdata', &#

浏览 0提问于2018-11-09得票数 2

回答已采纳

1回答

将firestore导出导入到Big Query时，我是否可以影响自动生成的模式

google-bigquery、google-cloud-firestore

我使用Google Cloud UI运行从Firestore到BigQuery的常规导入。我的其中一个集合包含具有可选字段的数据，并且这些字段通常不能在BigQuery中查询。我假设自动模式生成从firestore数据中提取一个样本来生成模式。这里的文档：https://cloud.google.com/bigquery/docs/schema-detect#auto-detect说“表模式是从自描述源数据中自动检索到的。” 有没有办法在自动生成中添加提示并包含可选字段？

浏览 7提问于2019-04-25得票数 0

2回答

BigQuery无法从DataPrep导入数据

google-bigquery、google-cloud-dataprep

我在BigQuery中创建了一个表，它的类型为date，分区方式为Date。DataPrep也具有相同数据类型的相同列。当我试图将数据从dataprep加载到bigquery表时，我得到了类似于“数据集中的列数据类型必须与目标列数据类型匹配”的错误。截图也附在附件中，请仔细查看并给我一个解决方案。

浏览 2提问于2018-09-17得票数 1

0回答

向已分区的BigQuery表添加数据并对其进行查询

google-app-engine、go、google-bigquery

在BigQuery中，我创建了一个分区数据表(按小时分区)，当数据进入其中时，结果似乎没有_PARTITIONTIME伪列；当我这样做时 SELECT _PARTITIONTIME AS pt, * FROM [my_dataset.my_partitioned_table] LIMIT 1000 我获得了表中的所有常规列，但是每个条目的_PARTITIONTIME都为null。从对Go BigQuery API的调用中发送数据的方式与将数据发送到未分区表时的方式相同，并从BigQuery控制台查询这些数据。数据插入错误或查询错误的可能性更大吗？

浏览 2提问于2016-07-15得票数 1

回答已采纳

1回答

提取Calenderweek，年份，并使用新值更新表

google-bigquery

我对SQL & Bigquery完全陌生，尽管我正在努力学习，但我显然缺乏知识。我有一个日期作为时间戳的表，并尝试提取日历周和年份。我知道如何以正确的方式选择它，但是结果最终会出现在临时表中。我希望用相同的查询更新同一个表，并添加具有特定值的两列。我试着使用这里的信息，但我陷入了语法：我愿意听取任何建议。时间戳=带有日期的列的名称选择时间戳，提取(ISOWEEK从时间戳)作为KW，提取(从时间戳的年份)作为Jahr，以MyTable为日期；

浏览 2提问于2022-09-09得票数 0

回答已采纳

1回答

从google中的组合bigQuery表中查询

google-apps-script、google-sheets、google-bigquery、google-sheets-api、google-apps-script-api

在我的Google页面上，我有一个代码，用于：从BigQuery表中提取员工信息将其添加到工作表文件的“Notes”选项卡中然后，代码的另一部分在“notes”选项卡的最后一行添加一个导入范围公式，以便从单独的Google工作表中提取更多信息。我试图省去公式的第二部分的需要，我的想法是使用单独的Google表和附加信息作为源，然后通过保存的两个表的视图查询每个表，或者只分别查询每个表和输入数据。我遇到的问题是，每当我尝试运行新的查询时，每当涉及到Google表时，我都会遇到这个错误： GoogleJsonResponseException: API对bigque

浏览 7提问于2022-02-04得票数 0

1回答

如何关联多个BigQuery数组字段？

sql、arrays、google-bigquery、unnest

我正在使用一个BigQuery数据表，该表使用多个数组字段来存储同一逻辑记录的元素。在本例中，有一个数组字段用于“product code”，第二个数组字段用于“quantity”，第三个数组字段用于“price”。所有数组字段都将具有相同的元素数。如何构建一个将产品代码、数量和价格提取为三列结果集的BigQuery查询？

浏览 6提问于2020-04-23得票数 0

8回答

如何在BigQuery表中选择最新的分区？

google-bigquery

我正在尝试从日期分区的BigQuery表中的最新分区中选择数据，但是查询仍然从整个表中读取数据。我尝试过(据我所知，BigQuery不支持QUALIFY)： SELECT col FROM table WHERE _PARTITIONTIME = ( SELECT pt FROM ( SELECT pt, RANK() OVER(ORDER by pt DESC) as rnk FROM ( SELECT _PARTITIONTIME AS pt FROM table GROUP BY 1) ) ) WHERE rnk = 1 ); 但这并不适用于读取

浏览 23提问于2016-09-27得票数 15

回答已采纳

2回答

对于Bigquery表模式，如何将列的模式从NULLABLE更改为REQUIRED？

google-cloud-platform、google-bigquery

我在BigQuery中有一个表，希望将列的模式从NULLABLE更改为REQUIRED。根据修改BigQuery表模式的Google文档，唯一的方法是：“您可以手动更改列的模式，方法是将表数据导出到云存储中，然后用模式定义将数据加载到一个新表中，该定义指定列的正确模式。您还可以使用加载作业覆盖现有表。”()。我对此有两个问题。最后一句“您也可以使用load作业覆盖现有表”意味着什么？这是否意味着我可以在现有表中进行模式更改，而不必实际创建一个新表？我希望避免创建新表，只需对现有表进行架构更改。是否有一种方法可以将列的模式从NULLABLE更改为我现有的表？中的必需模式，

浏览 9提问于2020-10-27得票数 1

1回答

使用Cloud终端将修复数据库数据复制到Bigquery

firebase、google-cloud-firestore、google-bigquery、google-cloud-shell、google-cloud-shell-editor

有人知道我如何使用Cloud终端手动地将数据从Firestore数据库复制/传输到Bigquery吗？我过去就这样做过，但是我找不到我使用的文档/视频。我发现很多信息表明，一旦Bigquery连接到Firebase，它应该是自动的，但我的不是。当我在Cloud终端中运行代码从Firebase中提取数据时，集合被作为一个表复制到Bigquery数据集中。创建了两个表，并创建了"raw_latest“和"raw_changelog”。我现在不知道该如何转移另一批收藏品。我特别需要从Firestore数据库中的子集合中传输数据。

浏览 4提问于2021-12-05得票数 0

1回答

BigQuery中的新数据触发云功能

google-cloud-platform、google-bigquery

当新数据被导入到BigQuery表中时，我希望触发一个云函数。理想情况下，我希望提取插入的所有行(其中一列是ISIN)。这是可能的吗?怎么可能？

浏览 0提问于2019-02-20得票数 14

回答已采纳

3回答

将Avro文件加载到BigQuery失败，内部错误。

google-bigquery、avro

Google BigQuery在上“在BigQuery API或命令行工具中增加了对Avro源代码格式的加载操作和联邦数据源的支持”。它说“这是Avro格式支持的Beta版本，任何SLA或弃用策略都没有涵盖这一特性，并且可能会受到向后不兼容的更改。”但是，我希望这个特性能起作用。我没有找到任何关于如何使用Avro格式加载的代码示例。我没有找到关于如何使用bq-tool进行加载的示例。这是我的实际问题。我还无法以Avro格式将数据加载到BigQuery中。使用bq-tool执行以下操作。数据集、表名和桶名已被混淆： $ bq extract --destination_format=AVR

浏览 5提问于2016-04-20得票数 1

回答已采纳

1回答

仅针对某些特定事件将火基分析数据导入BigQuery

firebase、google-analytics、firebase-realtime-database、google-bigquery、google-cloud-platform

我们为我们的安卓应用程序提供了100+事件(由用户执行的活动)，我们只想跟踪10-15个事件数据。从分析的角度来看，剩余的事件并不重要。我能否仅从Firebase提取特定的事件到BigQuery表中的app_events？我知道，在将所有事件转储到BigQuery之后，我可以查询所需的事件。这可能不是最佳解决方案，因为我不想每10-15分钟处理一次数据GBs (日内表)。是否可以从Firebase分析数据中提取特定事件？还是有更好的方法来做同样的事情？

浏览 2提问于2017-02-27得票数 2

回答已采纳

1回答

如何向Tableau提取中添加新的BigQuery表数据？

google-bigquery、tableau-api

是否可以将新的BigQuery表中的数据添加到现有的Tableau提取中？例如，有按日期划分的BigQuery表，如access_20160101、access_20160102、.从2016/01/01到2016/01/24的数据已经在Tableau服务器的摘录中。现在是2016/01/25年度的新表格，access_20160125已经创建，我想将这些数据添加到现有的摘录中，但不想读旧表，因为它们没有变化，但加载数据将由谷歌负责。

浏览 5提问于2016-01-25得票数 0

回答已采纳

2回答

如何在没有过期日期的BigQuery上保持数据集

firebase、google-bigquery、firebase-analytics

最近，我从沙箱模式升级了Bigquery，并希望删除数据集过期日期。有没有人能分享我在升级后应该更改的设置，以及如何做？我把“表气”改为“从不”。然而，在Firebase上，BigQuery集成设置有Google部分，它仍然显示“数据存活:60天”，我想知道如何更改它，以及这是否会影响BigQuery上导入的数据过期。

浏览 5提问于2020-09-29得票数 0

2回答

使用数据流处理来自BigQuery的数据

google-cloud-platform、google-bigquery、cloud、dataflow

我希望从每小时到达的BigQuery中检索数据，并在新的BigQuery表中进行一些处理并提取新的计算变量。事情是，我从来没有与gcp工作过，现在我必须为我的工作。我已经在python中使用我的代码来处理数据，但是它只适用于“静态”数据集

浏览 0提问于2020-06-29得票数 0

回答已采纳

2回答

在BigQuery中将长表转换为宽表

google-bigquery

我有一个像这样的BigQuery表：所需产出是：注意:列中的键不是固定的，它继续频繁添加。因此，输出中的列也将继续添加。我需要构建一个Bigquery，它可以处理输出查询中列的动态添加以及旋转。

浏览 3提问于2020-06-22得票数 0

1回答

将数据从配置单元镶嵌表迁移到BigQuery时，配置单元字符串数据类型将转换为BQ字节数据类型

hive、google-bigquery、parquet

我正在尝试将数据从Hive迁移到BigQuery。蜂房表中的数据是存储在拼图文件format.Data类型的一列是字符串，我正在上传的文件背后的蜂房表谷歌云存储和创建图形用户界面的BigQuery内部表。导入表中列的数据类型正在转换为字节。但是当我导入CHAR of VARCHAR数据类型时，结果数据类型仅为字符串。有没有人能帮我解释一下为什么会这样。

浏览 4提问于2018-11-06得票数 2

1回答

将多个BigQuery表导出到一个

python、google-bigquery

我们正在启动bigquery查询，这些查询从许多表中提取数据并写入单个表。我们使用Python运行带有参数的作业： job = bq_client.run_async_query(jobname, select_query) job.destination = bq_table job.write_disposition = 'WRITE_APPEND' 500个工作岗位同时被裁掉了20个。不幸的是，我们周期性地遇到错误：超出速率限制:此表的表更新操作太多。有关更多信息，请参阅问题：这是由于bigquery作业/查询对单个目标表的写入太多吗？如果是这样的话，我

浏览 2提问于2017-07-25得票数 1

1回答

如何使用胡椒对BigQuery中的数据进行哈希运算，并保持胡椒的秘密？

hash、google-bigquery

我们的个人身份信息(PII)数据(例如emailAddress)驻留在BigQuery中。我们不会向终端用户公开这些PII数据(我们使用将其隐藏)，但是，为了让这些用户可以将不同的表连接在一起，我们需要提供emailAddress的单向散列。为了提高安全性，我们的InfoSec团队坚持使用来加密数据，可能会使用BigQuery的。我们的挑战是在哪里存储胡椒，以及如何使用它，而不需要将数据写到不同的表中(我们绝对不想仅仅为了散列的目的而移动一些数据)。我们正在考虑这种方法:我们为pepper选择的值存储在BigQuery中的一个表中，最终用户无法访问该表。我们将在生成散列的原始数据之上提供B

浏览 0提问于2021-06-09得票数 0

2回答

限制BigQuery扫描任何给定查询所需的记录数量？

google-cloud-platform、google-bigquery

我已经将一些大型表上传到BigQuery，并可以在它们上运行查询。通过只扫描特定的所需列而不是SELECT *，我已经成功地降低了水平成本。是否有任何方法来限制数据扫描垂直以及。我可以看到使用LIMIT 将限制子句应用于SELECT *查询不会影响读取的数据量。您是因为读取整个表中的所有字节而被计费的。是否有其他方法可以减少给定查询的BigQuery扫描记录的数量？可能是通过上传(并正确命名)许多较小的表而不是一个大表，还是通过特定的BigQuery SQL？如果它是相关的，我的文件是以拼花格式。

浏览 1提问于2019-11-11得票数 0

回答已采纳

1回答

如何将dask数据帧写入google云存储或Bigquery

python、pandas、google-bigquery、dask、google-cloud-datalab

我正在为我的ML项目使用google cloud datalab。我的一个数据在bigquery表中，该表有数百万条记录(文本数据)，其中有许多列。我从bigquery表创建了一个pandas数据帧，将其转换为dask数据帧(具有5个分区)，并执行了数据辩论。现在，我有了这个dask数据帧，我想将其存储在bigquery中，或者将其转换为拼接文件并将其存储在我的gcp存储中。如果能听到来自社区的选择，那就太好了。谢谢。

浏览 16提问于2019-02-14得票数 0

1回答

BigQuery:从类查询作为外部数据源的拼花文件的价格

google-bigquery、google-cloud-storage、parquet

BigQuery允许在各种存储类中查询外部表。从Coldline访问数据有一个数据。拼花格式文件提供柱状存储。当通过BigQuery从Coldline访问Parquet格式文件时，数据检索成本是基于查询的数据列还是基于整个Parquet文件？

浏览 7提问于2020-05-13得票数 2

回答已采纳

1回答

使用Cron将数据从mysql数据库导出到CSV，然后将其全部数据导出到bigquery表

mysql、csv、google-cloud-platform、google-bigquery

使用Cron将数据从mysql数据库导出到CSV，然后读取这个csv文件并使用bigquery将其全部数据导入google云大家好，我有一个名为db_test的Mysql数据库，其中有一个表名为members_test(id，name)。我正在开发Linux。我正在尝试使用cronjob在午夜将数据从这个表中提取到一个CSV文件中。另外，我想让bigquery以某种方式读取这个csv文件，并将其数据放入一个名为cloud_members_tab的表中，该表保存在google平台上。怎么做？

浏览 0提问于2018-09-12得票数 2

回答已采纳

2回答

BigQuery表的架构与配方不匹配

google-bigquery、data-warehouse、google-cloud-dataprep

我目前正在开发一个从bigquery到Tableau的BI堆栈。我正在尝试使用Dataprep删除不必要的列，并连接bigquery中的表，以创建一个“主”表，然后将其提供给Tableau。bigquery中的表大约每8小时更新一次，我正尝试在dataprep中为主表创建一个类似的计划。运行作业或甚至尝试从连接的表中获取样本都会产生此错误。 java.lang.IllegalStateException: The schema of the BigQuery table does not match the recipe. 不确定我该如何解决这个问题。我比较了错误中的两列(预期列与实际列

浏览 25提问于2018-12-27得票数 0