在没有BigQuery的情况下大量数据的交集

在没有BigQuery的情况下，处理大量数据的交集可以通过以下方式进行：

数据库查询：使用关系型数据库或者NoSQL数据库进行查询操作，通过编写SQL语句或者使用数据库的查询接口，可以筛选出满足条件的数据交集。常见的数据库产品包括MySQL、PostgreSQL、MongoDB等。
分布式计算框架：使用分布式计算框架如Apache Hadoop、Apache Spark等，可以将大量数据分布式地存储和处理。通过编写MapReduce任务或者使用Spark的DataFrame API，可以进行数据的交集计算。腾讯云提供的相关产品包括TencentDB for TDSQL、TencentDB for MongoDB、TencentDB for Redis等。
数据预处理：如果数据量较大且交集计算较为复杂，可以考虑使用数据预处理技术，将数据进行预处理和分割，然后分别计算各个部分的交集，最后合并结果。这样可以降低计算的复杂度和资源消耗。
数据分片：如果数据量非常大且无法一次性加载到内存中进行计算，可以考虑将数据进行分片处理，分批加载到内存中进行交集计算。可以根据数据的特点和业务需求，将数据按照某种规则进行分片，然后逐个分片进行计算。腾讯云提供的相关产品包括TencentDB for TDSQL、TencentDB for MongoDB、TencentDB for Redis等。
数据压缩和索引：对于大量数据的交集计算，可以考虑使用数据压缩和索引技术来提高计算效率。通过对数据进行压缩可以减少存储空间和IO开销，而使用索引可以加速数据的查找和匹配过程。

总结起来，在没有BigQuery的情况下处理大量数据的交集，可以通过数据库查询、分布式计算框架、数据预处理、数据分片、数据压缩和索引等方式来实现。具体选择哪种方式取决于数据量、计算复杂度、性能要求和业务需求等因素。腾讯云提供了一系列的数据库和分布式计算产品，可以根据具体需求选择适合的产品进行数据交集计算。

从Google BigQuery中提取数据的刷新需要花费很长时间。

、

我们对BigQuery <-> Tableau服务器与live 的结合感到非常满意。但是，我们现在希望在Tableau上使用数据提取程序(500 to )(因为这个数据源不太大，而且使用非常频繁)。这需要花费太多的时间来刷新 (1.5h+)。我们注意到，只有0.1%的查询时间，其余的是数据导出。由于Tableau Server位于相同的平台和位置上，所以延迟不应成为问题。这类似于将BigQuery表缓慢导出到单个文件，这可以通过使用“雏菊链”选项()来解决。不幸的是，我们不能使用类似的逻辑与Google BigQuery数据提取刷新在Tableau. 我们已经确定了一些办法，但对

浏览 5提问于2016-01-04得票数 4

1回答

数据流Apache beam Python作业停滞在Group by step

、、

我正在运行一个数据流作业，它从BigQuery读取，并在8 GB of data and result in more than 50,000,000 records.周围扫描，现在按步骤分组我想根据一个键进行分组，并需要连接一列。但是在连接列的连接大小超过100MB之后，为什么我必须在数据流作业中执行该group by，因为该group by不能在Bigquery level due to row size limit of 100 MB.中完成现在，当从BigQuery读取数据时，数据流作业的伸缩性很好，但是停留在Group by step上，我有两个版本的数据流代码，但这两个都是gro

浏览 0提问于2019-08-18得票数 0

2回答

Google BigQuery的内部数据存储位置是否可以指向其他位置，如本地内部基础设施？

我真的很想使用BigQuery进行数据分析和开发商业智能。唯一令人担忧的是，我们的一些客户对云存储不太满意，因此我们有内部服务器为所有其他流程存储数据。据我所知，除了指定应该使用云中的哪个位置(美国或欧盟)外，BigQuery在数据集的存储上没有提供灵活性。有没有办法指定将BigQuery数据集存储在本地集群中？

浏览 55提问于2017-02-11得票数 0

回答已采纳

1回答

使用python处理来自bigquery的大型数据集，将其加载回bigquery表

、、、

我在bigquery中有一个巨大的数据集，有5000万行和57列。我想做很多过滤/转换/清理，而不是使用sql。我尝试使用dask/panda/python将数据加载到本地mac的dask数据帧中，进行转换，然后将数据推送回bigquery，以便其他总线可以使用它。将数据推送回bigquery需要超过3个小时。有没有其他方式，或者谷歌云服务，我可以利用？

浏览 2提问于2019-03-30得票数 0

2回答

是否将Dask Dataframe导入Bigquery表？

、、、

有没有办法将dask数据帧上传到bigquery表中？据我所知，Bigquery支持熊猫。假设我们有df as pandas dataframe： from google.cloud import bigquery bq_table_path=`project_id.dataset_id.table_name` bigquery_client=bigquery.client(project=project_id) bigquery_client.load_table_from_dataframe(df,bq_table_path) 在dask dataframe中呢？我得到了以下错误： N

浏览 26提问于2021-09-20得票数 0

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段是否受Spark簇大小的影响，还是需要固定的时间？

浏览 6提问于2017-01-04得票数 7

回答已采纳

5回答

使用BigQuery进行实时分析

有没有办法用BigQuery运行实时分析？我使用了CSV upload选项，该选项启动一个作业并以脱机模式加载数据，加载完成后可以对其进行分析。但在关于BigQuery的公告中，提到了使用BigQuery进行实时分析。如何才能做到这一点？我们可以将数据从Google Cloud数据库追加(无更新)到BigQuery中，以进行实时分析吗？顺便提一下，我注意到BigQuery CSV数据加载速度比我本地PC上使用10 PC数据文件运行的LucidDB和InfiniDB慢一个数量级。完成BigQuery作业需要34分钟，而在InfiniDB和LucidDB上只需要5分钟。与InfiniDB相比，查

浏览 0提问于2012-05-02得票数 3

回答已采纳

1回答

在插入BigQuery表之前检查数据是否已经存在(使用Python)

、

我正在设置一个每天的cron作业，该作业将一行附加到BigQuery表(使用Python)，但是正在插入重复的数据。我已经在网上搜索过了，我知道有一种手动数据的方法，但是我想知道我是否能够首先避免这种重复。是否有方法检查BigQuery表，以确定数据记录是否已经存在first，以避免插入重复的数据？谢谢。代码片段： import webapp2 import logging from googleapiclient import discovery from oath2client.client import GoogleCredentials PROJECT_ID = 'foo

浏览 3提问于2016-10-04得票数 3

回答已采纳

1回答

使用BigQuery作为google加载项的数据存储/缓存系统

、、

我有一个带有自定义公式的google插件，它从我的API中获取数据以在其结果中显示。对于许多用户来说，问题是这个插件经常到达Urlfetch配额。因此，我试图为我的公式使用另一个数据源，我一直试图为此设置BigQuery (我知道这并不意味着会被那样使用)。我的方法是这样的:当用户执行一个公式时，我首先在BigQuery中查看数据是否已经存在，如果不是从API获取，则将结果存储在BigQuery中。我尝试了一个概念证明，我在中用代码示例向我的插件添加了一个自定义函数，在这里，我为自己的projectId替换了projectId，并在执行时查询了一个示例表--公式得到了以下错误： Googl

浏览 5提问于2022-11-01得票数 -2

1回答

在上调试来自BigQuery的慢速读取

、

背景：我们有一个非常简单的管道，它从BigQuery (通常是300 to )过滤器/转换中读取一些数据，并将其放回BigQuery。在99%的情况下，该管道在7-10分钟内完成，然后重新启动以处理新的批处理。问题：最近一段时间开始工作时间超过3h，在2000年的运行中，一个月可能需要2次。当我查看日志时，我看不到任何错误，实际上，这仅仅是第一步(从BigQuery读取)所花费的时间。是否有人就如何处理此类案件的调试提出建议？特别是因为它实际上是读了BQ，而不是我们的任何转换代码。我们正在为Python0.6.0使用(也许这就是原因！？) 是否可以为作业定义超时时间？

浏览 0提问于2018-01-26得票数 1

回答已采纳

1回答

跨项目的DataProc BigQuery连接器访问

、、

我正在编写一个Spark作业，以便在项目A中的DataProc集群上运行，但是作业本身将使用BigQuery连接器从项目B中的一个BigQuery实例中提取数据。我对两个项目都有所有者特权，但是作业是使用服务帐户运行的。我在堆栈跟踪中得到的响应是： { "code" : 403, "errors" : [ { "domain" : "global", "message" : "Access Denied: Table ABC:DEF.ghi: The user me-compute@

浏览 0提问于2018-03-22得票数 1

回答已采纳

1回答

使用Bigquery的齐柏林飞艇会导致"SQL执行返回错误！“

、、

如文档所述，我安装并配置了齐柏林飞艇。在conf/zeppelin-env.sh中，I将GOOGLE_APPLICATION_CREDENTIALS设置为环境变量 export GOOGLE_APPLICATION_CREDENTIALS=/home/anderson/.ssh/gcp-credentials.json 通过设置zeppelin.bigquery.project_id.，配置了BigQuery解释器在这些设置之后，我可以为公共数据集运行以下BigQuery SQL以解决任何问题。 %bigquery #standardSQL SELECT departure_airport

浏览 9提问于2021-12-17得票数 0

2回答

将BigQuery数据提取到R中进行预处理和分析

、、

我在bigquery中有一个很大的数据集，并且用bigquery编写SQL查询。它能快速产生结果。虽然我想使用R/python进行数据预处理。我有大约。我的表中有200M条记录，R的速度非常慢。因此，考虑到数据量，我应该使用bigquery query，或者有另一种使用R/python的方法，它也很快。或者google提供了一些产品，可以用来创建数据摘要，避免SQL查询。

浏览 0提问于2018-03-16得票数 0

2回答

BigQuery -复相关查询

、

我试图查询Google BigQuery公共红迪数据集。我的目标是使用计算subreddits的相似性，它的定义如下：我的计划是在2016年8月从评论数量上选择排名第一的N=1000分类。然后计算它们的笛卡尔乘积，得到subreddit1, subreddit2形状的所有减法的组合。然后使用这些组合行来查询subreddit1和subreddit 2以及交集之间的用户联合。到目前为止，我的疑问是： SELECT subreddit1, subreddit2, (SELECT COUNT(DISTINCT author) FROM `fh-bigque

浏览 5提问于2016-10-03得票数 2

回答已采纳

2回答

BigQuery -- DataWarehouse的维度表设计？

、、

我注意到，BigQuery在维护历史数据方面很好，但在进行单独的记录更新时，性能就不那么好了。对于历史数据，以“维度和事实范式”在BigQuery中维护维度表有多有效？我只想在维度数据定期完全刷新的情况下使用这种范例，因为维度表不能包含重复的键，并且BigQuery不能执行记录级更新。我还可以使用哪些方法来维护维度表？我想到了Bigtable，但这是一个很好的应用程序吗？

浏览 2提问于2018-09-06得票数 0

1回答

Simba JDBC 4.1驱动程序的默认获取大小

、、

我正在使用Simba JDBC 4.1驱动程序从Google Bigquery获取数据。我能够在大约3小时内获取25 GB的数据。有没有什么方法可以设置fetch size属性，这个驱动程序的默认fetch size是多少？

浏览 1提问于2020-02-22得票数 0

1回答

影响查询性能的BigQuery表属性

这个问题与在BigQuery中查询数据的性能有关。任何会影响查询性能的特定表或列设置，或者表中的所有列实际上都由BigQuery平等对待，以便列的顺序或应用于列的任何定义不会以任何可区分的方式影响数据获取？谢谢!

浏览 3提问于2012-07-08得票数 0

回答已采纳

1回答

流错误下BigQuery数据吞吐的不一致性

嗨，在将数据流到BigQuery时，我们在使用请求时使用BigQuery Java库时会遇到一些数据不一致的问题。一些批处理在错误代码：backendError中失败，而一些请求超时有异常堆栈跟踪：。对于失败的批次，我们观察到了与摄入的数据相关的3种不同行为：该批中的所有记录都没有被BigQuery吸收。只有一些记录没有被BigQuery吸收。所有记录都成功地进入BigQuery，尽管引发了错误。我们的问题是：我们如何区分这3种情况。对于案例2，我们如何处理部分摄入的数据，即，应该重试来自该批的哪些记录？对于第三种情况，如果所有记录都被

浏览 4提问于2016-12-19得票数 0

1回答

为什么在ga/firebase选项没有任何变化的情况下，来自bigquery的数据量会显著减少？

、、、

我使用Bigquery从ga和firebase获取原始数据。我可以从Bigquery获得大约100000到200000行日志数据。但从上周开始，我从Bigquery得到了大约1000行。我没有更改ga，firebase，bigquery的任何选项。我发现在ga中显示的数据没有变化。我认为，把ga连接到bigquery和把firebase连接到bigquery是有问题的。如何找到连接中的问题和原因？我需要很多关于这个问题的意见。谢谢!

浏览 5提问于2021-01-13得票数 1

1回答

当从其他谷歌云服务流式传输数据时，有可能修复到BigQuery的失败插入吗？

BigQuery提供insertIds并执行一些重复数据消除，以帮助解决通过API插入数据时的故障情况。根据文档，，所以如果插入失败，可以通过API重试插入，而不用担心可能的(插入的)数据重复。这可以是。问题是，在谷歌云上，有大量承诺将数据插入BigQuery的服务。例如，对于从许多来源获取数据到BigQuery的推荐堆栈，DataFlow / Apache Beam是其中的一部分。还有Dataprep、Stackdriver日志记录等。那么，当使用任意第三方BigQuery客户端时，有没有一种统一的方法来恢复BigQuery中失败的插入？

浏览 1提问于2018-06-12得票数 0

1回答

将大量.bak文件转换为.parquet以便上传到BigQuery

、、、

我在Google上有12个文件，每个文件大约20 in，这是一个.bak文件格式的数据库备份。我想将它们上传到BigQuery进行分析，但是BigQuery不能处理.bak文件，需要csv或parquet文件。我目前正计划将每个文件下载到本地机器，将其上传到微软的Studio，将其转换为.parquet，然后从本地计算机(笔记本电脑)将该文件上传到BigQuery，但这是漫长而痛苦的。有更好的方法吗？

浏览 6提问于2022-07-28得票数 1

2回答

如何在Google BigQuery中存储图片？

我想将产品图像存储在google bigquery数据库中，这样我就可以在我的报告中显示这些图像。有没有办法做到这一点？

浏览 0提问于2014-01-30得票数 1

1回答

BigQuery:无法删除表

我们有一个大表(稍微大一点，小于1500万行)，我们一直在进行应力和稳定性测试。我们正试图删除这张表，但它正在抵制。以下是我们尝试过的：从web控制台删除表。不，errors...but，它不删除表。从命令行接口中删除。我们得到一个错误消息：“rm操作中的BigQuery错误:后端错误”。我们还尝试从控制台中删除整个数据集，这也失败了。没有报告错误。我们试图从命令行中删除整个数据集。我们得到相同的错误消息：“rm操作中的BigQuery错误:后端错误”。可以删除具有相同架构的其他表，而不会出错。我们的模式确实使用了9999列(最大值)，这将是我们可能正在做的

浏览 0提问于2014-08-07得票数 4

回答已采纳

1回答

多区域Cloud联邦BigQuery查询不工作

、

根据Cloud联邦查询文档，可以运行多区域BigQuery作业，在指定的多个区域所包含的区域中查询Cloud实例： BigQuery多区域可以查询同一位置(美国、欧盟)的任何Cloud区域.例如： BigQuery US多区域可以查询Cloud central1 1、us-east4 4、us-west2 2等等。 BigQuery EU多区域查询Cloud North-1，EuropeanWest2，等等。但是，当我试图在US 4中的Cloud实例上运行一个查询时，它会抛出一个神秘的错误。 SELECT id FROM EXTERNAL_QUERY("project.us-e

浏览 11提问于2020-02-05得票数 2

回答已采纳

2回答

到谷歌BigQuery的Firebase数据

、、

Firebase提供。其中一个特色用例是“摄取分析产品”： Private Backups provides a perfect pipeline into cloud analytics products such as Google’s BigQuery. Cloud Analytics products often prefer to ingest data through Cloud Storage buckets rather than directly from the application. 我在Firebase中有很多数据(导出到云存储存储桶时超过1 1GB )，正如Fire

浏览 1提问于2015-12-17得票数 4

1回答

BigQuery/I无法使用"in“子句正确生成结果

、

我想提取完全匹配的数据，而不是部分匹配的数据。但是，如果我执行下面的sql代码，我无法提取它们：我估计这段sql代码没有提取数据，但它提取了所有数据行。 [SQL代码] WITH a AS( SELECT 001 AS id_a, 112345678901234567 AS x UNION ALL SELECT 002, 112345678901233567 UNION ALL SELECT 003, 112345678901232568 ), comp_

浏览 0提问于2019-06-27得票数 0

2回答

数据处理- BigQuery对数据Proc+BigQuery

我们在BigQuery表中有大量的原始数据(100亿到4000亿)。我们需要处理这些数据，以转换和创建星型模式表的形式(bigquery中可能是不同的数据集)，然后可以通过atscale访问这些数据。需要以下两种选择之间的利弊： 1.在BigQuery中写入复杂的SQL，读取数据源数据集，然后加载到目标数据集(由Atscale使用)。 2.将PySpark或MapReduce与来自Dataproc的BigQuery连接器一起使用，然后将数据加载到BigQuery目标数据集中。转换的复杂性包括在不同粒度上连接多个表，使用分析函数获取所需的信息等。目前，该逻辑是在vertica中实现的，使用

浏览 10提问于2020-01-14得票数 0

2回答

如何将Google中的数据附加到BigQuery中？

每天我都会把一些数据放到谷歌的表格中，今天的数据覆盖了昨天的数据。我根据这个Google创建了一个BigQuery表--初始连接工作，来自工作表的数据可以在BigQuery中正确查询。 Q：明天谷歌表格中的数据将被覆盖。如何将中的日常数据从Google附加到BigQuery中，这样，我就可以像归档一样连续地在BigQuery上添加数据了？我没有找到任何此类任务的教程--我发现的所有东西都是关于将Google页连接到BigQuery并从一个到另一个获取数据，而不是一种归档。

浏览 10提问于2022-05-30得票数 0

1回答

使用大查询或大表查询聚合值的用例？

、、

我用它来设计30 TB文本文件的存储，作为在Google云上部署数据管道的一部分。我的输入数据是CSV格式，我希望尽量减少为多个用户查询聚合值的成本，这些用户将使用多个引擎在云存储中查询数据。对于这个用例，下面哪个选项更好呢？使用云存储进行存储，并链接大查询中的永久表以进行查询，或使用Cloud表进行存储，并在计算引擎上安装HBaseShell来查询大表数据。基于下面对这个特定用途的分析，我发现下面的云存储可以通过BigQuery查询。此外，Bigtable支持CSV导入和查询。BigQuery限制还提到，根据文档，在CSV、JSON和Avro的所有输入文件中，每个加载作业的最大大小为15

浏览 0提问于2019-01-24得票数 0

回答已采纳

1回答

使用Python的身份验证问题

、、、

我想对这个资源进行HTTP调用：在阅读文档时，我使用从GCP项目生成的API密钥进行身份验证。因此，对于requests，我做了这样一个简单的调用： import requests params = {'key': 'MY_API_KEY'} base_url = 'https://bigquery.googleapis.com' project_id = 'MY_PROJECT_ID' r = requests.get(f'{base_url}/bigquery/v2/projects/{project_id}/jo

浏览 4提问于2020-07-09得票数 0

回答已采纳

2回答

移动到不同位置后，无法找到bigquery数据集

、

我在bigquery中更改了几个数据集的位置。最后的名称在操作后没有被更改。我可以在bigquery中查询它们，但是Dataset正在引发一个错误(BigQuery错误: Not found: Dataset xxx:yyy) 似乎data并没有改变处理位置。有解决办法或解决办法吗？

浏览 5提问于2021-10-26得票数 4

2回答

如何检索100+GB大小为R的BigQuery表

、、

我目前在BigQuery中有一个大小为100+GB的表，我想检索到R中。我在R中使用bigrquery包中的list_tabledata()函数，但这需要大量的时间。有没有人建议在R中处理如此大量的数据，以及如何提高性能？有没有什么包、工具？

浏览 0提问于2016-01-07得票数 1

2回答

消防基础分析. BigQuery的集合数据定位

、、

我们有一个Firebase设置，配置了Analytics并导出到BigQuery。集成是成功的，我们的事件正在被迁移到BigQuery上。然而，在BigQuery中的数据位置设置方面，我们面临一个问题。我们的Firebase项目将默认的GCP资源位置设置为eur3 (欧洲-西部)。在设置Firebase和BigQuery之间的集成过程中，我们没有选择设置任何数据位置。我们可以在BigQuery中看到数据集的位置是US。我相信BigQuery现在在欧盟数据中心得到了支持，我们怎么才能使用欧盟的位置而不是美国呢？

浏览 0提问于2020-08-24得票数 6

回答已采纳

2回答

使用Bigquery的CRUD web应用程序？

、、、、

我有一个大约200行的bigquery表，我需要通过一个web接口插入、delete和update值(该表不能迁移到任何其他关系或非关系数据库)。 web应用程序将部署在应用程序引擎上的google中，在Bigquery上充当管理和所有者特权的用户将能够创建和删除记录，而在bigquery中具有视图<code>E 217</code>权限的其他用户将只能在bigquery中<code>E 118<//code>视图<code>E 219</code>记录。 I am planning to use the scriptin

浏览 8提问于2021-01-25得票数 1

回答已采纳

1回答

云数据流:如何在PubSub to BigQuery中使用谷歌提供的模板

、、

我正在使用PubSub来捕获实时数据。然后使用GCP数据流将数据流式传输到BigQuery中。我正在使用Java进行数据流。我想尝试一下DataFlow中给出的模板。流程为: PubSub --> DataFlow --> BigQuery 目前，我正在将字符串格式的消息发送到PubSub (这里使用Python )。但是数据流中的模板只接受JSON消息。python库不允许我发布JSON消息。有没有人能给我一个建议，把JSON消息发布到PubSub，这样我就可以使用数据流模板来完成这项工作。

浏览 18提问于2018-02-21得票数 0

2回答

如何使用BigQuery插槽

嗨，你好。最近，我想在bigquery中运行一个查询，在某些表(表名适合xxx_mst_yyyymmdd)上使用"group“，.The行将超过1000万行。不幸的是，查询失败了，出现了以下错误：查询失败错误:在查询执行期间超出了资源。我用我的查询语言做了一些改进，随着数据的增加，这个time.But可能不会发生错误，这个错误也会出现在我检查了最新版本的Bigquery的future.So中，也许有两种解决方法： 1.在2016/01/01年度之后，Bigquery将更改查询定价层，以满足“高计算层”的要求，从而不再发生"resourcesExceeded错误“。 2.B

浏览 2提问于2015-11-03得票数 1

1回答

在用AS和ON子句连接多个Reddit表时遇到问题

、

我试图将评论加入到多个表的帖子中。我需要一个AS子句，因为posts表和comments表共享一个列'score‘。我的目标是能够在顶部的帖子中找到顶部的注释，并在所有这些表中找到数据。 #standardSQL SELECT posts.title, posts.url, posts.score AS postsscore, DATE_TRUNC(DATE(TIMESTAMP_SECONDS(posts.created_utc)), MONTH), comments.body, comments.score AS commentsscore, comments.id FROM

浏览 0提问于2019-01-27得票数 1

回答已采纳

1回答

如果我将我的应用程序部署到GCP上，我能以某种方式让google bq更快地工作吗？

、

在玩bq API时。我注意到在我的本地机器上获取大表相当耗时。这就是问题出现的时候，如果我把我的项目部署到GCP上，是否可以让它更快地工作？我浏览了GCP提供的所有文档，没有发现google bq的任何特殊处理，以防我的应用程序部署在GCP上： https://cloud.google.com/bigquery/docs/quickstarts/quickstart-client-libraries https://cloud.google.com/bigquery/docs/query-overview google bq不能更快地工作，如果它部署在GCP上，它不能更快地工作，这是正确的

浏览 24提问于2019-03-20得票数 0

回答已采纳

1回答

什么是BigQuery中的并发查询？

、、

对于Bigquery中小于1Gb的小数据集，我们正面临配额限制。Google云没有给我们提供在后端运行哪些查询的指示，这不允许我们对设置进行优化。我们有一个Bigquery数据集和一个内置在dataset中的仪表板，它正在查询数据集。我以前使用过像Oracle这样的关系数据库，它们有很好的工具来诊断问题。但是有了Bigquery，我觉得我在盯着黑暗看。如果你能给我任何帮助/建议，我将不胜感激。

浏览 1提问于2018-05-31得票数 0

1回答

如何使用colab或其他python笔记本中的表(近30-40 GB，3亿行)？

、、

我正在尝试通过使用Google Big查询中的表来开始机器学习研究。表的大小接近36 GB，表有近3亿行6列。我尝试了下面的代码： from google.colab import auth auth.authenticate_user() print('Authenticated') from google.cloud import bigquery import json import requests import os from google.cloud import bigquery from datetime import datetime project_

浏览 0提问于2021-04-15得票数 0

1回答

如何将pyarrow.Table格式的数据大容量加载到BigQuery中？

、

根据BigQuery的python文档(Version3.3.2)，有一个用于insert_rows_from_dataframe (dataframe: pandas.DataFrame)的方法，但是PyArrow没有类似的方法。 insert_rows_from_dataframe( table: Union[ google.cloud.bigquery.table.Table, google.cloud.bigquery.table.TableReference, str, ], dataframe, sel

浏览 12提问于2022-09-19得票数 0

1回答

带有BI引擎的BigQuery比带有缓存的BigQuery慢

、、、、

我读过几乎所有关于如何提高BigQuery性能、如何在毫秒或至少一秒钟内检索数据的线程。我决定为此使用BI引擎，因为它具有无缝集成而没有代码更改，它支持分区、智能卸载、实时数据、内置压缩、低延迟等等。不幸的是，对于相同的查询，启用BI引擎的响应时间比启用缓存的查询慢。缓存命中的BigQuery 来自BigQuery API的平均691 API响应时间 BigQuery + BiEngine 来自BigQuery API的平均1605 API响应时间。 finalExecutionDurationMs大约是200-300 is，但是检索数据的总时间(只有8行)是以前的5-6倍。 BigQ

浏览 6提问于2022-10-20得票数 0

1回答

BigQuery预览:来自服务器的未知错误响应

当我尝试进行预览时，在我的很多数据集上都收到了一个“未知错误响应”的错误。我已经有这几天了，没有解决办法来解决它。你有什么想法，发生了什么或者如何解决这个问题吗？有没有针对BigQuery的bug追踪器，或者其他联系谷歌平台员工的方式？ ?

浏览 18提问于2020-06-15得票数 1

回答已采纳

2回答

大数据集下数据流BigQuery插入作业立即失败

、、、

我使用beam库设计了一个beam /数据流管道。这条管道大致做了以下工作： ParDo:从API中收集JSON数据 ParDo:转换JSON数据 I/O:将转换后的数据写入BigQuery表一般来说，代码执行它应该做的事情。但是，当从API收集大型数据集(大约500.000 JSON文件)时，bigquery作业在启动后(=1秒内)停止，但在使用DataflowRunner时没有特定的错误消息(它正在使用在我的计算机上执行的DirectRunner )。当使用较小的数据集时，一切都正常。数据流日志如下： 2019-04-22 (00:41:29) Executing

浏览 0提问于2019-04-22得票数 1

1回答

BigQuery连接需要很长时间

我试图在两个BigQuery表上做一个简单的内部连接，并使用相同的方法在另一个表中插入记录。查询如下： INSERT INTO Table3 (EventDate, Opens_Count, Sends_Count, JobID) SELECT o.EventDate, COUNT(o.JobID) AS Opens_Count, COUNT(s.JobID) AS Sends_Count, s.JobID FROM Table1 o INNER JOIN Table2 s ON o.JobID = s.JobID GROUP BY EventDate, JobID 这个查询

浏览 5提问于2020-11-09得票数 0

1回答

具有二进制数据的PubSub主题到BigQuery

、、

我希望有数以千计的传感器以10 via的速度发送遥测数据，每帧大约有1KB的二进制数据，使用IOT，这意味着我将通过PubSub获得数据。我想将这些数据发送到BigQuery，并且不需要进行处理。由于Dataflow没有能够处理二进制数据的模板，使用它似乎有点麻烦，所以我想尽量避免它，使它变得完全没有服务器。问题是，我最好的选择是什么？我考虑过云运行服务，运行一个快速应用程序来接受来自PubSub的数据，并使用全局变量在ram中累积大约500行，然后使用BigQuery的insert()方法(NodeJS客户机)转储它。这有多合理？我是从积累中获得了什么，还是应该将每个传入行插入big

浏览 7提问于2021-10-22得票数 1

回答已采纳

1回答

通过我的Google应用程序将大型excel文件上传到bigquery

、、、、

我想通过我的谷歌应用程序引擎上传大的excel文件到Bigquery。现在我上传数据并使用POI读取数据，然后通过流插入将数据插入到Bigquery中。这是不可能的，如果我使用这个较大的excel文件，这肯定会花费超过60秒(DeadlineExceededexception)。请建议完成此任务的正确方法。提前感谢

浏览 2提问于2014-09-04得票数 0

1回答

将csv.gz从url加载到bigquery

、、

我正在尝试将所有csv.gz文件从加载到google。做这件事最好的方法是什么？我试着使用pyspark读取csv.gz文件(因为我需要对这些文件执行一些数据清理)，但是我意识到pyspark不支持直接从url读取文件。将csv.gz文件的已清理版本加载到BigQuery中是否有意义，还是应该将原始的原始csv.gz文件转储到BigQuery中，并在BigQuery本身中执行清洗过程？我正在阅读“谷歌BigQuery:最终指南”一书，它建议在上加载数据。我是否需要将每个csv.gz文件加载到中，还是有更简单的方法来做到这一点？谢谢你的帮忙!

浏览 8提问于2022-11-12得票数 0

回答已采纳

1回答

我能使用BigQuery和的相同编程语言吗？

、

我希望在两种不同的技术中使用相同的函数来解析事件: Goolge和DataFlow。有我能用的语言吗？如果不是，谷歌是否计划在短期内支持一家公司？背景：这种解析有些很复杂(例如，应用自定义的URL提取规则，从用户代理中提取信息)，但在计算上并不昂贵，而且不涉及将事件加入到任何其他大型查找表中。因为解析可能很复杂，所以我只想用一种语言编写解析逻辑，并在需要的地方运行它:有时在BigQuery中，有时在其他环境(如DataFlow )中。我希望避免用不同的语言编写相同的复杂解析器/提取器，因为这会导致错误和不一致。我知道BigQuery支持javascript。有没有一种在Google上运行j

浏览 0提问于2018-06-12得票数 0

1回答

BigQuery -插入数据时出现问题

、

我目前正在使用BigQuery的，它工作得非常好，但是我在性能上有一些问题，我还找不到任何关于它的东西。我正在使用新的insertRows方法向BigQuery发送数据，尽管我总是收到响应"bigquery#tableDataInsertAllResponse"，但我几乎从未实际看到数据被插入。通常我一次发送的数据集大约是30-100个项目，我查看了BigQuery的配额，我没有超过它，我甚至没有接近极限。 BigQuery确实输入了我最终发送的一些行，但在BigQuery确认我发送了数据之前，它花了令人难以置信的长时间，当它确认时，它在流缓冲区中持续了几天，最终只插入了一

浏览 0提问于2017-05-03得票数 0