为什么BigQuery在处理非大型数据时如此缓慢？_为什么在谷歌BigQuery ML中，我的数据集只有2.4 ML时，查询处理的字节数却是100 ML？ - 腾讯云开发者社区

、

我们发现BigQuery在大于100M行的数据集上工作得很好，其中“初始化时间”并没有真正生效(或者与查询的其余部分相比可以忽略不计)。然而，在任何情况下，它的性能都相当慢和差，这使得它(1)不适合在交互式BI工具中工作；(2)不如其他产品，例如Redshift甚至是数据大小在100M行以下的ElasticSearch。实际上，我们的组织中有一位工程师正在评估一项技术，该技术可以在大约1000个用户的分析产品中对1M到1亿行之间的数据进行查询，他的反馈是，他不敢相信<e

浏览 43提问于2017-02-24得票数 23

回答已采纳

2回答

BigQuery检索时间慢

、

BigQuery在处理大型数据集方面速度很快，但是从BigQuery检索大型结果的速度一点也不快。在生产中，我看到当返回~1Mn行时，这个过程大约需要90秒。很明显这其中的一些原因可能是网络流量..。有没有其他人在返回结果时遇到过如此缓慢</

浏览 2提问于2016-12-07得票数 1

回答已采纳

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

如何删除字符串的第一个字符，并在BigQuery中将剩余的值视为整数

目前，我正在使用一个在BigQuery中预先填充的大型数据集。我有一列orderID，它的设置如下: o377412876、o380940924等，它存储在一个字符串中。我需要做以下工作，但遇到了一些问题：然后，我将针对这些值运行一个联接。现在，在Python、R或其他语言中进行这个操作时，我会非常高兴。尽管如此，基于客户

浏览 0提问于2013-11-23得票数 2

回答已采纳

2回答

用于仪表板后端的BigQuery与Cloud

、

我没有多少BQ中的Gbs行数据，需要在这些数据上构建web仪表板(SQL与多个表的联接)。因此，查询速度和可靠性是主要目标。谢谢!

浏览 8提问于2020-08-23得票数 18

回答已采纳

1回答

大型文件的BigQuery脚本失败

、、

我试图使用上的脚本将一个json文件加载到中，只需很少修改即可。我加了转到MediaFileUpload.socket.error: `[Errno 32] Broken pipe`

浏览 1提问于2016-08-23得票数 1

1回答

在bigquery中跨项目复制数据时偶尔会出现性能缓慢的情况

当我在bigquery中跨一个项目复制数据到另一个位于相同数据位置的项目时，我遇到了非常缓慢的移动，然而，与我们在bigquery上复制数亿条数据的其他操作相比，移动数据需要长达2分钟，大约只有100,000条记录，而其他操作只需要几秒钟的时间，因此我想找出为什么这么小的数据集会发生这种不寻常的缓慢移动。

浏览 18提问于2020-01-09得票数 0

回答已采纳

1回答

调用函数时执行非常慢

、

虽然执行过程非常缓慢，但我不明白为何会这样？

浏览 1提问于2018-11-14得票数 0

回答已采纳

4回答

为什么我的MongoDB查询非常非常慢？

、、

我在工作中继承了一个大型MongoDB服务器，并负责弄清楚为什么在它上运行的查询如此缓慢。数据库包含吨和吨的记录(约10^9)，占用约300 GiB。起初，我认为原始记录的数量可能是罪魁祸首，所以我在适当的字段上建立了索引。对于搜索DB中的标准的查询来说，它非常有用，但是在没有匹配的情况下，查询需要80到90分钟的时间。对如何处理这件事有什么想法吗？

浏览 0提问于2010-11-10得票数 10

1回答

为什么Windows上的文件连接速度如此之慢？

、、

我正在开发一个小的实用程序来连接大型视频文件。主要的串联步骤是在Windows 7的命令行上运行类似以下内容：输入文件很大-通常每个文件7-15 The我知道我在这里要处理大量的数据，但是二进制连接需要很长的时间-对于总共大约40 an的数据来说，它可能几乎需要一个小时。考虑到这个过程基本上只是扫描每个文件并将其内容复制到一个新文件，为什么二进制复制如此

浏览 0提问于2012-07-28得票数 0

回答已采纳

1回答

：查询要处理的数据的数据大小

当在BigQuery文本框中输入查询时，它将立即提供查询要处理的数据的大小(例如，此查询在运行时将处理839 GB )。问题1: bigquery如何如此快速地了解将要处理的数据大小。问题3:我想通过bigquery工具获得这个数字，并希望在我的项目中使用。有没有办法通过API获得这个数字。

浏览 2提问于2013-07-05得票数 2

1回答

使用API将Bigquery数据导出到外部应用程序的最佳GCP体系结构

、、、

我将以下GCP产品一起用于CRM系统： Appengine使用JSON中未经修改的查询结果响应外部应用程序。问题是导出并不经常，但是数据量可能很大，我不想用这些数据加载AppEngine。在这种情况下，还有哪些

浏览 2提问于2022-04-16得票数 -4

回答已采纳

2回答

当将数据加载到BigQuery时，当csv文件中有行提要时，会抱怨‘漏掉关闭双引号(")字符

.","",{} 当通过命令BigQuery将csv数据加载到bq load --replace --source_format=CSV -F"," ...时，会出现错误投诉。有人能给我一个BigQuery加载数据命令的解决方案吗？

浏览 6提问于2015-11-13得票数 10

回答已采纳

2回答

Bigquery和R:成本和数据存储在哪里？

、

我正在使用RStudio对存储在BigQuery中的大型数据集运行分析。该数据集是私有的，来自一家大型零售商，该零售商通过BigQuery与我共享了该数据集，以运行所需的分析。我使用bigrquery库将R连接到BigQuery，但是找不到以下两个问题的答案： 1)当我使用R运行分析时(例如，首先使用SELECT获取数据并将其存储在R中的数据框中)，然后数

浏览 0提问于2018-08-10得票数 0

2回答

GCP BigQuery显示“此脚本在运行时将处理2TB”，用于“限制10”的简单查询。

、

当我在GCP BigQuery中为大型分区表选择查询时，我还没有点击"Run“按钮，它告诉我”这个脚本在运行时将处理2TB。“ 我不知道为什么“限制10”查询仍有这么大的成本。

浏览 8提问于2022-04-05得票数 0

回答已采纳

1回答

如何构建一个稳定的系统，每天处理9000万行数据，并转换为实时服务器？

、、

我正在为公司开发一个系统，每天用FTP为我提供销售数据。(不幸的是，他们没有为此提供for服务。)我必须存储和处理所有新的销售和员工数据，我必须计算员工通过销售赢得了多少积分，他们有多少徽章……(基于销售额)。我已经有了一个正常工作的系统，但我正在考虑将这些计算过程转移到云中，并在计算后仅传输点数据。我的系统读取所有销售数据并将其存储在MySQL中。然后，PHP脚本将原始数据处理为点数据。我的网页不加载原始数据，它们

浏览 2提问于2017-02-15得票数 1

1回答

Google上的ETL -(数据流与春季批处理) -> BigQuery

、、、、

我认为BigQuery是我的数据仓库需求。现在，我的数据在google (cloud和BigTable)中。我已经公开了REST以从这两个方面检索数据。现在，我想从这些API中检索数据，执行ETL并将数据加载到BigQuery中。我现在正在评估ETL的两个选项(小时数据的每日工作频率)：-

浏览 2提问于2017-08-11得票数 1

回答已采纳

1回答

联合表在BigQuery中的查询成本比单个表高吗？

、、

BigQuery成本方案当我查询一个大型的联合表(按日期字段进行分区并按客户端键字段进行群集)时，对于特定客户端的数据，它处理的数据似乎比我单独查询该客户端表时处理的数据要多。相同的查询，应该是来自不同表的完全相同的数据；巨大的不同成本。有谁知道为什么查询分区/集群联合表的成本比单个客户端特定表的相同数据还要高呢？我试图证明，与单独的数据集

浏览 8提问于2022-07-29得票数 0

3回答

从MySQL加载500万行到Pandas

、

我在一个MySQL DB中有500万行位于(本地)网络上(如此快速的连接，而不是在互联网上)。即使与chunksize分块也将是缓慢的。另外，我不知道它是挂在那里还是真的在检索信息。我想问一下，对于那些在DB上处理大型数据的人，他们是如何为Pandas会话检索数据的？例如，运行查询时，返回一个带有结果的csv文件并将加载到Pandas中会更“智能”吗？听起来比你需要的要多。

浏览 0提问于2015-07-29得票数 8

回答已采纳

1回答

Python BigQuery客户端多次执行相同的查询

、、

我遇到的问题是，当我查询大型数据(35M行，22 got数据)时，同一个查询在后台执行了多次(例如400次)。我知道数据在某种程度上是被分割/洗牌的。这大大增加了查询成本。我是这样查询数据的：query_job = bqclient.query我正在使用google-cloud-<e

浏览 10提问于2022-08-30得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云