我在bigquery中有一个很大的数据集,并且用bigquery编写SQL查询。它能快速产生结果。虽然我想使用R/python进行数据预处理。我有大约。我的表中有200M条记录,R的速度非常慢。
因此,考虑到数据量,我应该使用bigquery query,或者有另一种使用R/python的方法,它也很快。或者google提供了一些产品,可以用来创建数据摘要,避免SQL查询。
发布于 2018-03-18 10:24:31
BigQuery通常是快速处理大量数据的最佳解决方案。但是,如果你想避免SQL查询,你可能需要考虑通过Dataflow pipeline或者使用Dataprep来预处理你的数据(注意,后者还处于测试阶段)。
发布于 2018-03-19 09:07:39
正如Lefteris之前提到的,BigQuery可能是可伸缩性最好的解决方案。
如果你仍然想要与R集成,你有没有看过bigrquery
https://stackoverflow.com/questions/49324756
复制