问从S3读取到Spark时过滤数据
EN

Stack Overflow用户

提问于 2018-05-31 03:01:52

回答 1查看 985关注 0票数 1

我们正在迁移到AWS EMR/S3，并使用R进行分析(sparklyr库)。我们在S3中有500 in的销售数据，其中包含多个产品的记录。我们想要分析几个产品的数据，并且只想将文件的子集读取到EMR中。

到目前为止，我的理解是spark_read_csv会获取所有的数据。在R/Python/Hive中有没有一种方法只读取我们感兴趣的产品的数据？

hive

pyspark

amazon-emr

sparklyr

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-02 03:53:22

简而言之，格式的选择与有效频谱的选择相反。

使用数据

对于感兴趣的列，interest.

Clustered by ( DataFrameWriter的bucketBy选项或正确的目录结构)的interest.

Clustered by (DataFrameWriter的bucketBy选项和持久化元存储的bucketBy选项)列进行了分区。

在某些情况下可以帮助将搜索范围缩小到特定分区，但是如果filter(product == p1)是高度选择性的，那么您可能找错了工具。

根据要求：

Hadoop上合适的database.

Data仓库。
。

可能是个更好的选择。

您还应该考虑选择更好的存储格式(如拼接)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50611760

复制

相似问题

问从S3读取到Spark时过滤数据
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从S3读取到Spark时过滤数据EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从S3读取到Spark时过滤数据
EN