首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >从S3读取到Spark时过滤数据

从S3读取到Spark时过滤数据
EN

Stack Overflow用户
提问于 2018-05-31 03:01:52
回答 1查看 985关注 0票数 1

我们正在迁移到AWS EMR/S3,并使用R进行分析(sparklyr库)。我们在S3中有500 in的销售数据,其中包含多个产品的记录。我们想要分析几个产品的数据,并且只想将文件的子集读取到EMR中。

到目前为止,我的理解是spark_read_csv会获取所有的数据。在R/Python/Hive中有没有一种方法只读取我们感兴趣的产品的数据?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-02 03:53:22

简而言之,格式的选择与有效频谱的选择相反。

使用数据

对于感兴趣的列,interest.

  • Clustered by ( DataFrameWriterbucketBy选项或正确的目录结构)的interest.

  • Clustered by (DataFrameWriterbucketBy选项和持久化元存储的bucketBy选项)列进行了分区。

在某些情况下可以帮助将搜索范围缩小到特定分区,但是如果filter(product == p1)是高度选择性的,那么您可能找错了工具。

根据要求:

Hadoop上合适的database.

  • Data仓库。

可能是个更好的选择。

您还应该考虑选择更好的存储格式(如拼接)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50611760

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档