我们正在迁移到AWS EMR/S3,并使用R
进行分析(sparklyr
库)。我们在S3中有500 in的销售数据,其中包含多个产品的记录。我们想要分析几个产品的数据,并且只想将文件的子集读取到EMR中。
到目前为止,我的理解是spark_read_csv
会获取所有的数据。在R/Python/Hive
中有没有一种方法只读取我们感兴趣的产品的数据?
发布于 2018-06-02 03:53:22
简而言之,格式的选择与有效频谱的选择相反。
使用数据
对于感兴趣的列,interest.
DataFrameWriter
的bucketBy
选项或正确的目录结构)的interest.
DataFrameWriter
的bucketBy
选项和持久化元存储的bucketBy
选项)列进行了分区。在某些情况下可以帮助将搜索范围缩小到特定分区,但是如果filter(product == p1)
是高度选择性的,那么您可能找错了工具。
根据要求:
Hadoop上合适的database.
可能是个更好的选择。
您还应该考虑选择更好的存储格式(如拼接)。
https://stackoverflow.com/questions/50611760
复制相似问题