我有几个C:\Users\USER_NAME\Documents格式的.csv文件,它们的大小超过2 GB。我想使用Apache Spark来读取R中的数据。我使用的是Microsoft R Open 3.3.1和Spark 2.0.1。
我不得不使用Sparklyr包中定义的函数spark_read_csv(...)来读取.csv文件。它要求输入以file://开头的文件路径。我想知道我的例子中正确的文件路径,以file://开头,以.../Documents目录中的文件名结尾。
发布于 2017-05-30 18:05:31
我也遇到过类似的问题。在我的例子中,在使用spark_read_csv调用.csv文件之前,必须将它放入hdfs文件系统中。
我想你可能也有类似的问题。
如果您的群集也在使用hdfs运行,则需要使用:
hdfs dfs -put
最好的,费利克斯
https://stackoverflow.com/questions/40803942
复制相似问题