独立程序可以通过使用AWS客户端jar文件来读写AWS S3文件而不需要Hadoop。火花程序可以在没有Hadoop的情况下读写文件。然而,Spark需要读写AWS S3文件的程序才能使用Hadoop。即使如此,Spark1.4和Hadoop2.6& 2.7中仍然存在关于S3缺少Hadoop类的运行时错误,即使设置了Hadoop目录。
发布于 2015-07-26 05:59:20
Spark使用Hadoop类来读取S3,但它不需要安装Hadoop (我们使用的是为Hadoop2.4版本预先构建的版本)。只需确保您使用s3n://前缀
https://stackoverflow.com/questions/31633793
复制相似问题