嗨,我的reqmnt是从http://10.3.9.34:9900/messages
创建分析,即从http://10.3.9.34:9900/messages
中提取数据,并将这些数据放在HDFS /user/cloudera/flume
和HDFS报告中,使用Tableau或HUE UI。我在code 5.5的星火壳的scala控制台尝试了下面的代码,但是无法从http链接中获取数据。
import org.apache.spark.SparkContext
val dataRDD = sc.textFile("http://10.3.9.34:9900/messages")
dataRDD.collect().foreach(println)
dataRDD.count()
dataRDD.saveAsTextFile("/user/cloudera/flume")
我在scala控制台获得了以下错误:
org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2623) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2637) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:93) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2680) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2662) at org.apache.hadooporg.apache.hadoop.fs.Path.getFileSystem(Path.java:296) .fs.FileSystem.get(FileSystem.java:379)
发布于 2016-08-03 06:41:18
您不能使用http端点作为输入,它需要是一个文件系统,如HDFS
、S3
或local
。
您需要一个单独的进程,从这个端点提取数据,也许可以使用类似于Apache NiFi的方法将数据放到文件系统上,然后将其作为Spark的输入。
https://stackoverflow.com/questions/38736037
复制相似问题