文章/答案/技术大牛

发布

社区首页 >问答首页 >使用火花流从http创建分析

问使用火花流从http创建分析
EN

Stack Overflow用户

提问于 2016-08-03 06:33:21

回答 1查看 249关注 0票数 0

嗨，我的reqmnt是从http://10.3.9.34:9900/messages创建分析，即从http://10.3.9.34:9900/messages中提取数据，并将这些数据放在HDFS /user/cloudera/flume和HDFS报告中，使用Tableau或HUE UI。我在code 5.5的星火壳的scala控制台尝试了下面的代码，但是无法从http链接中获取数据。

import org.apache.spark.SparkContext
val dataRDD = sc.textFile("http://10.3.9.34:9900/messages")
dataRDD.collect().foreach(println)
dataRDD.count()
dataRDD.saveAsTextFile("/user/cloudera/flume")

我在scala控制台获得了以下错误：

org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2623) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2637) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:93) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2680) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2662) at org.apache.hadooporg.apache.hadoop.fs.Path.getFileSystem(Path.java:296) .fs.FileSystem.get(FileSystem.java:379)

scala

hadoop

apache-spark

spark-streaming

回答 1

Stack Overflow用户

发布于 2016-08-03 06:41:18

您不能使用http端点作为输入，它需要是一个文件系统，如HDFS、S3或local。

您需要一个单独的进程，从这个端点提取数据，也许可以使用类似于Apache NiFi的方法将数据放到文件系统上，然后将其作为Spark的输入。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38736037

复制

相似问题

问使用火花流从http创建分析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用火花流从http创建分析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用火花流从http创建分析
EN