首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用火花流从http创建分析

使用火花流从http创建分析
EN

Stack Overflow用户
提问于 2016-08-03 06:33:21
回答 1查看 249关注 0票数 0

嗨,我的reqmnt是从http://10.3.9.34:9900/messages创建分析,即从http://10.3.9.34:9900/messages中提取数据,并将这些数据放在HDFS /user/cloudera/flume和HDFS报告中,使用Tableau或HUE UI。我在code 5.5的星火壳的scala控制台尝试了下面的代码,但是无法从http链接中获取数据。

代码语言:javascript
运行
复制
import org.apache.spark.SparkContext
val dataRDD = sc.textFile("http://10.3.9.34:9900/messages")
dataRDD.collect().foreach(println)
dataRDD.count()
dataRDD.saveAsTextFile("/user/cloudera/flume")

我在scala控制台获得了以下错误:

org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2623) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2637) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:93) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2680) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2662) at org.apache.hadooporg.apache.hadoop.fs.Path.getFileSystem(Path.java:296) .fs.FileSystem.get(FileSystem.java:379)

EN

回答 1

Stack Overflow用户

发布于 2016-08-03 06:41:18

您不能使用http端点作为输入,它需要是一个文件系统,如HDFSS3local

您需要一个单独的进程,从这个端点提取数据,也许可以使用类似于Apache NiFi的方法将数据放到文件系统上,然后将其作为Spark的输入。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38736037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档