如何查找在spark文件流中处理的文件_Spark Streaming中的文件流限制_在Spark中快速处理json文件的方法 - 腾讯云开发者社区

scala、apache-spark、spark-dataframe、spark-streaming

我在本地目录中有很多文本文件。火花程序读取所有文件并将其存储到数据库中。目前，尝试使用文本文件流读取文件不起作用。 import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.dstream.DStream /** * Main Program */ object SparkMain extends App { // Create a SparkContext to initialize Spark val sparkConf: SparkCo

浏览 0提问于2018-03-11得票数 0

回答已采纳

1回答

当我尝试Apache的流式Kmeans集群的官方示例时，为什么会在model.predictOnValues中得到一个类型错误？

scala、apache-spark、apache-spark-mllib

我正在尝试流集群示例代码，但是我得到了一个类型错误。这是我的代码： import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.mllib.linalg.Vect

浏览 2提问于2015-02-13得票数 1

回答已采纳

1回答

使用Sparkstreaming从HDFS获取数据

apache-spark、spark-streaming

我正在尝试使用spark streaming从HDFS读取数据。下面是我的代码。 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.hadoop.fs._ import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.mapreduce.lib.input.TextInputFormat val sparkConf = new Sp

浏览 0提问于2016-10-04得票数 0

1回答

如何将每个输入流中的数据集组合为一个

scala、apache-spark、spark-streaming

如何在应用转换之前将每个火花输入流中的数据集组合为一个。我用的是火花-2.0.0 val ssc = new StreamingContext(sc, Seconds(2)) val sqlContext = new SQLContext(sc) val lines = ssc.textFileStream("input") lines.foreachRDD { rdd => val count = rdd.count() if (count > 0) { val dataSet = sqlContext.read.json(rdd)

浏览 2提问于2016-08-08得票数 0

2回答

在侦听端口上触发Scala UDP接收

scala、sockets、apache-spark、udp、spark-streaming

中提到的示例允许我在TCP流中接收数据包并监听端口9999。 import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ // not necessary since Spark 1.3 // Create a local StreamingContext with two working thread and batch interval of 1 second. // The master requires 2 core

浏览 5提问于2016-12-25得票数 3

回答已采纳

1回答

火花流:训练ALS

apache-spark、spark-streaming、recommendation-engine

我是新来的火花流。当我在ALS上训练火花流的时候:这很糟糕。 java.lang.IllegalArgumentException:需求失败:没有MapPartitionsRDD4在randomSplit at streaming.scala:15\提供的评级 import org.apache.spark.mllib.recommendation.ALS\ import org.apache.spark.mllib.recommendation.Rating\ import org.apache.spark.SparkConf\ import org.apache.spark.SparkC

浏览 2提问于2022-05-27得票数 0

1回答

为什么foreachRDD不使用DataFrame填充新的内容？

scala、apache-spark、apache-spark-sql、spark-streaming、apache-spark-mllib

我的问题是，当我将代码转换为流模式并将数据帧放入foreach循环时，数据帧会显示空表！我不填！我也不能将它放入assembler.transform()中。错误是： Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.ClassTag[U])org.apache.spark.streaming.dstream.DStream[U]. Unspecified value parameter mapFunc. v

浏览 3提问于2017-05-25得票数 0

回答已采纳

1回答

为什么StreamingContext以"IllegalArgumentException: requirement :没有注册的输出操作，所以没有执行“来启动IllegalArgumentException？

scala、apache-spark、spark-streaming

我在火星上部署了师父和工人。当我尝试使用SparkStreaming进行一些计算时，它失败了。我在sbt控制台中创建了StreamingContext。请参见下面的错误消息、示例代码、build.sbt和运行程序的命令。错误信息 ERROR StreamingContext: Error starting the context, marking it as stopped java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to exe

浏览 0提问于2017-12-25得票数 3

1回答

如何在scala中保存或打印receiverStream数据

scala、apache-spark、spark-streaming

我使用下面的自定义接收器来使用Scala中Rabbitmq中的数据。 import org.apache.spark.streaming.rabbitmq.RabbitMQUtils import java.io.{BufferedReader, InputStreamReader} import java.net.Socket import java.nio.charset.StandardCharsets import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD imp

浏览 11提问于2022-01-06得票数 0

2回答

使用Spark Streaming从Cassandra读取

scala、spark-streaming、spark-cassandra-connector

当我使用spark streaming从Cassandra读取数据时，我遇到了一个问题。作为上面的链接，我使用 val rdd = ssc.cassandraTable("streaming_test", "key_value").select("key", "value").where("fu = ?", 3) 从cassandra中选择数据，但似乎spark streaming只有一次查询，但我希望它使用间隔10的senconds继续查询。我的代码如下所示，希望您的回复。谢谢! import org.a

浏览 2提问于2015-09-08得票数 10

回答已采纳

1回答

使用Apache Spark蒸从HDFS中流文件

scala、apache-spark、apache-spark-sql、hdfs、spark-streaming

如何使用apache来流HDFS中已经存在的文件？我有一个非常具体的用例，我有数百万的客户数据，我想使用apache流在客户级别处理这些数据。目前，我要做的是获取整个客户数据集和重新分区 it on customerId，并创建100个这样的分区，并确保在单个流中传递唯一的客户多个记录。现在我有了HDFS位置中的所有数据。 hdfs:/tmp/数据集现在，使用上面的HDFS位置，我想要流文件，它将读取拼花文件，获取数据集。我试过以下几样东西，但没有运气。 // start stream val sparkConf = new SparkConf().setAppName("

浏览 0提问于2018-07-06得票数 1

1回答

如何在遗留火花流中使用foreachRDD

apache-spark、spark-streaming

在使用foreachRDD进行CSV数据处理时，我得到了异常。这是我的密码 case class Person(name: String, age: Long) val conf = new SparkConf() conf.setMaster("local[*]") conf.setAppName("CassandraExample").set("spark.driver.allowMultipleContexts", "true") val ssc = new StreamingContext(conf,

浏览 0提问于2019-01-03得票数 0

回答已采纳

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

scala、apache-spark、hadoop、hdfs

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件 scala> sc.stop() scala> import org.apache.spark.SparkConf scala> import org.apache.spark.streaming scala> import org.apache.spark.streaming.{StreamingContext,Seconds} scala&

浏览 12提问于2018-12-21得票数 1

回答已采纳

1回答

HDFS : java.io.FileNotFoundException : File不存在: name._COPYING

scala、hadoop、apache-spark、hdfs、spark-streaming

我正在使用Scala处理星火流。我需要用以下行从HDFS目录中读取一个.csv文件： val lines = ssc.textFileStream("/user/root/") 我使用以下命令行将文件放入HDFS中： hdfs dfs -put ./head40k.csv 对于一个相对较小的文件，它可以很好地工作。当我尝试使用更大的错误时，我会得到以下错误： org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): File does not exist: /user/root/head800k

浏览 3提问于2017-02-04得票数 0

2回答

对于DStream中的每个RDD，如何将其转换为数组或其他一些典型的Java数据类型？

scala、apache-spark、spark-streaming、dstream

我希望将DStream转换为数组、列表等，这样我就可以将其转换为json并在端点上提供服务。我在用apache spark注入twitter数据。如何在数据流statuses上执行此操作？除了print()之外，我似乎不能让任何东西工作。 import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.spark.streaming._ import org.apache.spark.streaming.twitter._ import org.apache.spark.streaming.S

浏览 0提问于2014-07-16得票数 7

回答已采纳

1回答

使用文件流的火花流字计数不打印结果

scala、apache-spark、spark-streaming、filestream

我使用文件作为Spark流，我想计算流中的单词，但是应用程序什么也不打印，这是我的代码。我在Cloudera环境中使用Scala import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext object TwitterHashtagStreaming { def main(args: Array[String]) : Unit = { val conf = new SparkConf().setAp

浏览 4提问于2017-09-26得票数 0

回答已采纳

1回答

如何从Apache中定期附加的日志文件中获取数据？

apache-spark、spark-streaming、access-log、log-analysis

我有一个Apache访问日志文件，它有一些数据，而且还在不断增加。我想使用来分析这些数据。我创建了一个程序，在这个程序中，我使用jssc.textFileStream(directory)函数获取日志数据。但这不符合我的要求。请建议我一些方法来分析该日志文件使用火花。这是我的密码。 SparkConf conf = new SparkConf() .setMaster("spark://192.168.1.9:7077") .setAppName("log streaming")

浏览 1提问于2015-02-16得票数 1

回答已采纳

2回答

SQL over Spark流

apache-spark、spark-streaming

这是通过Spark Streaming运行简单SQL查询的代码。 import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.sql.SQLContext import org.apache.spark.streaming.Duration object StreamingSQL { case class Persons(name: String, age: Int)

浏览 0提问于2014-08-25得票数 11

回答已采纳

1回答

火花流串行化错误

scala、hadoop、apache-spark、spark-streaming、bigdata

我在火花流应用程序中遇到串行化错误.以下是我的司机代码： package com.test import org.apache.spark._ import org.apache.spark.streaming._ import org.json.JSONObject; import java.io.Serializable object SparkFiller extends Serializable{ def main(args: Array[String]): Unit ={ val sparkConf = new SparkConf().setAppName("Spa

浏览 2提问于2017-05-03得票数 1

2回答

在以源为textFileStream的运行中，当火花流程序运行时无法获取任何数据

scala、apache-spark、streaming、spark-streaming、rdd

我在Spark上运行下面的代码 >`spark-shell scala> import org.apache.spark.streaming._ import org.apache.spark.streaming._ scala> import org.apache.spark._ import org.apache.spark._ scala> object sparkClient{ | def main(args : Array[String]) | { | val ssc = new StreamingContext(sc,Seconds(1)) |

浏览 1提问于2017-11-14得票数 1