如何将JavaRDD<List<String>>转换为JavaRDD<String>并在不使用"[“和"]”的情况下写入文件

文章/答案/技术大牛

发布

1回答

java、apache-spark

我有一个JavaRDD<List<String>>，当我使用 javacontext.parallelize(rdd).coalesce(1, true).saveAsTextFile("dirname"); 我们可以将JavaRDD<List<String>>转换为JavaRDD<String>并将其写入文件<

浏览 37提问于2019-12-14得票数 0

回答已采纳

6回答

Java - Spark SQL DataFrame映射函数不起作用

java、sql、apache-spark、map-function

在Spark SQL中，当我试图在DataFrame上使用map函数时，我得到了下面的错误。新函数类型中的方法映射(Function1，ClassTag)不适用于参数( DataFrame (){})这是我的测试代码。DataFrame teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19"); List<Str

浏览 0提问于2015-04-22得票数 5

1回答

将JavaPairRDD转换为JavaRDD

java、elasticsearch、apache-spark、rdd、apache-spark-mllib

我想在这个RDD上使用来自MLLib的随机森林。因此，我将其转换为JavaPairRDD.toRDD(esRDD) --这将给我RDD。使用RDD，我将再次转换为JavaRDDJavaRDD<LabeledPoint> testData = split

浏览 4提问于2015-10-08得票数 2

回答已采纳

1回答

将数据集应用于星火中的广播

java、hadoop、apache-spark、spark-dataframe、broadcast

我有两个数据集，我需要注册一个数据集(较小的数据集)作为广播，当我注册时，我无法使用广播功能。以下是代码：Broadcast<JavaRDD(map);

浏览 2提问于2017-01-31得票数 3

回答已采纳

3回答

如何将JavaRDD写入marklogic数据库

apache-spark、marklogic、marklogic-8

我已经读取了一个csv文件，现在我有了一个JavaRDD对象，我必须将它转储到marklogic数据库中。(sc); new Function<String, Record>() {让我们说，如果我们不能直接将JavaRDD写到marklogic，那么

浏览 6提问于2016-12-29得票数 2

2回答

如何解决“类型不匹配:无法从List<String>转换为Iterator<String>”错误

java、apache-spark、java-8

我是java8和spark的新手，在这里我试图用java执行简单的平面图转换程序，但是我在第二行Arrays.asList(e.split(" ")));中遇到了一些平面图转换中的错误，错误是 import java.util.Arrays;

浏览 0提问于2019-01-14得票数 3

回答已采纳

1回答

如何计算星火JavaRDD中当前行与前一行的差值

java、apache-spark、rdd

在对这个.log进行排序之后，我将JavaRDD文件解析为JavaRDD，现在我已经进行了，例如oldJavaRDD2016-03-28 | 9 | object1 | region1因此，我必须计算当前行和前一行之间的时间(在某些情况下还使用标志

浏览 2提问于2016-03-28得票数 1

回答已采纳

4回答

Elasticsearch-Spark序列化不适用于内部类

elasticsearch、apache-spark

例如： private List<Bar> bars = new ArrayList<Bar>(); } List<Foo> foos =javaRDD = jsc.parallelize(ImmutableList.copy

浏览 0提问于2015-06-02得票数 5

1回答

替代不推荐的方法sparksession.read.json(JavaRDD)

java、apache-spark、apache-spark-sql

在将json文件转换为parquet文件之前，我使用sparksessions ().json方法来读取json文件，并且它工作得很好，但是.json(JAVARDD)方法显示为不推荐的方法。我们能有替代的方法吗。使用当前的java : spark版本2.4.3 我已经看过了火花库的文档，但是没有得到任何替代的方法。JavaSparkContext sc1 = J

浏览 2提问于2019-08-05得票数 2

回答已采纳

1回答

将apache spark rdd写入多个s3文件夹

apache-spark、amazon-s3、java-8、partition

有一个Foo对象的JavaRDD。而且，Foo有一个日期列。class Foo { String date;这是Foo对象的列表，2, 2019-08-014, 2019理想情况下，我们需要首先根据日期对RDD进行分区，然后将每个分区写入特定的输出路径。现在，我不确定如何将这对RDD写入s3。 //crea

浏览 17提问于2019-08-08得票数 0

3回答

将JavaRDD转换为DataFrame时的火花错误: java.util.Arrays$ArrayList不是array<string>模式的有效外部类型

java、apache-spark

我正在使用Spark2.1.0。对于下面的代码，它读取文本文件并将内容转换为DataFrame，然后输入到Word2Vector模型中：JavaRDD<List<String>> lists = lines.map(new Function<String, List<String

浏览 3提问于2017-04-23得票数 3

2回答

星星2.3-用sc.textFile获取文件名？

java、apache-spark、apache-spark-sql

我想在插入DB时向每个行添加文件名。获取文件夹作为输入。使用textFile(...)方法加载文件夹： JavaRDD<S

浏览 0提问于2018-04-26得票数 2

回答已采纳

1回答

星星之火Java映射函数将被执行两次

java、apache-spark、apache-spark-sql、rdd

我有上面的代码作为火花驱动程序，当我执行我的程序，它正确地保存所需的数据作为Parquet文件。String indexFile = "index.txt";JavaRDD<String> jsonStringRDD = indexData.map(new Function<

浏览 0提问于2016-10-16得票数 5

回答已采纳

3回答

Elasticearch和Spark:更新现有实体

elasticsearch、apache-spark

什么是正确的方式，当使用弹性搜索与星火，更新现有的实体？ JavaRDD<Map<String, Object>> esRDD = JavaEsSpark.esRDD(jsc, INDEX_NAME+"/

浏览 1提问于2015-06-07得票数 5

1回答

如何将JavaRDD<Integer>转换为DataFrame或DataSet

apache-spark、apache-spark-sql、rdd、sparkcore

(mappartRdd)转换为Java中的DataFrame。我使用下面的代码将JavaRdd转换为DataFrame/DataSet。sessn.createDataFrame(mappartRdd, beanClass); 我为createDataFrame尝试了多个选项和不同的重载函数。我正面临着将其转换为DF的问题。与scala不同的是，在Java中没有像toDF()这样的函数来将

浏览 3提问于2020-06-12得票数 0

回答已采纳

1回答

流文件火花中的流口水

java、apache-spark、hadoop、spark-streaming、drools

我们能够成功地将drools与spark集成在一起，当我们尝试从Drools中应用规则时，我们可以对批处理文件进行处理，这是在HDFS中存在的，但是我们尝试使用drools进行流文件，以便我们能够立即做出决定，但是我们不知道如何做，it.Below是我们试图实现的代码的片段。<String> javaRDD = sc.textFile("/user/root/spark/sample.dat

浏览 2提问于2015-02-09得票数 5

2回答

如何在Apache Spark中为两个不同结构的DataFrames实现NOT

java、sql、apache-spark、apache-spark-sql

我在我的Java应用程序中使用Apache。我有两个DataFrames：df1和df2。df1包含带有email、firstName和lastName的Rows。df2包含带有email的Rows。有什么方法可以让Apache做到这一点吗？我试图从df1和df2创建df1和df2，方法是将它们转换为toJavaRDD(

浏览 3提问于2015-11-11得票数 7

回答已采纳

2回答

Spark中的并发作业执行

java、multithreading、apache-spark、hadoop-yarn

我使用了以下格式的输入数据：13514 我使用下面的代码片段使用多线程将threadName; private JavaRDD<String> javaRDD; // private Ja

浏览 1提问于2015-06-16得票数 6

2回答

在星火中映射s3键到值的正确方法

apache-spark、amazon-s3

我在一个文件中有一个s3键列表，我希望将它们的值输入到一个RDD中。正确的方法是什么？下面的代码是我当前的尝试。从s3中提取文件的调用在map函数之外工作，但会在其内部导致空指针异常。是否有方法可以在不将文件放入RDD的情况下从S3读取文件？JavaRDD<String> keys = spark.sparkContext().textFile("/

浏览 4提问于2017-11-02得票数 1

回答已采纳

4回答

将Java中的地图列表转换为spark中的数据集

java、apache-spark、apache-spark-dataset

List<Map<String, Object>> dataList = new ArrayList<>();row1我尝试使用以下命令将其转换为JavaRDD<Map<String, Object>> JavaRDD<Map<String,Objec

浏览 46提问于2019-08-06得票数 3

点击加载更多