我正在使用Spark2.0来分析一个数据集。有一列包含如下字符串数据:
A,C
A,B
A
B
B,C
我希望得到一个包含列中所有不同项的JavaRDD,如下所示:
A
B
C
如何在火花中有效地做到这一点?我在Java中使用Spark,但是Scala示例或指针是有用的。
编辑:我尝试过使用flatMap,但是我的实现非常慢。
JavaRDD<String> d = dataset.flatMap(s -> Arrays.asList(s.split(",")).iterator())
我想知道火花scala中数据帧的每一列的缺失值的计数数。
示例输出,
文件头:col1misgcount:2,col2misscount:1,col3misscount:2
我的密码
val samplesqlDF = spark.sql("SELECT * FROM sampletable")
samplesqlDF.show()
样本表数据:
|----------------------------------------------------------------|
| name | age | degre
我用下面的代码得到了我的spark数据帧
scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)
scala> import sqlContext.implicits._
scala> case class Wiki(project: String, title: String, count: Int, byte_size: String)
scala> val data = sc.textFile("s3n://+++/").map(_.split(" ")).
试着用火花sql来完成以下任务.
我有一个表值,如
我需要输出就像
1 1 has repeated for 3,3 has repeated for 3 times.....
2 2 has repeated for 3,3 has repeated for two times.......
从我的结尾开始,我使用row1将数据分组,以获得相同的id
scala> val data=rows.groupBy("row1")
在此之后,我无法用",“来拆分row2,并计算每个值的出现.
有人能帮上忙
我是阿帕奇星火的新手。我想在使用scala的商店中找到独特的产品。
文件中的数据如下所示,每一行中的第一列表示存储名。
Sears,shoe,ring,pan,shirt,pen
Walmart,ring,pan,hat,meat,watch
Target,shoe,pan,shirt,hat,watch
我希望输出是
Only Walmart has Meat.
only Sears has Pen.
我尝试了以下的scala火花,能够得到独特的产品,但不知道如何获得这些产品的商店名称。请帮帮忙。
val filerdd = sc.textFile("file:///home/hdu
我试图将我的数据分割到上,我使用了代码;
```train, validation, test = movie_ratings_spark.randomSplit([6, 2, 2])
高速缓存数据
train.cache()
validation.cache()
test.cache()`
I get the following error;
```javascript
: java.lang.ClassCastException: java.lang.Integer cannot be cast to java.lang.Double
at scala.runtime.Boxes