spark dataframe到Scala中的pairedRDD

文章/答案/技术大牛

发布

3回答

、、、

我是Spark的新手，我想把dataframe转换成pairedRDD。我的DataFrame看起来像这样：tag1,13.87,5tag3,35.00,5tag5,11.0,5我想要PairedRDD(标记名，值)。value) => (tagname)->value})error: constructor cannot be inst

浏览 2提问于2017-08-21得票数 0

回答已采纳

1回答

Spark JavaRdd到Dataframe的转换代码停止，没有错误

、、、

我正在尝试将JavaRDD<PageRankCase>类转换为DataFrame，以便稍后可以将其保存到parquet文件中，但代码执行在createDataFrame函数调用时停止，当我处理异常时，它会返回这是我的课。，将这个类转换成DataFrame。("coming here too"); finalFrame.write().parquet(rdfanalyzer.spark.Configuration.storage() + "sib200Pag

浏览 18提问于2017-01-28得票数 0

回答已采纳

1回答

如何根据条件将Spark -多行合并为一个

、、

Dataframe 1：12345,B,D,2002-11-12,MobileDataframe2我必须加入Dataframe 1和Dataframe 2，并在DF2中的每条记录的输出中生成1行记录。我的输出应该如下，12345,Y,Y,2002-11-12,MobileCol 1-不

浏览 0提问于2020-08-28得票数 0

1回答

Spark中区分大小写的拼图模式合并

、

我正在试着用Spark加载和分析一些镶木地板文件。我使用schemaMerge加载文件，因为较新的文件有一些额外的列。此外，一些文件的列名是小写的，而其他文件的列名是大写的。integer,我遇到了一个关于ParquetFileFormat类的inferSchema方法的问题。模式合并被委托给spark sql的StructType merge方法。据我所知，该方法

浏览 23提问于2019-07-31得票数 4

回答已采纳

2回答

简单sparksql联接查询中丢失的执行器

、、

失败的地方！我知道我不是在缓存一个巨大的数据，它只是一个数字，为什么它在这里失败了。) at org.apache.spark.sql.DataFrame$$anonfun$collect$1.apply(DataFrame.scala:1385) at org.apache.spark.sql.DataFrame(DataFrame.scala:1903) at org.apache.spark.

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

Spark:加载或选择ORC格式的配置单元表

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。DataFrame.scala:2086) at org.apache.spark.sql.DataFrame

浏览 21提问于2017-04-20得票数 3

1回答

运行火花-使用Gradle从Intellij中移出红移

、

对象的main方法中运行上述代码时所收到的错误：at org.apache.spark.sql.DataFrame.take(DataFrame.scala:1377) at org.apache.spa

浏览 4提问于2015-11-04得票数 1

回答已采纳

1回答

在Apache Spark 2.1.0中使用Except on DataFrame

、、

except能在Spark DataFrames上正常工作吗？为什么tail1仍然包含"a“而去掉了"b”？<e

浏览 2提问于2017-04-19得票数 0

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDD

浏览 0提问于2016-10-07得票数 6

回答已采纳

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

2回答

/Dataset为每一种关键的有效方法找到最常见的值

、、、

问题：我有一个问题要映射spark中键的最常见值(使用scala)。输出key2 = valuec到目前为止，尝试过：我试图在RDD中按组映射和减少(key,value),count，它会产生逻辑，但我不能将其转换为sparksql(DataFrame/Dataset) (因为我希望在网络上进行最少的洗牌)。setAppName("example") val sc = new SparkC

浏览 0提问于2017-11-14得票数 2

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。，后者是DF中的列。(DataFrame.scala:2099) at(DataFrame.<

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

星火卡桑德拉用区分大小写的名字写UDT失败

、、、

当使用区分大小写的字段名时，火花连接器写入失败时出现java.lang.IllegalArgumentException: udtId is not a field defined in this我需要卡桑德拉表中的字段来维护案件。所以我用引号来创建它们。my_keyspace.my_table ( "someCol" text,); 我<

浏览 7提问于2020-09-14得票数 2

回答已采纳

4回答

如何在Spark中强制DataFrame求值

、

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3(DataFrame.

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

无法从HBase访问运行在安全集群上的数据库？

、、、、

尝试从Windows中的Eclipse程序连接到Windows。如何在类路径中设置hbase-site.xml？) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(<em

浏览 4提问于2016-11-18得票数 0

1回答

奴隶的迷失和缓慢的加入火花

、、、

$1$1.apply(DataFrame.scala:1499) at org.apache.spark.sql.DataFrame$$anonfun$org$apache$spark$sql$DataFrame:2086) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame.<e

浏览 4提问于2016-11-16得票数 0

2回答

如何将RDD的一列与(A)相同(B)不同的RDD的其他列映射？

、

这里的初学者，我正在使用Spark2.1.1和Scala2.11.8。(String, String, String, String, String, String) = (" p69465323_serv80i"," 7 "," fb_406423006398063我怎样才能做到(a)在相同的RDD (b)在不同的RDD(B)？

浏览 2提问于2017-06-29得票数 0

回答已采纳

1回答

SparkR中的scala.MatchError (使用Spark* SQL的DataFrame)*

、、、

我的数据帧结构： |-- c1_x: double (nullable = true) |-- c3_z: doubleDataFrame.scala:2125) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame.scala</em

浏览 2提问于2016-07-27得票数 1

1回答

我的本地火星雨少了什么？

、

估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2_piece0存储为内存中的字节(估计大小为:块broadcast_3存储为内存中的值(估计大小为212.1 KB，空闲309.7 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:内存中存储为字节的块(DataFrame.

浏览 5提问于2016-12-29得票数 1

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

、、、

我用的是火花1.5。我有两份表格的数据：res1: org.apache.spark.sql.DataFrame = [basket_id: string,at org.apache.spark.sql.DataFrame.collect(DataFrame.scala:1385) at org.apache.spark.sql.Dat

浏览 5提问于2016-12-13得票数 71

回答已采纳

点击加载更多