使用scala在Spark DataFrame中添加新行

文章/答案/技术大牛

发布

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所

浏览 4提问于2016-10-10得票数 7

回答已采纳

4回答

、、

我有一个数据框架，如下所示： Name_Index City_Index 0.0 2.0 .master(&qu

浏览 219提问于2020-04-23得票数 2

回答已采纳

1回答

Spark在添加随机双列时，在所有行中都有重复值。

、、

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame更改为Dataset并

浏览 2提问于2019-04-26得票数 2

回答已采纳

2回答

在星火中向DataFrame添加一个新列

、、、、

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。scala.MatchError: 0 (of class java.lang.Character) at org.apache.spark.sql.cat

浏览 4提问于2016-05-02得票数 0

回答已采纳

1回答

我的本地火星雨少了什么？

、

在本地主机上添加broadcast_2_piece0 :35556(大小:19.6KB，免费: 511.1 MB) 16/12/29 11:55:36 INFO spark.SparkContext:创建广播_3_piece0 (估计大小为19.6KB，自由329.2 KB) 16/12/29 11:55:36 INFO storage.BlockManagerInfo:在本地主机上添加broadcast_:-2回溯(最近一次调用)：文件“，第1行</em

浏览 5提问于2016-12-29得票数 1

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示：(unix_timestamp$$anonfun$resolve$1.apply(DataFrame.scala:159) at org.apache.spark.sql.DataFrame$$anonfun$resolve$1.apply(DataFrame.sca

浏览 2提问于2015-12-29得票数 0

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。我试图通过使用DF和when向dateDiff添加一个新列，后者使用dateDiff来获取日期之间的差异。(DataFrame.scala:2099) at(<em

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表中插入空值？<in

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

简单sparksql联接查询中丢失的执行器

、、

在.cache行分配了200个任务。失败的地方！我知道我不是在缓存一个巨大的数据，它只是一个数字，为什么它在这里失败了。(DataFrame.scala:1903) at org.apache.spark.sql.DataFrame.collect(DataFrame.scala:1384) org.apache.spark.sql.DataFrame.head(DataFrame

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

用农业火花和scala进行选择

、、

).alias('time_window')) \.agg({'total_score': 'sum'})我想让它在scala语言中运行，我做了这个，我得到了，我错了，我没有取消错误，因为scala是新的 val result=df.select('*', date_format(df("time_window"),"yyyy-M

浏览 0提问于2017-02-27得票数 0

1回答

使用“发现”参数获取com.sap.spark.vora.VoraConfigurationException

、、

我在SLES 11 SP3上安装了HDP 2.3.4集群和3台机器，并安装了Vora1.2 at org.apache.spark

浏览 3提问于2016-05-13得票数 0

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。但是当我尝试运行它时，我会收到以下错误- 线程"main“中的异常:需求在org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveReferences:36) at org.apache.spark.sql.execution.Quer

浏览 1提问于2016-07-03得票数 1

回答已采纳

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDDToDataSet = rddToDF.as[Stri

浏览 0提问于2016-10-07得票数 6

回答已采纳

1回答

在普通的Scala中有等效的爆炸函数吗？

我试图寻找爆炸功能或它的等价物在普通的scala，而不是火花。使用Spark中的below函数，我能够将一个具有多个元素的行平平成多个行，如下所示。scala> import org.apache.spark.sql.functions.explode+---+------+ <em

浏览 2提问于2020-02-24得票数 1

回答已采纳

1回答

使用现有列使用Scala添加新列

、

嗨，我想在DataFrame的每一行中添加使用现有列的新列，我在Scala中尝试这样做.df是包含可变列数的dataframe，只能在运行时决定。导入spark.implicits._支持基本类型(Int、String等)和Product (case类)，以便在以后的版本中添加其他类型的序列化支持。方法映射的参数不足：(隐含证据$7: org.apache.<em

浏览 2提问于2017-10-09得票数 1

1回答

在java中通过Spark存储orc格式

、、、

我正在使用spark 1.3.1，我想以ORC格式以蜂巢形式存储数据。 at org.apache.spark.sql.sources.ResolvedDataSource$.apply(ddl.scala:237) at org.apache.spark.sq

浏览 5提问于2015-08-18得票数 0

回答已采纳

1回答

运行火花-使用Gradle从Intellij中移出红移

、

df.registerTempTable("table")这是在scala(DataFrame.scala:1314)at org.apache.sp

浏览 4提问于2015-11-04得票数 1

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？res5: org.apache.spark.sql.DataFra

浏览 1提问于2016-11-15得票数 11

回答已采纳

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { impor

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

无法从HBase访问运行在安全集群上的数据库？

、、、、

每次我们创建jar文件并在集群中运行时。但是这对于开发和调试并没有用。如何在类路径中设置hbase-site.xml？我下载了*site.xml文件，尝试将hbase-site.xml, core-site.xml and hdfs-site.xml作为source文件夹添加，并尝试从项目构建路径中将该文件添加为外部类文件夹我们是否可以在hbase-site.xml中设置sqlContext，因为我使用sqlContext来使用HortonWorks

浏览 4提问于2016-11-18得票数 0

点击加载更多

将StringType列添加到现有的DataFrame中，然后应用默认值