从spark scala DataFrame中选择名称包含特定字符串的列_使用Scala删除列中包含特定值的Spark DataFrame行_Spark scala -从dataframe列解析json并返回包含列的RDD - 腾讯云开发者社区

、、

我有一个这样的DataFrame。Ali lhr 2.0 0.0xyz khi 1.0 1.0 我想删除不包含字符串的列cols.diff(selection) res.show() 但我得到的是

浏览 55提问于2020-04-23得票数 2

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列</

浏览 4提问于2016-10-10得票数 7

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了 df.select(column_name

浏览 21提问于2015-07-15得票数 22

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用s

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:列数和名称可以是任何值。我想在循环中读取行，以逐个获

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

查询parquet表上的单元时损坏的十进制值

、、、

星火是返回垃圾/十进制字段的值时，查询一个外部蜂巢表在星火代码中使用星火SQL。在我的应用程序流中，火花进程最初将数据直接写入存在外部Hive表的HDFS中。当第二个Spark进程试图使用Spark从Hive表中消费时，会获取不正确的数据。scala> val =spark.sql(“选择'dummy‘作为名称，10.

浏览 7提问于2020-10-07得票数 0

回答已采纳

1回答

转换数据列值并应用SHA2掩蔽逻辑

、、、

我有一个dataframe，它包含来自Hive的属性表和主表。我想删除列，然后应用掩蔽逻辑(SHA2)。将postgre中的属性配置读取为Spark/scala作业中的Dataframe。主蜂箱表输出应该是任何人

浏览 0提问于2021-03-26得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

，后者是DF中的列。的值没有被转换成字符串来解析为日期。这就是发生的事吗？如果是，如何将列值转换为字符串？下面是我从DF中使用的列的架构： |-- past_due: integer (nullable = true) |-- item_decision: string (nullable

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

如何在不使用javaRDD的情况下使用dataframe(spark sql)从Hbase获取数据。”行中的异常: hbase.columns.mapping的行字符串的值无效:java.lang.IllegalArgumentException，城市字符串r: city‘at org.apache.hadoop.hbase.spark.DefaultSource.generateSchemaMap

浏览 4提问于2017-05-12得票数 0

8回答

从星火DataFrame中选择特定列

、、

我已经将CSV数据加载到星火DataFrame中。我需要将这个dataframe分割成两个不同的dataframe，其中每个数据都包含来自原始dataframe的一组列。如何根据列在星火数据中选择一个子集？

浏览 7提问于2018-08-04得票数 40

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的</em

浏览 1提问于2021-02-12得票数 0

3回答

使用Scala/Spark在列中复制值

、、、

我有一个特定的问题，需要使用Scala/SPARK来解决。我在Dataframe中有一列，如下所示Tag2 Tag1 Tag3 Tag2 现在，我想在dataframe中包含一个新列，如下所示，格式如下所示。/Spark中完成吗？我是Scala</em

浏览 0提问于2017-11-04得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如：bartenderemployee...我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[peoplewithjob = people.f

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

如何从列表中创建spark数据帧

、

我有一个scala List List[Any] = List("a", "b",...)，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myLis

浏览 2提问于2018-09-26得票数 1

1回答

如何将火花数据映射转换为JSON映射？

、

我目前有一个由两列组成的csv："abc","123""def","123"{"abc":["123","234"],"def":["123"]} 我创建了一个数据框架，然后使用_list/<e

浏览 5提问于2022-09-13得票数 1

1回答

从星火中的多个文件夹加载多个文件

、

我有一个数据集，在主文件夹中包含多个文件夹，每个文件夹包含多个CSV文件。每个CSV文件都有三列，名为X、Y和Z。我想创建一个dataframe，以便前三列是三列X，Y，Z。我还想要另外两列，例如第四列包含读取CSV文件的文件夹的名称。第五列包含CSV文件的名称。如何在Scala</e

浏览 5提问于2020-04-15得票数 5

回答已采纳

1回答

在木星中使用Apache内核的有限Scala语法

、、、

OS X El Capitan 10.11.6Scala 2.11.8根据我从收到的指令，我已经通过使用成功地将Spark - Scala内核包含到了我的木星笔记本中。toDF("guy", "girl") 但是，当尝试使用Spark - Scala

浏览 14提问于2017-11-06得票数 0

回答已采纳

2回答

按数据类型在Scala星火中丢弃列

、

df1.drop($"colName")将按其名称删除列。是否有一种方法可以将此命令改为数据类型呢？

浏览 1提问于2017-01-29得票数 6

回答已采纳

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

、、、、

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。@f71b0bce at

浏览 28提问于2016-08-09得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云