Spark Scala:将列转换为列表_将列表转换为数据帧spark scala_如何使用scala和spark将列表转换为RDD - 腾讯云开发者社区

、、、、

我有一个带有pandas.tslib.Timestamp类型时间戳列的熊猫数据。我看了一下“createDataFrame”()中的pyspark源代码，它们似乎将数据转换为numpy记录数组，并将其转换为列表：但是，时间戳类型在此过程中转换为一个longs列表： > df = pd.DataFrame(pd.date_range(start=da

浏览 2提问于2017-07-25得票数 5

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

该表具有350+列，其中许多列被配置为布尔值。at scala.collection.immutable.StringOps.toBoolean(StringOps.scala:30) at org.apache.spark.sql.execution.datasources.csv.CSVTypeC

浏览 1提问于2017-11-22得票数 3

1回答

摧毁星火DataFrame

、、、、

我使用的是火花和Scala。Spark版本的1.5和我正试图将具有名称值组合的输入数据name转换为一个新的数据name，其中所有的名称都被转换为列，并将值转换为行。Country UK 4 State MH 5 State NJ 4 India MH

浏览 10提问于2016-03-02得票数 5

1回答

为什么JavaNGramExample会在"java.lang.ClassNotFoundException: scala.collection.GenTraversableOnce$class“中失败

、、

我正在spark中尝试一个简单的NGram示例 <dependencies> <groupId>org.apache.spark<> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.10</E

浏览 3提问于2017-12-03得票数 1

回答已采纳

2回答

我目前正在使用以下方法来连接dataframe中的列： val Finalraw = raw.withColumn("primarykey", concat($"prod_id",$"frequency",$"fee_type_code")) 但问题是，我不想硬编码列，因为列数每次都在变化。我有一个由列名组成的列表： columnNames: List[String] = List("prod_id", "freq

浏览 31提问于2019-01-23得票数 0

回答已采纳

1回答

Spark Scala:将列转换为列表

、

我有下面的数据结构来表示列名(第一列)和它的值-类似这样： |col1 |col2 |col3 |columnname | +----------

浏览 13提问于2019-10-12得票数 0

2回答

将拼花文件存储到PostgreSQL数据库中

、、、、

我正在使用Spark并编写文件，我使用的是Spark的write.jdbc函数。对于长、十进制或文本这样的拼花列类型，一切都可以正常工作。问题在于像Map这样的复杂类型。因为我知道PostgreSQL可以自动将文本数据类型转换为json (使用强制转换操作)，所以我将映射转储到json字符串。但是星火程序抱怨说，我们试图将“字符变化”数据类型插入到"json“类型的列中。这表明PostgreSQL不会自动将

浏览 1提问于2018-04-20得票数 2

回答已采纳

1回答

Spark Scala:使用$的符号中的功能差异？

、、

下面两个表达式之间有功能上的区别吗？对我来说，结果看起来是一样的，但很好奇是否有未知的未知。$符号表示什么/它是如何读取的？ df1.orderBy($"reasonCode".asc).show(10, false)df1.orderBy(asc("reasonCode")).show(10, false)

浏览 126提问于2021-01-13得票数 2

回答已采纳

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。

浏览 0提问于2016-10-07得票数 9

回答已采纳

2回答

如何筛选出包含其他数据帧中的char序列的行？

、、

因此，如果df2中的值是df1中的“类似”键，我将尝试从df1中删除行。我不确定这是否可行，或者是否需要首先将df1更改为列表？

浏览 4提问于2018-08-02得票数 1

回答已采纳

1回答

spark sql类似于区分大小写吗？

、、

看起来spark sql对" like“查询是区分大小写的，对吧？spark.sql("select distinct status, length(status) from table")Active|6 不返回值 spark.sql("select distinct status

浏览 8提问于2018-11-28得票数 4

3回答

如何从多个列表创建pyspark dataframe

、、

我想将两个列表转换为pyspark数据帧，其中列表是各自的列。

浏览 0提问于2018-10-13得票数 3

回答已采纳

2回答

星星之火:写入数据时“请求的数组大小超过VM限制”

、、、、

=2000 --conf spark.dynamicAllocation.enabled=true |-- properties: struct (nullable = false)我将其转换为一个列表但是，当

浏览 0提问于2018-03-30得票数 0

1回答

Spark :将bigint转换为时间戳

我有一个有bigint列的Dataframe。如何将bigint列转换为scala spark中的时间戳

浏览 1提问于2019-07-23得票数 4

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因为不能将org.apache.<

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

将sql.ColumnName强制转换为Double

、、、、

我需要调用scala.math.pow来计算一个数字，但是在将scala sql中创建的列转换为双精度值时遇到了问题。我有一个spark sql数据框，它有一个列，我试图使用此UDL将其转换为双精度。val joinDFAdjusted = join.withColumn(“numInLinks”, toDouble(joinDF(“nu

浏览 3提问于2016-12-02得票数 0

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleTypeat org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264) at <e

浏览 7提问于2017-06-30得票数 2

3回答

使用Joda时间将字符串转换为unsupportedOperationException错误

、、、

我使用joda.time.Datetime库将字符串转换为datetime字段，但它引发不受支持的异常，这里是主要类代码：testData(dateYMD)}.toDF().show() p(8)是列，列中定义了数据类型日期时间，列的CSV数据的值类

浏览 4提问于2016-01-14得票数 2

回答已采纳

1回答

没有对应于产品的Java类，可以用Base找到

、、、、

我有每个类的两个列表(listA和listB)。当我想合并这两个列表时，我无法将最终列表转换为ApacheSpark1.6.1数据集。++ listB Apache Spark:54) at org.apache.spark.sql.catalyst.encoders.ExpressionEnco

浏览 1提问于2016-05-29得票数 5

回答已采纳

2回答