声明包含org.apache.spark.ml.linalg.Vector的Dataframe:列的StructType_数据中包含空列的Dataframe_包含较小列的随机列的大型DataFrame (Pandas) - 腾讯云开发者社区

scala、apache-spark、apache-spark-ml

我有一个名为df1的DataFrame，其方案如下： root |-- features: vector (nullable= true) |-- label: double (nullable = false) 其中features和label是从LabeledPoint获得的。我想生成一个新的DataFrame，但修改instances和features的内容。为了做到这一点，我写了以下代码： va

浏览 17提问于2020-03-26得票数 0

回答已采纳

1回答

从当前dataframe的模式编写Spark数据code模式(代码中)

dataframe、apache-spark、apache-spark-sql、schema

如果手动编写Spark dataframe的整个模式是不可行的(当dataframe中可能有很多字段)，并且您有所述数据have的预期模式时，在代码中声明预期模式的最节省时间的方法是什么？更详细的是： val schema = StructType(Array(StructField("colName", ...You 说，您有一个包含许多字段(可能包含MapT

浏览 3提问于2019-10-16得票数 1

回答已采纳

3回答

修改Spark dataframe中的结构列

apache-spark、pyspark、struct、apache-spark-sql、schema

我有一个PySpark dataframe，其中包含一个列"student“，如下所示： "name" : "kaleem",}在dataframe中，这方面的架构是： name: String, 我需要将该列修改为 &quo

浏览 3提问于2020-05-27得票数 2

回答已采纳

2回答

在中创建StructType的空列

scala、apache-spark

我需要将StructType的空列添加到现有的DataFrame中。尝试了以下几点：和：但是，在上述两种情况下，错误都是不支持的文字类型。

浏览 0提问于2018-11-06得票数 2

回答已采纳

2回答

columnSimilarities()返回到火花数据帧

scala、apache-spark、apache-spark-sql、spark-dataframe、apache-spark-mllib

我对scala和所有的星火环境都很陌生，这一点对我来说还不太清楚：import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType, DoubleType} import org.apache.spark.sql.functions.setOutputC

浏览 4提问于2017-02-25得票数 2

回答已采纳

2回答

是否可以使用StructField创建一个元组类型的PySpark？

pyspark

我需要为Spark中的dataframe创建一个架构。创建常规StructFields (如StringType、IntegerType )没有问题。但是，我想为元组创建一个StructField。我尝试了以下几点： StructField("dst_ip", StringType()), StructField("port

浏览 0提问于2018-04-20得票数 2

回答已采纳

1回答

在databricks scala中，我可以根据模式过滤数据帧中的列吗

scala、dataframe、databricks

我有一个包含7列的dataframe (A，B，C，D，E，F，G) df.schema // output StructField(A,StringType,true),StringType,true), StructField(G,true) ) 有没有什么方法可以通过使用另一个模式来过滤数据帧中的列，如下所示 val newSchema =

浏览 10提问于2020-10-24得票数 0

回答已采纳

1回答

Apache和UDF

java、apache-spark、apache-spark-sql

Spark 1.6 / Java-7# adding new column for the UDF computation:UDF函数创建新StructType并将其放入单元格的正确格式是什么？public static DataFrame compute(SQLContext sqlContext, DataFrame df) {

浏览 2提问于2021-01-13得票数 0

回答已采纳

1回答

Scala :如何检查模式数据是否包含另一个模式

scala、apache-spark、recursion

目标是检查dataframe模式(第一个模式)是否包含另一个模式(第二个模式)，如果不是，则返回我的第一个模式中不存在的所有字段。我们可以有一个简单的或复杂的模式。我认为它应该类似于一个递归函数。复杂模式(嵌套列)的示例.add("name",new StructType() .add("firstnam

浏览 3提问于2022-06-15得票数 0

1回答

为嵌套Json创建Spark结构化流模式

apache-spark、pyspark、spark-streaming、spark-structured-streaming

我想为我的结构化流作业(在python中)定义模式，但我无法以我想要的方式获得dataframe模式。"This is the payload" "regionNumber": 11000002}schema1 = StructType([StructField("messages", ArrayType(

浏览 0提问于2022-03-14得票数 1

回答已采纳

1回答

如何安全地删除不属于架构的列？

apache-spark、pyspark、apache-spark-sql

我有一个包含列：[A, B, ...M]和一个只需要从dataframe中获取很少列的模式的dataframe： StructField(C, StringType(), True),由于我不拥有架构，所以我没有所有列的</e

浏览 2提问于2021-03-20得票数 1

回答已采纳

1回答

星火CountVectorizer返回一个TinyInt

apache-spark、apache-spark-sql、apache-spark-mllib

我首先在这页上问我的问题：features` AS STRUCT<`type`: TINYINT, `size`: INT, `indices`: ARRAY<>, `values`: ARRAY<DOUBLE>>)' due to data type mismatch: canno

浏览 0提问于2018-05-28得票数 2

回答已采纳

1回答

如何使用同一个case类创建多个数据帧

scala、apache-spark、hadoop

假设我想创建多个数据帧，一个有5列，另一个有3列，我如何使用一个case类来实现这个目标？

浏览 2提问于2019-05-14得票数 1

1回答

从以csv分隔的制表符创建数据，其中有些列是json类型，而有些列不是

json、scala、apache-spark、apache-spark-sql

我试图从csv中创建一个(使用scala)，其中包含如下条目:这是由5列组成的单个行条目： {“用户名”：“john_doe，”id：“123411”}{“国家”：“IN”，“城市”：“BOM”}所以，有些列是JSON格式的，而有些则不是。我确实编写了一些代码，将JSON列作为字符串处理，并将它们按行顺序直接添加到dataframe中，但剩下的其他列，我不得不手动将它们添加到dataframe中，因为我创建了一个单独的</e

浏览 0提问于2018-01-29得票数 0

1回答

创建具有嵌套结构的DataFrame并从输入表填充数据

scala、apache-spark、apache-spark-sql

我正在使用Scala中的Spark，希望将现有的数据集(dataframe)转换为包含嵌套结构的新表。columnA columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD，columnE} (创建一个同时包含D和E作为嵌套结构的新列) 转换columnA-C很简单，因为我可以使用.withColumn()，但是我不确定如何指定新的嵌套列</e

浏览 25提问于2021-08-12得票数 0

1回答

加入嵌套的dataframes火花Scala

dataframe、scala、apache-spark、apache-spark-sql

( StructField(records,ArrayType(StructType( StructField.join(dataframe2, dataframe1(&quo

浏览 17提问于2022-09-13得票数 0

回答已采纳

5回答

如何从PySpark中的数据中获取模式定义？

apache-spark、dataframe、pyspark、schema、azure-databricks

在PySpark中，您可以使用这个预定义的模式定义模式和读取数据源，例如： Schema = StructType([ StructField("temperature", DoubleType(),是否有可能从以前已经推断数据的数据中获得模式定义(以上述形式)？df.printSchema()将模式打印为树，但我需要重用该模式，并将其定义为上面，这样我就可以使用以前从另一个数据源推断出来的模式读取数据源。

浏览 0提问于2019-02-03得票数 36

回答已采纳

3回答

如何从spark中的嵌套结构类型中提取列名和数据类型

scala、apache-spark

如何从spark中的嵌套结构类型中提取列名和数据类型(events,StructType( StructField(client,StringType,true), StructField(ad,StructType(

浏览 1提问于2017-02-09得票数 2

回答已采纳

8回答

更改火花数据中列的可空属性

scala、apache-spark、spark-dataframe

创建它的代码是：val inputDF = sqlCtx |-- var2: integer (nullable = false)对于这些变量中的每一个我如何从一开始就声明它，或者在创建它之后在一个新的dataframe中切换它？

浏览 10提问于2015-10-18得票数 43

回答已采纳

1回答

将DataFrame中的新派生列从布尔值转换为整数

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

假设我有一个具有此模式的DataFrame x： StructField("a", DoubleType(), True), \我希望有一个整数派生的列。我可以创建一个布尔列：我的新模式是

浏览 0提问于2015-10-27得票数 18

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云