如何在Scala dataframe中获取列的数据类型

在Scala dataframe中获取列的数据类型可以使用dtypes方法。该方法返回一个包含列名和数据类型的元组数组。每个元组包含两个元素，第一个元素是列名，第二个元素是数据类型。

以下是获取列数据类型的示例代码：

import org.apache.spark.sql.{SparkSession, DataFrame}

val spark = SparkSession.builder()
  .appName("Get column data types")
  .master("local")
  .getOrCreate()

val data = Seq(
  (1, "John", 25),
  (2, "Jane", 30),
  (3, "Bob", 35)
)

val df: DataFrame = spark.createDataFrame(data).toDF("id", "name", "age")

val columnTypes = df.dtypes

columnTypes.foreach { case (columnName, dataType) =>
  println(s"Column $columnName has data type $dataType")
}

输出结果为：

Column id has data type IntegerType
Column name has data type StringType
Column age has data type IntegerType

在这个例子中，我们首先创建了一个SparkSession对象，然后使用createDataFrame方法创建了一个DataFrame对象。接下来，我们使用toDF方法为每列指定了列名。最后，我们使用dtypes方法获取了列的数据类型，并通过遍历输出了每列的名称和数据类型。

推荐的腾讯云相关产品：腾讯云分析型数据库 TDSQL、腾讯云数据仓库 ClickHouse、腾讯云弹性MapReduce TEMR。

腾讯云产品介绍链接地址：

如何在Scala dataframe中获取列的数据类型

、、

如何在Scala中从dataframe中获取列的数据类型。我在各处找到了一些答案，但没有一个是有帮助和准确的。例如，有一个数据类型为(StringStype)的列X，在执行以下操作之后： scala> df.select("X").dtypes res: Array[(String, String我正

浏览 85提问于2019-09-21得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表<em

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

如何将SQL中的日期时间转换为Scala数据类型？

、、、、

我正在将一些数据从MS表导入Scala程序。MS表大约有20个字段，因此我正在创建一个类来加载Scala程序中的那些行。在MS中，有一个列的数据类型是datetime，我如何在Scala程序中存储这种数据类型，我认为Scala没有这种数据类型？在MS中，还有一个列Price (数值(14，4)，而不是null)

浏览 0提问于2019-05-21得票数 0

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的da

浏览 4提问于2016-02-28得票数 3

1回答

使用星火:基于列1的回收箱绑定column1和查找column2平均值

、、

我正在学习和scala语言。所以请帮帮忙。我从查询cassandra中获得3列(c1、c2和c3)，并在scala代码中的dataframe中获取它。我必须保存(bin size = 3) (统计数据，如直方图) c1 ，并在c1回收箱中查找c2和c3的平均值。是否有任何预先构建的函数，我可以用来做这个，而不是传统的for循环，如果条件，以实现

浏览 0提问于2016-04-13得票数 0

1回答

minBy等价于Spark

、、

我正在寻找minBy聚合在Spark中的等效功能，或者可能需要手动聚合。有什么想法吗？谢谢。

浏览 2提问于2018-07-25得票数 2

1回答

按数组列过滤Scala数据帧

、

我的scala dataframe有一个数据类型为array(element: String)的列。我想要显示该列中包含单词"hello“的数据帧的那些行。上面写着：argument 1 requires string type, however, 'my：' is of array<string> type列。

浏览 4提问于2018-09-07得票数 0

回答已采纳

1回答

尝试用两个列[Seq()，String] - Spark创建dataframe

、、

当我在星火壳上运行以下代码时，我会得到一个dataframe：+------++------++------+scala> val df1 = Seq(Seq(Arraymember of Seq

浏览 0提问于2018-04-12得票数 3

回答已采纳

1回答

用循环获取数据表列的数据类型

、、

我想使用循环访问dataframe列的数据类型，然后询问这些数据类型是否是在列表中输入的数据类型之一？我怎么能这么做？ if(st(col) in ("category", "object", "bool")){ }在循环中，获取dataf

浏览 4提问于2022-11-03得票数 0

1回答

java，如何在spark 1.4.1中调用UDF

、、、

在spark 1.4.1中，callUdf方法的参数是没有任何方法可以直接作用于列，如1.5.1中的方法那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collection.Seq<

浏览 1提问于2016-11-28得票数 0

回答已采纳

1回答

Spark Dataframe，使用其他列的函数添加新列

、、、

在我的scala程序中，我有一个包含两列a和b (都是Int类型)的dataframe df。另外，我有一个先前定义的对象obj，其中包含一些方法和属性。在这里，我想使用来自obj的dataframe和属性的当前值向dataframe df添加一个新列。| c || 1 | 0 | -9 || 2 | 5 | -3 | +-

浏览 16提问于2021-10-21得票数 0

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

中创建第4列，其中包含所有这3列的值数组，如| indiana|需要这个数组，因为countVectorizer模型的输入应该是包含值数组的列。它不应该像下面的错误消息中提到的那样是字符串数据类型：线程"main

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

在Spark Scala中对数组的每个成员应用函数

、、

我在一个数据帧中有一个列，它是一个字符串数据类型数组。我需要提取字符串的一部分，因此我需要对数组中的每个元素应用正则表达式。所以我想使用scala Dataframe API来应用它。regexp_extract($"myString","(\\d+)-(\\d+)",1).cast(LongType) 在数组的每个成员上。在一个字符串上做这件事很简单，但是如何在数组的每一项

浏览 20提问于2021-04-24得票数 1

3回答

org.apache.spark.sql.AnalysisException：

、、

Marks];;res6: String = Marks 我希望传递一个变量作为参数，该变量存储dataframe的列值。基于该参数，它将检查条件，计算值，并替换该dataframe中同名的列。实际上，更

浏览 2提问于2020-07-10得票数 0

回答已采纳

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。, (3, "GHIJ")someDF: org.apache.spark.sql.DataFrameABC|| 3| GHIJ|要求:列数和名称可以是任何值。我想在循环中读取行，以逐个获取每一列

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

如何将multipleColumns文件中的XML转换规则传递给Spark中的Dataframe？

、、、、

我有XML文件，其中包含使用withColumn函数在DataFrame上运行的所有转换，如下所示:如何在DataFrame上应用它。我有一个使用Scala ToolBox和runTmirror编写的代码，它在内部编译代码并在DataFrame上运行这些规则。它能很好地工作在不到100列的地方。但是现在需求已经改变了，列的数量从80列增加到210列，所以这段代码失

浏览 0提问于2019-08-31得票数 0

回答已采纳

1回答

为什么pd.read_sql_query不从DB获取时区信息？

、、、

我正在尝试从Oracle的不同日期时间数据类型(带和不带时区详细信息)的不同列中获取数据，并将其转换为DataFrame。如您所见，列c2中有时区。当我尝试使用下面的python代码在熊猫中获取相同的数据时，不知怎么的，时区的详细信息没有被获取。= pd.read_sql_query(select_

浏览 12提问于2022-07-04得票数 0

1回答

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

如何在不使用javaRDD的情况下使用dataframe(spark sql)从Hbase获取数据。”行中的异常: hbase.columns.mapping的行字符串的值无效:java.lang.IllegalArgumentException，城市字符串r: city‘at org.apache.hadoop.hbase.spark.DefaultSource.generateSchemaMappingMap(DefaultSource.s

浏览 4提问于2017-05-12得票数 0

2回答

我可以对列执行哪些操作

、、

ORIGIN_COUNTRY_NAME countUnited States Croatia 1.csv("/data/flight-data/csv/2015-summary.csv"); 我只能使用col函数从DataFrame中获取

浏览 19提问于2019-02-08得票数 0

回答已采纳

1回答

在没有重复列的pyspark中连接

、

这是对scala for thread中给出的解决方案的参考[如何在join?]--+----+>>> |key|val|| a| 1|因此，当"key“在"a”和"b“上都匹配时，我必须从dataframe"a”获取数据。scala中给出的解决方案之一是工作，如下所示

浏览 14提问于2018-09-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Scala dataframe中获取列的数据类型

相关·内容

如何在Scala dataframe中获取列的数据类型

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

如何将SQL中的日期时间转换为Scala数据类型？

DataFrame na()填充方法和不明确引用的问题

使用星火:基于列1的回收箱绑定column1和查找column2平均值

minBy等价于Spark

按数组列过滤Scala数据帧

尝试用两个列[Seq()，String] - Spark创建dataframe

用循环获取数据表列的数据类型

java，如何在spark 1.4.1中调用UDF

Spark Dataframe，使用其他列的函数添加新列

如何创建countVectorizer模型的一个列中包含值数组的火花数据

在Spark Scala中对数组的每个成员应用函数

org.apache.spark.sql.AnalysisException：

N列m行的动态数据帧

如何将multipleColumns文件中的XML转换规则传递给Spark中的Dataframe？

为什么pd.read_sql_query不从DB获取时区信息？

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

我可以对列执行哪些操作

在没有重复列的pyspark中连接

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐