在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

在pyspark中，Inferschema是一个函数，用于自动推断数据集的模式（schema）。当使用Inferschema函数时，它会检测数据集中的每一列，并尝试猜测每列的数据类型。然而，有时候Inferschema函数可能会将列检测为字符串类型，而不是parquet文件中的双精度类型。

这种情况可能是由于以下原因导致的：

数据集中的某些值可能包含非数字字符，导致Inferschema函数将该列检测为字符串类型。
数据集中的某些值可能缺失或格式不正确，导致Inferschema函数无法正确推断列的数据类型。
数据集中的某些列可能包含混合类型的值，使得Inferschema函数无法确定应该将列检测为哪种数据类型。

为了解决这个问题，可以考虑以下几种方法：

手动指定模式：可以通过手动指定模式来确保列的数据类型被正确推断。可以使用pyspark中的StructType和StructField来定义模式，并在读取数据集时将其应用于数据集。

from pyspark.sql.types import StructType, StructField, DoubleType

schema = StructType([
    StructField("column_name", DoubleType(), True),
    # 其他列的定义
])

df = spark.read.schema(schema).parquet("data.parquet")

在上面的示例中，我们手动指定了"column_name"列的数据类型为DoubleType。

数据预处理：在使用Inferschema函数之前，可以对数据集进行预处理，以确保数据的格式正确且不包含非数字字符。可以使用pyspark中的函数来清洗和转换数据。

from pyspark.sql.functions import regexp_replace

df = df.withColumn("column_name", regexp_replace(df["column_name"], "[^0-9.]", ""))
df = df.withColumn("column_name", df["column_name"].cast(DoubleType()))

在上面的示例中，我们使用regexp_replace函数将"column_name"列中的非数字字符替换为空字符串，并使用cast函数将列转换为DoubleType。

使用其他方法推断模式：除了Inferschema函数，还可以使用其他方法来推断数据集的模式。例如，可以使用pyspark中的csv、json或avro等读取器来读取数据集，并指定相应的模式。

from pyspark.sql.types import StructType, StructField, DoubleType

schema = StructType([
    StructField("column_name", DoubleType(), True),
    # 其他列的定义
])

df = spark.read.format("parquet").schema(schema).load("data.parquet")

在上面的示例中，我们使用了指定的模式来读取parquet文件。

总结起来，当在pyspark中使用Inferschema函数时，如果它将列检测为字符串而不是parquet中的双精度类型，可以考虑手动指定模式、数据预处理或使用其他方法推断模式来解决这个问题。

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

pyspark、azure-databricks

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出

浏览 16提问于2020-06-23得票数 0

1回答

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在使用下面的语句在spark中读取csv。df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True)我已经检查了特定列<e

浏览 5提问于2017-08-31得票数 2

1回答

怎样才能推断出带前导零的双引用整数(例如。000000038473)作为字符串？

csv、apache-spark、pyspark

尝试使用推断模式来推断模式：但是，当数字有双引号时，pyspark将推断整数而不是字符串(例如，当数字有“前导零在这种情况下，我希望Pyspark推断字符串，而不是整数。我如何在不删除inferSchema的情况下，强迫pyspark</e

浏览 1提问于2021-06-08得票数 0

3回答

在将输入字符串解析为双精度时保留输入字符串的格式

java

我有一个从csv文件向表提供值的场景。需要注意的是，双精度值可以是任何双精度格式，即81、81.0或8.1E1。我只想在将字符串解析为双精度后保留双精度格式。例如，如果字符串为81.0，则格式模式应为##.#，双重解析应为81.0，而

浏览 0提问于2013-01-11得票数 0

1回答

将字符串标记为int以获得更快的散列映射

c++、python、string、hash、dictionary

我有一个关于使用以字符串作为关键字的散列的问题。假设我有一个将字符串映射到双精度的散列。问题是，我听到一些人说，最好将字符串标记为整数，并将哈希映射为整数到双精度，而不是字符串到双精度？在Python或C++ (两个问题)中</e

浏览 0提问于2013-05-03得票数 0

1回答

使用自定义列和记录删除器读取pyspark中的文件

python、python-3.x、pyspark、apache-spark-sql

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行 from pyspark</

浏览 11提问于2021-05-26得票数 0

2回答

我是否可以更改作为表加载到Server的Spark dataframe列的数据类型？

sql-server、pyspark、azure-data-lake、azure-sql-data-warehouse

我试图从Azure数据湖读取一个Parquet文件，使用下面的Pyspark代码。df= sqlContext.read.format("parquet") .option("inferSchema", "true").load("adl://xyz/abc.parquet") df = df[

浏览 0提问于2019-01-15得票数 3

1回答

读取spark中的百分比值

apache-spark、apache-spark-sql、spark-excel

我有一个只有一列的xlsx文件；30%50%0.00%0.10%99.99%-99.99%当我使用Apache-Sparkout阅读这篇文章时，我得到的是，+----------+| 0.4|| -0.1| |option("inferSchema", "true").load(&

浏览 3提问于2021-12-01得票数 0

2回答

使用spark sql实现Parquet的数据类型转换-动态转换，无需显式指定列名

pyspark、apache-spark-sql、spark-dataframe、hiveql、parquet

我正在寻找一种动态处理数据类型转换的方法。SparkDataframes，我正在使用hive SQL将数据加载到Dataframe中，并将其存储到dataframe中，然后写入到parquet文件中。Hive无法读取某些数据类型，我希望将decimal数据类型转换为Double。是否有任何方法可以动态处理数据类型，而不是单独指定每个列的名称。假设在我的dataframe中<

浏览 3提问于2017-05-16得票数 0

1回答

在读取HDFS目录时，如何处理某些文件的错误拼图模式？

apache-spark、apache-spark-sql

我在HDFS中有以下目录。../HDFS/file/date=20200930/id=1df=spark.read.parquet('/HDFS/file/').option("mergeSchema","true") 问题是上述文件中的几列在

浏览 0提问于2020-09-30得票数 2

1回答

Java JTable排序不只适用于一列

java、swing、jtable

在Java Swing应用程序(构建于NetBeans6.9中)中，我有一个有21列的JTable。这些列中大约有14列由双精度值组成。前6列是日期和字符串。在第7列，双打开始。当应用程序运行时，通过单击表的标题行，表中的每一列都将正确排序--除了第7列。该表认为该数据是<e

浏览 0提问于2011-11-03得票数 1

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby

浏览 2提问于2017-07-09得票数 3

2回答

Spark选项: inferSchema* vs header = true*

csv、apache-spark、header、apache-spark-sql、schema

对的引用我认为我需要.options("inferSchema" , "true")和.option("header", "true")来打印我的标题，但显然我仍然可以打印我的csv的标题。我真的不理解"inferSchema:自动推断列类型。它需要额外传递一次数据，默认情况下为false“的含义。

浏览 0提问于2019-07-08得票数 13

回答已采纳

1回答

用于显示不带小数点的整数

python-3.x、apache-spark、pyspark

在下面的代码中，数据文件的所有列都是字符串。其中一列用一个小数位存储整数或小数(6.1,4.8,3,9.4,6，...etc.)。但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。问题：我们如何才能强迫pyspark显示所有不带小数的整数值？例如，3.0应该显示为3。from pyspark.sql.typ

浏览 7提问于2022-05-21得票数 0

1回答

带有Stats的PySpark写入Parquet二进制列(签名-min-min启用)

python-2.7、apache-spark、pyspark、parquet、parquet-mr

我发现了这个apache票证，它被标记为parquet-mr 1.8.2解析。我想要的特性是(string或BINARY)列的parquet元数据中计算出来的string。引用这是一个电子邮件，它使用scala而不是pyspark作为示例： Configuration conf = new Configuration(); + conf.set("parquet.strings.sig

浏览 1提问于2018-11-05得票数 2

回答已采纳

1回答

如何更改UWP Telerik RadDataGrid DataGridNumericalColumn编辑器的精度

c#、xaml、uwp、telerik

我在我的应用程序中使用了Telerik UWP RadDatagrid。有一列包含绑定到数据网格的项源中的整数。这将正确显示，即1显示为1。但是单元格编辑器似乎使用了双精度型而不是整型。因此，如果我单击离开输入为1而不是1.00的单元格，则不会提交更改。对于DataGridNumericalColumn，有没有办法将<

浏览 2提问于2017-11-08得票数 1

2回答

Spark Dataframe为浮点数提供不同级别的精度

json、scala、dataframe、apache-spark、precision

当我们创建spark数据帧时，我们将数据帧中的数据发送到Kudu和Kafka(依次被提取并进入S3)现在，如果我使用相同的数据帧并将其转换为struct(df.col(PK1), .withColumn("value", to_json(struct(df.columns.map(col): _*))) 然后(在一个单独<em

浏览 51提问于2020-02-07得票数 0

1回答

将双精度值输出为有效JSON数字的C printf格式指令是什么？

c、json、printf

我正在编写C代码，将一个双精度值输出到一个字符串中，作为JSON字符串的一部分。我应该使用什么C打印格式指令来输出双精度值？据我所知，有效的JSON编号一定不能以'.‘开头。它必须以“0”开头。而不是。当全部为0时，指数和小数部分不会输出。打印的数字必须具有最大的精度，但也要进行智能舍入，以便<

浏览 14提问于2020-11-27得票数 1

回答已采纳

2回答

如何解压拼图文件？

python、apache-spark、pyspark、gzip、parquet

我有一个大小约为60MB的test.parquet文件。使用下面的脚本，我发现拼图文件的列压缩是GZIP。import pyarrow.parquet as pqprint(parquet_file.metadata.row_group_parquet.

浏览 29提问于2021-07-02得票数 1

1回答

C++将字符串转换为双精度字符串

c++、string、double、atof、strtod

我需要将字符串转换成双倍，精度可达15位数字。double lon1 = strtod(line.c_str(),NULL);cout << lon1;cout << setprecision(15) << lon1; 它

浏览 2提问于2013-12-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

相关·内容

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

怎样才能推断出带前导零的双引用整数(例如。000000038473)作为字符串？

在将输入字符串解析为双精度时保留输入字符串的格式

将字符串标记为int以获得更快的散列映射

使用自定义列和记录删除器读取pyspark中的文件

我是否可以更改作为表加载到Server的Spark dataframe列的数据类型？

读取spark中的百分比值

使用spark sql实现Parquet的数据类型转换-动态转换，无需显式指定列名

在读取HDFS目录时，如何处理某些文件的错误拼图模式？

Java JTable排序不只适用于一列

Parquet文件中groupby的最佳实践

Spark选项: inferSchema* vs header = true*

用于显示不带小数点的整数

带有Stats的PySpark写入Parquet二进制列(签名-min-min启用)

如何更改UWP Telerik RadDataGrid DataGridNumericalColumn编辑器的精度

Spark Dataframe为浮点数提供不同级别的精度

将双精度值输出为有效JSON数字的C printf格式指令是什么？

如何解压拼图文件？

C++将字符串转换为双精度字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐