关于推断复杂结构字段spark的数据类型的问题

scala、apache-spark、apache-spark-sql

我有一个spark数据框架，如下所示。它在zipped_feature列中有数组结构的数组。1], [ABS, 24]] ||[[C, 3], [ABC, 33]] | +--------------------+ 我试图使用index在数组结构的数组上获取一个项我尝试了下面的udf，以获取基于索引的值。如果第一行的索引是0，那么我应该以数组的形式检索"A，1“。val getValueUdf

浏览 152提问于2021-02-22得票数 0

回答已采纳

1回答

混合列中的空字符串在使用火花加载时使行无效

python、apache-spark、pyspark、inference

, "col2": 1.7}我使用(Py)星火装载如下：spark= SparkSession.builder.master("local[*]").getOrCreate()df.show()| | 6.0| |

浏览 1提问于2020-03-18得票数 0

回答已采纳

1回答

生成Spark模式代码/持久化和重用模式

apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming、delta

我正在从一个Parquet数据源实现一些Spark结构的流转换。为了将数据读入流DataFrame，必须指定模式(不能自动推断)。模式确实很复杂，手动编写模式代码将是一项非常复杂的任务。目前，我正在预先创建一个批处理DataFrame (使用相同的数据源)，Spark推断模式，然后将模式保存到Scala对象，并将其用作结构化流媒体阅读器的输入。我不认为这是一个可靠或性能良好

浏览 3提问于2020-11-12得票数 0

4回答

从字符串文字推断火花DataType

scala、apache-spark、types、spark-dataframe、introspection

我正在尝试编写一个Scala函数，该函数可以根据提供的输入字符串推断星火： * Example: * toSparkType("string") => StringType(如果不是全部的话)可用的DataTypes。当我开始实现这个函数时，我开始思考："Spark/Scala可能已经有了一个帮助器/util方法，可以帮我做到这一点。“毕竟，我知道我可以做这样的事情： var structType

浏览 0提问于2016-09-29得票数 8

回答已采纳

1回答

从XSD推断AWS Glue数据目录架构，而不是使用craw

xsd、aws-glue

是否可以使用XSD文件推断AWS Glue数据目录的模式？使用爬虫来猜测XML文件的模式可能非常容易出错。可以直接使用Glue中的XSD Files在数据目录中创建表定义吗？

浏览 0提问于2018-09-19得票数 0

1回答

蜂巢自动浇铸拼花

apache-spark、types、hive

我有一个场景，spark从输入文件中推断模式，并使用Integer数据类型编写parquet文件。但是我们在单元格中有表，其中字段被定义为BigInt。现在没有从int到Long的转换，而hive抛出了它不能将Integer转换为long的错误。我不能编辑Hive到Integer数据类型，因为业务需要拥有这些字段。我已经查找了一个选项，可以在完成saving.This之前对数据类型进行强制转换，但我有数百列，显式强制转换会使代码变得

浏览 3提问于2017-05-11得票数 0

回答已采纳

2回答

Pyspark-Mongo缺少一些字段

python、mongodb、pyspark

所以我正在尝试使用mongo-spark连接器将集合表单MongoDB读入spark，但是文档中的一些字段丢失了，以前有人遇到过这个问题吗？如果是，解决方案是什么？下面是我用来读取MongoDB集合的命令： .option"total" : 64.96,

浏览 0提问于2018-03-24得票数 3

0回答

替换Spark数据帧中Array[long]中的分隔符

scala、apache-spark、apache-spark-sql

我正在将一个JSON文件读入Scala中的spark数据框中。我有一个JSON字段，比如Spark会自动推断此字段的数据类型为Arraylong。||org.apache.spark

浏览 1提问于2017-12-11得票数 2

回答已采纳

1回答

SQLcontext将字符串字段更改为Long :Spark1.5

java、apache-spark、apache-spark-sql、parquet

我已将我的记录保存为拼花格式，并且正在使用Spark1.5。但是，当我试图获取列时，它会抛出异常。java.lang.ClassCastException:不能将java.lang.Long转换为org.apache.spark.unsafe.types.UTF8String。此字段在编写拼花时保存为字符串。下面是相同的示例代码和输出。(Logger)打印如下：

浏览 7提问于2015-10-09得票数 2

回答已采纳

1回答

结构化流如何动态解析kafka的json数据

json、apache-spark、spark-structured-streaming

我正在尝试使用结构化流从Kafka读取数据。从kafka收到的数据采用json格式。我的代码如下所示:在代码中，我使用from_json函数将json转换为dataframe以供进一步处理。",new StructType() . ) val df: DataFrame = spark.readStream.selectExpr("CAST(value AS STRING

浏览 3提问于2019-10-15得票数 4

回答已采纳

2回答

对具有字符串列且值看起来为数字的数据集进行分区和存储。当它再次被读取时，数据仍然是“字符串”，但丢失了零。

java、apache-spark、apache-spark-sql

在Spark 3.0.2中，我在一个拼花文件中编写一个Dataset。etablissements", anneeSIRENE, actifsSeulement, codeDepartment有一个StringType，因为法国的部门代码是三个字符的代码# schema() :它可见于这个show()输出的最后三分之一(城市名称大写前的三列)，并具有&quo

浏览 1提问于2021-03-24得票数 2

回答已采纳

3回答

避免从Spark写入时丢失分区数据的数据类型

apache-spark、spark-dataframe、parquet

我想将此数据帧保存为分区拼接文件：对于这个数据帧，当我读回数据时，它的数据类型是itemCategory的字符串。然而，有时我会收到来自其他租户的数据帧，如下所示。itemName, itemCategoryName2, 1在这种情况下，在作为分区写入之后，当回读时，结果数据帧的数

浏览 0提问于2017-10-10得票数 4

2回答

如何找出GHC的数据类型的内存表示？

haskell、ghc

最近，像这样的博客文章解释了如何推断常用容器类型的空间复杂性。现在我面临的问题是，如何真正“看到”我的GHC版本为奇怪的数据类型(构造器)选择的内存布局(取决于编译标志和目标体系结构)，比如在C中有sizeof和offsetof运算符，它允许我“查看”为C struct的字段</

浏览 0提问于2011-07-05得票数 16

回答已采纳

1回答

任何数据结构的数据可以转换成json格式吗？

json、serialization、data-structures、type-conversion

我主要想知道的是，是否可以将复杂的数据类型(如树、图形、地图或其他更复杂的数据类型)转换为json格式，并具有与轻量级对象相同的序列化灵活性。考虑到json格式只是文本交换的键/值格式(字段/值或名称/值--随您喜欢)。其中值可以是一个或多个，值可以是简单类型，也可以是另一个json类型)，是否需要任何数据结构来满足这一条件？可以用键值或键数组结构来

浏览 3提问于2014-12-11得票数 0

回答已采纳

2回答

如何让PySpark将列识别为日期时间类型？

python、apache-spark、pyspark

我正在使用SparkSession.createDataFrame从下面这样的dict列表创建一个Dataframe： { 'create_timedataframe = sparkSession.createDataFrame(data) pyspark.sql.utils.AnalysisException:无法解析给定的输入列我应该如何转换'create_time‘的值，以便让火花识别该列为日期时间类

浏览 13提问于2022-09-09得票数 0

回答已采纳

2回答

Scala DataFrameReader保留列标题

scala、apache-spark

以下代码将csv读取到scala中的dataframe中：但是，它将导入数据的第一行视为数据行。它使用数据帧的默认标头作为标头(例如，_c0、_c1) 我假设有一个选项允许导入csv文件的头文件，但在Scala API文档中找不到它(我是scala及其文档的新手)。任何关于</em

浏览 12提问于2017-08-31得票数 0

回答已采纳

2回答

Spark read.json在python中不考虑布尔值。

json、apache-spark、pyspark、rdd

我一直在尝试遵循官方文档，在spark中完成一个将JSON字符串转换为dataframe的例子。address":{"city":"Columbus","state":true}}']otherPeople = spark.read.json我正在使用python中的请求库调用REST api来获取JSON数据。然后在响应上调用.json()得到json

浏览 31提问于2018-06-27得票数 3

1回答

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

pyspark、spark-csv

如果csv文件包含带有特殊字符的列，则推断Spark Dataframe的架构将引发错误。测试样本foo.csv id，评论1，#Hi 2，你好 spark = SparkSession.builder.appName("footest").getOrCreate() raise ValueError("Could not parse datatype: %s" % json_value

浏览 12提问于2020-01-28得票数 0

2回答

将StructType定义为函数Spark-Scala2.11的输入数据类型

scala、apache-spark、apache-spark-sql

我试图用scala编写一个Spark，我需要定义一个函数的输入数据类型 Seq( ) ), true)

浏览 5提问于2019-11-21得票数 3

回答已采纳

1回答

模式推理在spark.read.parquet中是如何工作的？

apache-spark、parquet

我正试着读一个关于火花的拼花文件，我有个问题。有像1那样的映射字典吗？或者是从实际存储的值(如2 )推断的。

浏览 2提问于2022-01-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

混合列中的空字符串在使用火花加载时使行无效

生成Spark模式代码/持久化和重用模式

从字符串文字推断火花DataType

从XSD推断AWS Glue数据目录架构，而不是使用craw

蜂巢自动浇铸拼花

Pyspark-Mongo缺少一些字段

替换Spark数据帧中Array[long]中的分隔符

SQLcontext将字符串字段更改为Long :Spark1.5

结构化流如何动态解析kafka的json数据

对具有字符串列且值看起来为数字的数据集进行分区和存储。当它再次被读取时，数据仍然是“字符串”，但丢失了零。

避免从Spark写入时丢失分区数据的数据类型

如何找出GHC的数据类型的内存表示？

任何数据结构的数据可以转换成json格式吗？

如何让PySpark将列识别为日期时间类型？

Scala DataFrameReader保留列标题

Spark read.json在python中不考虑布尔值。

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

将StructType定义为函数Spark-Scala2.11的输入数据类型

模式推理在spark.read.parquet中是如何工作的？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐