腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
关于
推断
复杂
结构
字段
spark
的
数据类型
的
问题
scala
、
apache-spark
、
apache-spark-sql
我有一个
spark
数据框架,如下所示。它在zipped_feature列中有数组
结构
的
数组。1], [ABS, 24]] ||[[C, 3], [ABC, 33]] | +--------------------+ 我试图使用index在数组
结构
的
数组上获取一个项我尝试了下面的udf,以获取基于索引
的
值。如果第一行
的
索引是0,那么我应该以数组
的
形式检索"A,1“。val getValueUdf
浏览 152
提问于2021-02-22
得票数 0
回答已采纳
1
回答
混合列中
的
空字符串在使用火花加载时使行无效
python
、
apache-spark
、
pyspark
、
inference
, "col2": 1.7}我使用(Py)星火装载如下:
spark
= SparkSession.builder.master("local[*]").getOrCreate()df.show()| | 6.0| |
浏览 1
提问于2020-03-18
得票数 0
回答已采纳
1
回答
生成
Spark
模式代码/持久化和重用模式
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-structured-streaming
、
delta
我正在从一个Parquet数据源实现一些
Spark
结构
的
流转换。为了将数据读入流DataFrame,必须指定模式(不能自动
推断
)。模式确实很
复杂
,手动编写模式代码将是一项非常
复杂
的
任务。目前,我正在预先创建一个批处理DataFrame (使用相同
的
数据源),
Spark
推断
模式,然后将模式保存到Scala对象,并将其用作
结构
化流媒体阅读器
的
输入。我不认为这是一个可靠或性能良好
浏览 3
提问于2020-11-12
得票数 0
4
回答
从字符串文字
推断
火花DataType
scala
、
apache-spark
、
types
、
spark-dataframe
、
introspection
我正在尝试编写一个Scala函数,该函数可以根据提供
的
输入字符串
推断
星火: * Example: * toSparkType("string") => StringType(如果不是全部的话)可用
的
DataTypes。当我开始实现这个函数时,我开始思考:"
Spark
/Scala可能已经有了一个帮助器/util方法,可以帮我做到这一点。“毕竟,我知道我可以做这样
的
事情: var structType
浏览 0
提问于2016-09-29
得票数 8
回答已采纳
1
回答
从XSD
推断
AWS Glue数据目录架构,而不是使用craw
xsd
、
aws-glue
是否可以使用XSD文件
推断
AWS Glue数据目录
的
模式? 使用爬虫来猜测XML文件
的
模式可能非常容易出错。可以直接使用Glue中
的
XSD Files在数据目录中创建表定义吗?
浏览 0
提问于2018-09-19
得票数 0
1
回答
蜂巢自动浇铸拼花
apache-spark
、
types
、
hive
我有一个场景,
spark
从输入文件中
推断
模式,并使用Integer
数据类型
编写parquet文件。 但是我们在单元格中有表,其中
字段
被定义为BigInt。现在没有从int到Long
的
转换,而hive抛出了它不能将Integer转换为long
的
错误。我不能编辑Hive到Integer
数据类型
,因为业务需要拥有这些
字段
。我已经查找了一个选项,可以在完成saving.This之前对
数据类型
进行强制转换,但我有数百列,显式强制转换会使代码变得
浏览 3
提问于2017-05-11
得票数 0
回答已采纳
2
回答
Pyspark-Mongo缺少一些
字段
python
、
mongodb
、
pyspark
所以我正在尝试使用mongo-
spark
连接器将集合表单MongoDB读入
spark
,但是文档中
的
一些
字段
丢失了,以前有人遇到过这个
问题
吗?如果是,解决方案是什么?下面是我用来读取MongoDB集合
的
命令: .option"total" : 64.96,
浏览 0
提问于2018-03-24
得票数 3
0
回答
替换
Spark
数据帧中Array[long]中
的
分隔符
scala
、
apache-spark
、
apache-spark-sql
我正在将一个JSON文件读入Scala中
的
spark
数据框中。我有一个JSON
字段
,比如
Spark
会自动
推断
此
字段
的
数据类型
为Arraylong。||org.apache.
spark
浏览 1
提问于2017-12-11
得票数 2
回答已采纳
1
回答
SQLcontext将字符串
字段
更改为Long :
Spark
1.5
java
、
apache-spark
、
apache-spark-sql
、
parquet
我已将我
的
记录保存为拼花格式,并且正在使用
Spark
1.5。但是,当我试图获取列时,它会抛出异常。java.lang.ClassCastException:不能将java.lang.Long转换为org.apache.
spark
.unsafe.types.UTF8String。此
字段
在编写拼花时保存为字符串。下面是相同
的
示例代码和输出。(Logger)打印如下:
浏览 7
提问于2015-10-09
得票数 2
回答已采纳
1
回答
结构
化流如何动态解析kafka
的
json数据
json
、
apache-spark
、
spark-structured-streaming
我正在尝试使用
结构
化流从Kafka读取数据。从kafka收到
的
数据采用json格式。我
的
代码如下所示:在代码中,我使用from_json函数将json转换为dataframe以供进一步处理。",new StructType() . ) val df: DataFrame =
spark
.readStream.selectExpr("CAST(value AS STRING
浏览 3
提问于2019-10-15
得票数 4
回答已采纳
2
回答
对具有字符串列且值看起来为数字
的
数据集进行分区和存储。当它再次被读取时,数据仍然是“字符串”,但丢失了零。
java
、
apache-spark
、
apache-spark-sql
在
Spark
3.0.2中,我在一个拼花文件中编写一个Dataset。etablissements", anneeSIRENE, actifsSeulement, codeDepartment有一个StringType,因为法国
的
部门代码是三个字符
的
代码# schema() :它可见于这个show()输出
的
最后三分之一(城市名称大写前
的
三列),并具有&quo
浏览 1
提问于2021-03-24
得票数 2
回答已采纳
3
回答
避免从
Spark
写入时丢失分区数据
的
数据类型
apache-spark
、
spark-dataframe
、
parquet
我想将此数据帧保存为分区拼接文件:对于这个数据帧,当我读回数据时,它
的
数据类型
是itemCategory
的
字符串。然而,有时我会收到来自其他租户
的
数据帧,如下所示。itemName, itemCategoryName2, 1在这种情况下,在作为分区写入之后,当回读时,结果数据帧
的
数
浏览 0
提问于2017-10-10
得票数 4
2
回答
如何找出GHC
的
数据类型
的
内存表示?
haskell
、
ghc
最近,像这样
的
博客文章解释了如何
推断
常用容器类型
的
空间
复杂
性。现在我面临
的
问题
是,如何真正“看到”我
的
GHC版本为奇怪
的
数据类型
(构造器)选择
的
内存布局(取决于编译标志和目标体系
结构
),比如在C中有sizeof和offsetof运算符,它允许我“查看”为C struct
的
字段</
浏览 0
提问于2011-07-05
得票数 16
回答已采纳
1
回答
任何数据
结构
的
数据可以转换成json格式吗?
json
、
serialization
、
data-structures
、
type-conversion
我主要想知道
的
是,是否可以将
复杂
的
数据类型
(如树、图形、地图或其他更
复杂
的
数据类型
)转换为json格式,并具有与轻量级对象相同
的
序列化灵活性。考虑到json格式只是文本交换
的
键/值格式(
字段
/值或名称/值--随您喜欢)。其中值可以是一个或多个,值可以是简单类型,也可以是另一个json类型), 是否需要任何数据
结构
来满足这一条件?可以用键值或键数组
结构
来
浏览 3
提问于2014-12-11
得票数 0
回答已采纳
2
回答
如何让PySpark将列识别为日期时间类型?
python
、
apache-spark
、
pyspark
我正在使用SparkSession.createDataFrame从下面这样
的
dict列表创建一个Dataframe: { 'create_timedataframe = sparkSession.createDataFrame(data) pyspark.sql.utils.AnalysisException:无法解析给定
的
输入列我应该如何转换'create_time‘
的
值,以便让火花识别该列为日期时间类
浏览 13
提问于2022-09-09
得票数 0
回答已采纳
2
回答
Scala DataFrameReader保留列标题
scala
、
apache-spark
以下代码将csv读取到scala中
的
dataframe中:但是,它将导入数据
的
第一行视为数据行。它使用数据帧
的
默认标头作为标头(例如,_c0、_c1) 我假设有一个选项允许导入csv文件
的
头文件,但在Scala API文档中找不到它(我是scala及其文档
的
新手)。任何
关于</em
浏览 12
提问于2017-08-31
得票数 0
回答已采纳
2
回答
Spark
read.json在python中不考虑布尔值。
json
、
apache-spark
、
pyspark
、
rdd
我一直在尝试遵循官方文档,在
spark
中完成一个将JSON字符串转换为dataframe
的
例子。address":{"city":"Columbus","state":true}}']otherPeople =
spark
.read.json我正在使用python中
的
请求库调用REST api来获取JSON数据。然后在响应上调用.json()得到json
浏览 31
提问于2018-06-27
得票数 3
1
回答
如果列具有要绕过并读取csv和chars..how
的
特殊模式,则SparkDataFrame.dtypes将失败
pyspark
、
spark-csv
如果csv文件包含带有特殊字符
的
列,则
推断
Spark
Dataframe
的
架构将引发错误。测试样本foo.csv id,评论1,#Hi 2,你好
spark
= SparkSession.builder.appName("footest").getOrCreate() raise ValueError("Could not parse datatype: %s" % json_value
浏览 12
提问于2020-01-28
得票数 0
2
回答
将StructType定义为函数
Spark
-Scala2.11
的
输入
数据类型
scala
、
apache-spark
、
apache-spark-sql
我试图用scala编写一个
Spark
,我需要定义一个函数
的
输入
数据类型
Seq( ) ), true)
浏览 5
提问于2019-11-21
得票数 3
回答已采纳
1
回答
模式推理在
spark
.read.parquet中是如何工作
的
?
apache-spark
、
parquet
我正试着读一个
关于
火花
的
拼花文件,我有个
问题
。有像1那样
的
映射字典吗?或者是从实际存储
的
值(如2 )
推断
的
。
浏览 2
提问于2022-01-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark SQL在字节跳动数据仓库领域的优化实践
基本 SQL 之数据库及表管理
开始用Rust编写代码!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券