腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9426)
视频
沙龙
1
回答
如
何以
编程
方式
为
spark
中
的
所有
字段
生成
Struct
Type
作为
StringType
?
apache-spark
、
spark-structured-streaming
我有*n个
字段
(像200-300),
所有
的
字段
Struct
Type
我只想要字符串类型。任何简单
的
方法都有,就像下面提到
的
val schema = StructType(schemaString.split(" ").map(fieldName ⇒ StructField(fieldName,
StringType
, true))) 下面是我尝试过
的
代码, StructType schema= new Struc
浏览 29
提问于2019-10-15
得票数 0
1
回答
PySpark。在读取拼图时通过强制转换为字符串合并架构?
python
、
apache-spark
、
pyspark
我从拼图文件
中
读取数据,其中有一个Map
type
字段
,如下所示:>>> df.collect()>>> df =
spark
.read.parquet('path/to/otherParti
浏览 11
提问于2019-10-23
得票数 1
5
回答
在选择“
struct
_name.*”时,
为
所有
列设置前缀
python
、
apache-spark
、
pyspark
、
struct
、
apache-spark-sql
下面的dataframe是一个名为'table_name‘
的
temp_table。
spark
.conf.set("
spark
.sql.execution.arrow.enabled", "true
浏览 2
提问于2020-01-29
得票数 4
回答已采纳
0
回答
如何在JSON中使用read.schema仅指定特定
字段
:
SPARK
Scala
json
、
scala
、
apache-spark
、
rdd
我正在尝试以
编程
方式
在看起来像json
的
textFile上强制执行模式(Json)。因此,它需要解析
所有
需要更长时间
的
数据(4小时,因为我
的
数据是压缩
的
,大小
为
to )。因此,我想尝试将其读取
为
textFile,并强制执行模式,以便以后在结果数据框上查询时只获取感兴趣
的
字段
。输入:records: org.apache.
spark
.sql.Da
浏览 0
提问于2016-07-09
得票数 3
回答已采纳
1
回答
select和with列都不能使用折叠。
scala
、
dataframe
、
apache-spark
、
foldleft
试图从嵌套模式
中
爆炸给定
的
列。我正试图实现这一点与折叠左在数据。这里我只处理了两种情况如果列类型是数组,那么我尝试使用withColumn来爆炸数据,然后选择子句import org.apache.
spark
.sql
StringType
,true), |-
浏览 1
提问于2020-09-07
得票数 0
回答已采纳
2
回答
使用定义
的
StructType转换
Spark
数据帧
的
值
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
有没有一种方法可以使用StructType转换数据帧
的
所有
值?让我用一个例子来解释我
的
问题: import org.apache.
spark
.sqlnullable = true) | |-- v: string (null
浏览 7
提问于2018-07-28
得票数 4
回答已采纳
2
回答
pyspark:在创建数据时,模式中指定
的
数据类型不反映在数据
中
csv
、
apache-spark
、
pyspark
、
spark-dataframe
、
aws-glue
我正在
Spark
中
创建一个dataframe,并且我已经将模式定义如下: StructField('number_of_nulls', LongType()),,并且我正在创建数据文件,具体如下: DF =
SPARK<
浏览 0
提问于2018-02-05
得票数 0
1
回答
用
Spark
的
from_json解析任意JSON
apache-spark
、
pyspark
如
您所见,每个JSON blob本身
的
形式
为
{A:B},其中A是一个随机/任意字符串,B是一个格式相对良好
的
JSON对象。,profession2,sarah,scientist因为我不知道A
的
可能键,所以很难将JSON blob解析
为
StructType (我无法枚举
所有
可能
的
键stackTrace) pyspark.sql.utils.AnalysisException: u&
浏览 2
提问于2018-05-14
得票数 4
2
回答
火花-将JSON字符串
的
数组转换为
Struct
数组、过滤器并与root连接
apache-spark
、
pyspark
我对
Spark
完全陌生,我正在编写一条管道,以执行一些转换为审计列表。:如何将“events”项解析
浏览 1
提问于2020-02-17
得票数 1
回答已采纳
2
回答
Spark
SQL -隐式创建模式与以
编程
方式
创建模式的确切区别
apache-spark
、
apache-spark-sql
我正在尝试理解隐式创建模式和以
编程
方式
创建模式之间的确切区别,以及在什么特定场景
中
可以使用哪种方法。在
编程
风格
中
,我们将数据集加载
为
文本文件(类似于反射)。Creating a SchemaString (String) =“了
浏览 2
提问于2016-01-31
得票数 2
2
回答
使用Scala在
Spark
DataFrame
中
重用JSON
中
的
模式
json
、
scala
、
apache-spark
、
apache-spark-sql
我找不到‘一对一匹配’
的
方式
(通过println或...)具有可接受语法
的
模式(类似于上面)。我认为可以使用大小写匹配来完成一些编码,以消除双引号。但是,我仍然不清楚需要什么规则才能从测试夹具
中
获得确切
的
模式,以便在我
的
循环生产(与测试夹具)代码
中
简单地重用。有没有办法让这个模式完全按照我编写
的
代码打印出来?注意:这包括双引号和
所有
适当
的
StructField/类型,等等,以便与代码兼容。
作为</e
浏览 4
提问于2016-04-20
得票数 7
回答已采纳
1
回答
将结构转换为火花放电阵列
json
、
pyspark
、
struct
"annotations": ["another sample"]当然,我加载这些数据
的
第一种方法是将它们
作为
json结构读取:第一个dataframe应该包含注释(包含列pipeline_name和注释),另一个dataframe应该包含参数( pipeline_name、有没有人知道一种简单
的
方法,将结构(
浏览 2
提问于2021-10-11
得票数 0
回答已采纳
1
回答
在
中
添加复杂列
scala
、
apache-spark
、
apache-spark-sql
Caused by: java.lang.RuntimeException: Annotation is not a valid external
type
for schema of
struct
<field1编辑:用这种
方式
修改DF模式
的
示例,用一个简单
的
类型而不是一个case类。遗憾
的
是,我没有从case类直接创建DataFrame
的
选项,这就是为什么我试图使用ScalaReflection将其映射
为
结构
的
原因。在本例<e
浏览 2
提问于2018-02-09
得票数 1
回答已采纳
2
回答
替换PySpark列
中
的
最后两个字符
python
、
pyspark
在带有包含基于日期
的
整数
的
列(
如
20190200,20180900)
的
spark
dataframe
中
,我希望将
所有
以00结尾
的
数据帧替换为01结尾
的
那些整数,这样之后我就可以将它们转换为可读
的
时间戳x: x.replace("00","01"),
StringType
()) sdf.withColumn('date_k', udf(sf
浏览 14
提问于2020-06-27
得票数 1
回答已采纳
1
回答
将联接表
的
行设置为主查询
的
字段
名和值?
mysql
、
sql
、
database
、
mariadb
是否可以将联接表
的
行
作为
主查询
的
字段
名和值?8, 3, "body", "Lorum ipsum..."这将给出faq类型
的
所有
结构,以及
所有
相应
的
字段
。' 但是我
的
行
中
显然有双行,因为
生成
行
浏览 0
提问于2019-03-01
得票数 1
回答已采纳
1
回答
如何最好地处理模式冲突,将MongoRDD转换为DataFrame?
mongodb
、
apache-spark
、
apache-spark-sql
、
schema
、
case-class
我正在尝试从mongo数据库
中
读取一些文档,并在
spark
中
解析模式。到目前为止,我已经成功地从mongo读取并使用由case类定义
的
模式将结果mongoRDD转换为DataFrame,但是有一种情况是,mongo集合有一个包含多个数据类型
的
字段
(字符串数组和嵌套对象数组到目前为止,我只是将
字段
解析
为
一个字符串,然后使用
spark
的
from_json()来解析新模式
中
的
嵌套对象,但
浏览 6
提问于2020-03-04
得票数 1
回答已采纳
3
回答
PySpark: TypeError: col应该是列
json
、
dataframe
、
apache-spark
、
pyspark
、
typeerror
我正在尝试从嵌套
的
JSON结构
中
创建一个dataframe,但是我遇到了一个我不明白
的
问题。我已经在JSON
中
爆炸了一个dicts数组结构,现在我正在尝试访问这些数据集,并创建包含其中
的
值
的
列。", dataframe.keywords_exp.name) PySpark: TypeError: col应该是列 在dict
中
的
任何其他键都没有这样
的
问题,即"value“。我试图通过将一个JSON文
浏览 7
提问于2022-08-04
得票数 1
回答已采纳
1
回答
如何基于JSON字符串更改数据格式?
python
、
json
、
dataframe
、
apache-spark
、
pyspark
").json(path_to_data)df =
spark
.read.text(path_to_data) schema = StructType([("doc_
type
",
StringType
(), True), StructField("lang&qu
浏览 7
提问于2022-03-23
得票数 1
回答已采纳
1
回答
函数不返回pyspark。
python
、
function
、
dataframe
、
pyspark
我定义了一个函数,它返回
作为
输入
的
所有
数据文件
的
交集
的
数据。但是,当我将函数
的
输出存储在某个变量
中
时,它将不会存储在变量
中
。它显示
为
非类型对象。intersection(list1, intersection_df,i): intersection_df = list1[0] i
浏览 0
提问于2019-05-31
得票数 1
回答已采纳
1
回答
json文件向三角湖
的
动态模式演化
json
、
databricks
、
delta-lake
、
dbt
问题是,当我将第一个json文件加载到特定
的
增量-湖泊表时,列
中
的
值
为
空。然后写到增量湖自动创建此列为字符串。下一个文件在同一列
中
包含一个嵌套
的
json数组,结果是我得到了以下错误消息: AnalysisException:未能将
字段
“payment_info”和“payment”合并。未能合并不兼容
的
数据类型
StringType
和StructType(StructField(@
type
,
StringType
浏览 2
提问于2022-02-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
字节跳动开源dynamicgo :基于原始字节流的高性能 + 动态化 Go 数据处理
Go语言学习笔记(3)
Spark之SparkSQL
Golang Json Marshal 源码分析
从Storm到Flink:大数据处理的开源系统及编程模型
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券