腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
变量
模式
从
dataFrame
列
读取
JSON
apache-spark
、
apache-spark-sql
我有一个
Dataframe
,它有一个
列
,其中包含一些嵌套的
JSON
和
变量
schema.i.e.每行中的
JSON
具有不同的
模式
。例如 Key Value2 {"key1":"val1","key2":"val2"} 我需要解析它并创建一个最终的
dataframe
,它包含所有
列</e
浏览 11
提问于2020-10-01
得票数 0
1
回答
为火花行定义新
模式
java
、
apache-spark
、
rdd
、
spark-dataframe
我有一个
DataFrame
,其中一个
列
包含一个
JSON
字符串。在这个函数中,我解析
JSON
,并创建一个新行,其额外的
列
来自
JSON
中的值。---------+ 在尝试
从
返回的
DataFrame
创建新的JavaRDD时,我遇到了麻烦。现在我有了这些新行,我需要创建一个
模式
。
模式
高度依赖于
JSON
的结构,因此我试图找到一种将
模式
数据与Row对象一起
从
函数中传递回来的方
浏览 2
提问于2016-04-14
得票数 0
回答已采纳
1
回答
火花:单元测试-我有一个功能,联合3输入数据集。我应该对它们进行单元测试吗?
unit-testing
、
apache-spark
、
apache-spark-sql
other logic object readDataframes{ spark.read.
json
(somefile)def readSecondDF(spark:SparkSession):Dataset[Row]={} spark.read.
json
(som
浏览 2
提问于2019-09-23
得票数 0
1
回答
为什么schema_of_
json
失败?
apache-spark
df .withColumn("schemaDetected", schema_of_
json
(lit("""{"Zipcode":704,"ZipCodeType":"STANDARD","CityZipCodeType":"STANDARD","City":"PARC PARQUE","State":"PR"}""&quo
浏览 0
提问于2021-09-24
得票数 1
回答已采纳
2
回答
dataframe
.colums是火花行动吗?
apache-spark
、
apache-spark-sql
如果不是,则在以下代码中没有操作方法,但只
读取
一次"./demo.
json
"。println(x.columns)
浏览 0
提问于2019-12-03
得票数 0
1
回答
使用
部分
模式
的Spark read
json
apache-spark
、
apache-spark-sql
、
spark-dataframe
我需要
使用
spark处理一个相当大的
json
文件。我不需要
json
中的所有字段,实际上我只想
读取
其中的一部分(而不是
读取
所有字段和项目)。我想知道我是否可以
使用
json
连接器,并为它提供一个只包含我感兴趣加载的字段的部分
读取
模式
。
浏览 0
提问于2017-07-14
得票数 0
2
回答
将海量
JSON
文件读入Spark
Dataframe
json
、
scala
、
apache-spark
、
dataframe
我有一个很大的嵌套NDJ (新行分隔的
JSON
)文件,我需要将其
读取
到单个spark
dataframe
中并保存到parquet中。在尝试呈现
模式
时,我
使用
以下函数: case _ => Array(col(colName))
浏览 2
提问于2016-12-10
得票数 5
1
回答
如何
读取
带有
JSON
字符串的
列
的Hive表?
scala
、
apache-spark
、
hive
、
apache-spark-sql
我有一个蜂窝表列(
Json
_String字符串),它有大约1000行,其中每一行都是一个具有相同结构的
Json
。我正在试着将
json
读入
Dataframe
,如下所示但是它会弹出下面的异常java.io.IOException: No input paths specified in job 是否有任何方法可以<e
浏览 0
提问于2017-06-28
得票数 0
1
回答
从
以csv分隔的制表符创建数据,其中有些
列
是
json
类型,而有些
列
不是
json
、
scala
、
apache-spark
、
apache-spark-sql
我试图
从
csv中创建一个(
使用
scala),其中包含如下条目:这是由5
列
组成的单个行条目: {“用户名”:“john_doe,”id:“123411”}{“国家”:“IN”,“城市”:“BOM”}所以,有些
列
是
JSON
格式的,而有些则不是。我确实编写了一些代码,将
JSON
列作为字符串处理,并将它们按行顺序直接添加到
dataframe
中,但剩下的其他
列
,我不得不手动将它们添加到
dataframe
中,因为我创建了一个单独的
dat
浏览 0
提问于2018-01-29
得票数 0
1
回答
将
json
文件读入Spark
DataFrame
python
、
json
、
apache-spark
、
pyspark
我正在尝试将一个
json
文件读入Spark
DataFrame
,但是我将整个文件作为一行和一
列
来获得--我试图将它拆分为多个
列
:df.show()+--------------------++--------------
浏览 3
提问于2021-12-08
得票数 0
2
回答
将星火数据的所有
列
转换为
json
格式,然后将
json
格式化的数据作为另一个/父数据格式的
列
包含进来。
scala
、
apache-spark
、
apache-spark-sql
使用
df.toJSON将
dataframe
(例如子数据)转换为
json
root我
使用
了以下建议将子
dataframe
导入中间父
模式
/
dataframe
: scala> parentDF.toJSON.select(struct($"value").as("data")
浏览 2
提问于2020-06-02
得票数 0
回答已采纳
2
回答
从
json
模式
表示创建spark数据帧
模式
apache-spark
、
apache-spark-sql
有没有办法将数据帧
模式
序列化为
json
,并在以后反序列化它? 用例很简单:我有一个
json
配置文件,其中包含我需要
读取
的数据帧的
模式
。我希望能够
从
现有
模式
(在
dataframe
中)创建默认配置,并且能够通过从
json
字符串中
读取
相关
模式
来生成稍后
使用
的相关
模式
。
浏览 1
提问于2016-12-04
得票数 30
回答已采纳
2
回答
使用
分区
JSON
的Spark分区投影/下推和
模式
推理
json
、
apache-spark
、
pyspark
、
apache-spark-sql
我想以
JSON
格式
读取
分区数据的子集,
使用
spark (3.0.1)
从
JSON
推断
模式
。x && $"dt" >= y && $"dt" <= z)
读取
时,spark尝试
读取
整个数据集以推断
模式
。(请注意,在这种情况下,除非我指定basePath,否则spark也会丢失type和dt
列
,但这没问题,我可以接受。)我想,我正在寻找的是一
浏览 20
提问于2021-01-27
得票数 4
1
回答
N
列
m行的动态数据帧
scala
、
apache-spark
从
json
(动态
模式
)
读取
数据,并将其加载到
dataframe
。1, "ABC"), (3, "GHIJ")someDF: org.apache.spark.sql.
DataFrame
-----++------+-----+|
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
1
回答
用Structured
读取
模式
读取
Kafka连接JSONConverter消息
json
、
scala
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
我试图实现的是
使用
Spark结构化流
从
Kafka主题中
读取
上面的消息,并创建一个包含列名和其值的
dataframe
,两者都来自
JSON
消息本身。我不想
使用
case类或StructType显式地定义
模式
。(($"value"), "$.payload").alias("payload") 当我查看Y(这是一个
dataframe
)时,它在该
列
中作为
JSON
作为有
浏览 1
提问于2019-01-04
得票数 2
回答已采纳
1
回答
如何将包含序列化的
json
的
列
转换为
dataframe
本身?
json
、
apache-spark
、
pyspark
我之所以觉得这不是的翻版: 之前,我不知道
json
模式
是什么,因此需要推断它。spark.read.<em
浏览 1
提问于2019-01-10
得票数 3
1
回答
如果
从
磁盘
读取
数据或数据在内存中,则JavaRDD减法结果会有所不同
apache-spark
、
spark-dataframe
当我尝试
使用
JavaRDD subtract来比较2个DataFrames时,我遇到了一个奇怪的行为。这就是我正在做的:我尝试通过将2个
DataFrame
( A,B)转换成JavaRDD来比较它们是否相等,然后
从
B中减去A,
从
A中减去B。我没有得到空的结果:
DataFrame
B = sqlContext.read().
json
("src/test
浏览 0
提问于2016-10-21
得票数 1
1
回答
在运行时更改
dataframe
的列名
python
、
pandas
我正在尝试用5
列
值初始化一个空的
dataframe
。比如column1,column2,column3,column4,column5。现在,我希望
从
数据库中
读取
数据,并希望将特定的
列
值
从
数据库插入到此数据中。因为有5
列
,所以单独做比较容易。但是,我必须将
dataframe
的
列
数扩展到70。为此,我
使用
For循环。要更新库仑值,我
使用
的是
dataframe
['column
浏览 0
提问于2014-05-27
得票数 1
回答已采纳
2
回答
解析
json
pyspark的字符串
pyspark
、
fromjson
我正在尝试解析
json
字符串列表中的一
列
,但即使在尝试了
使用
structType、structField等多种
模式
之后,我仍然无法获得该
模式
。"},{"event":"jobAssignment","count":"32"},{"event":"locationAssignment","count":"72"}] 基于这篇文章,我能够派生
浏览 2
提问于2018-12-07
得票数 0
2
回答
将数据存储
模式
保存在S3位置
apache-spark
、
amazon-s3
、
pyspark
、
databricks
我
使用
以下命令
从
databricks中的S3
读取
一个拼图文件我想
读取
dataframe
的架构,我可以
使用
以下命令来完成:但我无法将df_schama对象写入S3上的文件。注意:我不想创建
json
文件。我只想将
浏览 0
提问于2019-06-21
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML
4个解决特定的任务的Pandas高效代码
数据加载、存储与文件格式
Spark之SparkSQL
Apache Spark 2.4 内置的 Avro 数据源实战
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券