腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
将
spark
数据
帧
中
的
列
聚
合为
json
、
、
、
我有以下
spark
dataframe,我希望
将
一
列
中
的
所有
列
聚
合为
一个
JSON
,如下所示:如果输入dataframe为:预期
的
结果将是: <code>A1</code
浏览 6
提问于2020-07-30
得票数 0
1
回答
在df.toPandas().to_csv('mycsv.csv')之后,
数据
在重新读取时会被混淆
、
、
我有一张名叫result_25
的
桌子。我使用此代码成功地
将
数据
导出到磁盘上
的
csv。result_25.toPandas().to_csv('mycsv.csv')rr =
spark
.read.csv('mycsv.csv',inferSchema=True, header=True) 我查了
数据
,看上去很好。但是,当我用.describe() .describe().sh
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
在
spark
中
处理
json
文件
、
、
在
spark
-scala
中
,我需要使用嵌套结构
的
json
文件来创建
数据
帧
我有一个具有复杂嵌套结构
的
json
输入。每天都有可能一些键在任何记录上都不可用(键是可选
的
),键
的
.some可能不会出现在day1上,可能会出现在day2
中
,但我希望得到一个通用
的
输出,其中所有
列
都期望inspite键缺失。我不能使用withcolumn函数并应用默认值,因为如果
浏览 1
提问于2019-10-01
得票数 0
1
回答
spark
json
模式元
数据
可以映射到配置单元?
、
、
在使用apache
spark
时,我们可以很容易地生成一个
json
文件来描述Dataframe结构。此
数据
帧
结构如下所示: "type": "struct", { "type": "stringsap", "business_key"
浏览 1
提问于2020-05-14
得票数 0
1
回答
以键为
列
将
json
字典转换为
spark
dataframe
、
、
是否可以通过
将
键作为具有以下值
的
列
来
将
字典转换为
数据
帧
?created': '2020-10-29T00:00:00+00:00', 'published': 'YES',} 如果我将其转换为
数据
帧
,如下所示:
json
_rdd=sc.parallelize([d
浏览 8
提问于2020-11-19
得票数 0
回答已采纳
1
回答
Spark
的
toDS vs to DF
、
据我所知,可以使用rdd.toDS
将
RDD转换为
数据
集。但是,也存在rdd.toDF。两者之间真的有什么好处吗?我是否应该坚持使用.toDF,并且只在操作链
的
末尾转换为DataSet?或者更早使用toDS有好处吗?下面是一个小
的
具体示例 .read .
json
(...) .zipWithUniqueId .map[(Integer,String
浏览 5
提问于2017-04-13
得票数 6
2
回答
Spark
scala
将
数据
框
列
复制到新
的
数据
框
、
我已经创建了一个带有模式
的
空
数据
帧
。我正在尝试
将
新
数据
帧
中
的
列
添加到for循环中
的
现有
列
中
。._1))k.show()有人能帮我一下吗?
浏览 5
提问于2017-10-03
得票数 0
1
回答
PySpark -保存配置单元表- org.apache.
spark
.SparkException:无法识别配置单元类型字符串
、
、
我正在
将
spark
数据
帧
保存到hive表
中
。
spark
dataframe是一个嵌套
的
json
数据
结构。我可以
将
数据
帧
另存为文件,但它在上面创建了一个配置单元表时失败了,上面写着org.apache.
spark
.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式,然后再将其插入其中,因为
浏览 1
提问于2018-08-11
得票数 2
3
回答
如何
将
数据
集写入Kafka主题?
、
、
、
我使用
的
是
Spark
2.1.0和Kafka 0.9.0。有没有人知道这样
的
事情是否可行?谢谢正如user8371915提到
的
,我试图遵循中所做
的
事情。我用
的
浏览 3
提问于2018-04-06
得票数 6
1
回答
使用部分模式
的
Spark
read
json
、
、
我需要使用
spark
处理一个相当大
的
json
文件。我不需要
json
中
的
所有字段,实际上我只想读取其中
的
一部分(而不是读取所有字段和项目)。我想知道我是否可以使用
json
连接器,并为它提供一个只包含我感兴趣加载
的
字段
的
部分读取模式。
浏览 0
提问于2017-07-14
得票数 0
1
回答
Spark
Java:通过从不同
列
获取值,
将
向量值添加为DataFrame
中
的
新
列
、
、
假设我们有4
列
A,B,C,D
的
数据
帧
。现在我想要
的
是
将
B,C,D
列
值组
合为
向量,并将它们作为新
列
添加到现有的
数据
帧
中
。我希望直接在
数据
帧
内完成此操作,而不是将其转换为RDD,然后
将
向量值添加到RDD,然后再将其转换回dataframe。因为这不是一个好
的
解决方案。因此,我希望一些Java解决方案直接在Dataf
浏览 0
提问于2017-01-13
得票数 1
1
回答
Spark
Join:分析异常引用不明确
、
、
、
您好,我正在尝试连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源
的
说法,当您尝试
将
两个不同
的
数据
帧
连接在一起时,可能会
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
1
回答
使用pyspark - Databricks处理来自事件中心
的
事件
、
、
、
Spark
notebook必须在文档进入Event Hub时读取文档,并与该集合
的
spark
表进行模式匹配(
将
文档
中
的
字段与
spark
表列进行匹配)。
spark
.readStream.format("eventhubs").option(**config).load(). 正如文档中所说,原始消息位于我要转换为字符串
的
数据
帧
的
“body”
列
<
浏览 1
提问于2019-01-12
得票数 0
1
回答
如何
将
一些pyspark dataframe
的
列
转换成一个带有其列名
的
dict,并将它们组合成一个
json
列
?
、
我有以下格式
的
数据
,我想用有两
列
('tag‘和' data ')
的
pyspark来改变它
的
格式。'tag‘
列
值是唯一
的
,'data’
列
值是从原始
列
'date、stock、price‘获得
的
json
字符串,其中'stock’和'price‘组
合为
'A’
列
值,'date
浏览 13
提问于2019-07-19
得票数 1
3
回答
如何处理
spark
sql
中
缺少
的
列
、
、
我们正在处理无模式
的
JSON
数据
,有时
spark
作业会失败,因为我们在
spark
SQL
中
引用
的
一些
列
在一天
中
的
某些时间内不可用。在这些小时内,
spark
作业失败,因为所引用
的
列
在
数据
帧
中
不可用。我尝试过UDF,但是我们缺少太多
的
列
,所以不能真正地检查每一
列
浏览 5
提问于2018-08-10
得票数 2
1
回答
使用通配符读取物理分区
的
数据
、
、
、
如果我使用以下语法读取此
数据
帧
: df =
spark
.read.
json
("s3://bucket/df)" 没有扩展名
的
文件将是我
的
数据
帧
的
一部分,这是不可取
的
。因此,我只想考虑包含以下内容
的
文件.
json
扩展。 因此,我决定读取此
数据
帧
,过滤带有后缀
的
文件*.
jso
浏览 50
提问于2021-02-20
得票数 1
回答已采纳
1
回答
在
spark
cassandra中使用
数据
帧
创建密钥空间时出错
、
、
、
我尝试
将
spark
连接到cassandra,然后从flask对keyspace和table进行查询。 问题是,当我运行web应用程序时,我得到一个错误,告诉我没有创建键空间。
中
,我运行以下命令: val flightRecommendations = finalPredictions.writeStream.foreachBatch { (batchDF: DataFrame我认为这也可能是连接
的
问题,因为我在docker
中
工作,我
的
设置是这样
的
:
s
浏览 30
提问于2020-11-29
得票数 1
1
回答
使用
Spark
将
非规范化配置单元表加载到Elasticsearch
中
、
、
、
、
所以,我已经找到了很多相反
的
答案,但不是这个。现在这听起来很愚蠢,因为Elasticsearch只处理非正规化
的
数据
,但这就是我们面临
的
问题。因此,所有attrs都存在于一个单独
的
表
中
。然而,这些表被非规范化,它们都被放入一个长表
中
。通常情况下,加载到Elasticsearch
中
并不是什么大问题,但是这个表很庞大,大约有1000+
列
。我们希望
将
这些attrs作为数组存储在Elasticsearch
中
浏览 12
提问于2017-07-24
得票数 1
1
回答
Scala
spark
将
数据
帧
中
的
一组
列
聚
合为
JSON
字符串
、
给定一个
数据
帧
,| id| name| payable| strategy|| 1| Tom| 200| st-2|+-----------------------------+{ "payload":
浏览 7
提问于2020-02-20
得票数 0
回答已采纳
1
回答
如何使用nltk (python)获取K均值集群
的
各个质心
、
、
我使用nltk执行k均值
聚
类,因为我希望
将
距离度量更改为余弦距离。但是,如何获得所有集群
的
质心?= centroids[df_clustering['cluster'] - 1].tolist() df_clustering['centroid'] = centroids 我正在尝试对一个熊猫
数据
帧
执行k均值
聚
类,并且希望每个
数据
点
的
聚
类
的
质心坐标在
数据
<em
浏览 23
提问于2019-12-31
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券