腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
pyspark
中
的
复杂
数据
读
取到
dataframe
中
、
、
我试图创建一个spark
数据
帧,但是有一些问题,有人能帮我解决哪里出了问题吗?array_str2 ], schema) +---------------+---------------+---------------+ 但是我需要创建
数据
帧
浏览 11
提问于2021-09-11
得票数 1
1
回答
在
PySpark
中
,为什么
数据
帧聚合在Kerberized源表上比相同
的
查询内聚合工作得更好?
、
我使用Cloudera发行版Spark 2.1.0在多节点集群上操作,它
的
配置单元分区是Kerberized
的
。我
的
查询相当
复杂
(三个表,包含两个连续聚合
的
嵌套子查询),在写入
PySpark
数据
帧之前,我在SQL
中
运行聚合步骤时遇到了GSSException问题。对
dataframe
的
操作需要30到45分钟,并尝试
将
dataframe
缓存或写入到parquet调用完整
的</
浏览 3
提问于2018-08-23
得票数 0
1
回答
Zeppelin: Scala
Dataframe
to python
、
、
、
如果我有一个带有
DataFrame
的
Scala段落,我可以在python中分享和使用它吗?(据我所知,
pyspark
使用)Scala段落:z.put("xtable", x )%
pyspark
g = g.add_legend()Traceback (most recent call last): File "/tmp/z
浏览 8
提问于2016-03-01
得票数 14
回答已采纳
1
回答
调整
Pyspark
dataframe
中
CSV文件
数据
的
错误
数据
、
、
我试图在
Pyspark
中将CSV文件读
取到
dataframe
中
,但我有一个包含混合
数据
的
CSV文件。它
的
部分
数据
属于它
的
相邻列。有没有办法修改python
中
的
dataframe
以获得预期
的
输出
dataframe
?
浏览 22
提问于2020-01-26
得票数 0
回答已采纳
1
回答
Python:扩展类方法并使用类
的
替换实例
、
、
、
、
我想扩展
pyspark
.sql.
DataFrame
的
读写功能,以满足我自己
的
项目需要。为此,我创建了以下代码 # do something super().write.format(forma
浏览 1
提问于2020-06-17
得票数 0
1
回答
如何
将
Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML
中
缺少多类SVM )
、
、
、
、
我有220 GB
的
数据
。我已经将其作为两列读
取到
spark
dataframe
中
: JournalID和Text。现在,我
的
数据
帧
中
缺少27行。使用NGram类,我在
dataframe
中
添加了另外两个列Unigram和Bigram,其中包含文本列
中
的
单字和双字。然后,我使用一元和二元语法列上
的
pyspark
的
TF和IDF类计算T
浏览 1
提问于2018-12-17
得票数 0
1
回答
如何使用
pyspark
将
bz2文件读
取到
数据
帧
中
?
、
、
、
我可以使用以下命令
将
json文件读入
Pyspark
中
的
dataframe
中
df = spark.read.json("path to json file") 但是,当我尝试
将
bz2(压缩
的
csv)读
取到
数据
帧
中
时,它给我一个错误。
浏览 1
提问于2018-06-05
得票数 7
1
回答
从Ignite 2.8 (as
数据
库)加载
数据
时,Spark
dataframe
编码错误
、
、
我在Windows 10上使用Spark 2.4和Ignite 2.8 当我把
pyspark
dataframe
放到点火表
中
时,它保存得很好。但是,当我
将
这些
数据
从Ignite
读
回
Pyspark
时,
dataframe
又回到了系统默认编码(CP1251)。我不明白如何用正确
的
编码重新获得正确
的
数据
。以下是示例代码: import pandas as pd import
pyspark
浏览 13
提问于2020-04-09
得票数 0
回答已采纳
1
回答
从多个S3存储桶导入
pyspark
dataframe
,其中有一列指示条目来自哪个存储桶
、
、
这些存储桶
中
的
每一个都存储我正在读
取到
pyspark
dataframe
中
的
拼图文件。从每个存储桶生成
的
pyspark
dataframe
具有完全相同
的
模式。我想要做
的
是迭代这些存储桶,并将所有这些拼图文件存储到一个单独
的
pyspark
dataframe
中
,该
数据
框有一个date列,表示<e
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
1
回答
使用
Pyspark
从s3存储桶
中
读取最后一个csv文件
、
、
、
、
因此,我有一个s3存储桶(
数据
),其中有一个名为(First)
的
文件夹,其中包含多个CSV文件,但我不知道该文件
的
名称,现在我想将该文件夹
中
的
最新文件读
取到
pyspark
dataframe
中
。
浏览 15
提问于2021-09-16
得票数 0
2
回答
给定一个包含S3路径
的
列,我想读取它们并存储它
的
级联版本。火花缭乱
、
我有一个包含s3文件路径
的
列,我想读取所有这些路径,稍后在
PySpark
中
连接它。
浏览 15
提问于2022-08-11
得票数 -1
1
回答
如何对
PySpark
DataFrame
的
每一列
中
的
数据
进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我在CSV文件中有以下
数据
,该文件正在被读
取到
Spark
Dataframe
中
,并且我想从一个小
数据
集开始生成一个大型
数据
集。df = (spark.read .option("inferSchema", "true").option("hea
浏览 16
提问于2020-05-11
得票数 0
1
回答
Pyspark
:从blob存储加载一个zip文件
、
、
、
我正在使用
Pyspark
尝试从blob存储区读取zip文件。我想在加载文件后将其解压缩,然后
将
解压缩
的
CSV写回blob存储。我遵循这个指南,它解释了如何解压缩文件一次
读
:file_location = "path_to_my.zip"我希望这样可以以df
的
形式
浏览 3
提问于2020-04-21
得票数 1
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持
数据
作为输入。
、
、
、
我试图使用
pyspark
.pandas API在
数据
库上构造
数据
的
共生矩阵。该代码在熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
` `
pyspark
‘与` `
pyspark
’包
、
、
、
pyspark
mllib和
pyspark
ml包有什么区别?: 我发现
的
一个不同之处是,
pyspark
ml实现了
pyspark
.ml.tuning.CrossValidator,而
pyspark
我
的
理解是,如果在Apache框架上实现算法是mllib,那么库应该使用,但似乎存在分裂? 在没有转换类型
的
情
浏览 4
提问于2017-04-05
得票数 18
回答已采纳
2
回答
Pyspark
dataframe
到pandas
的
转换会丢弃
数据
吗?
、
我有一个相当
复杂
的
过程来创建
pyspark
dataframe
,将其转换为pandas
dataframe
,并将结果输出到平面文件。我不确定错误是在哪一点引入
的
,所以我
将
描述整个过程。开始时,我有一个
pyspark
dataframe
,其中包含ids集
的
成对相似性。EuclideanDistance']) result = (df.withColumn('row_num', row_nu
浏览 1
提问于2018-05-02
得票数 0
1
回答
md5不能处理
pyspark
中
的
复杂
数据
类型
、
、
、
在
pyspark
dataframe
中
,我为几个列提供了多种
复杂
数据
类型。28 requires (array<string> or string) type, however, '`col`' is of array<array<string>> type** :return: output
DataFrame
浏览 0
提问于2020-11-26
得票数 0
1
回答
从
Pyspark
Dataframe
解析JSON字符串
、
、
、
、
我有一个嵌套
的
JSON字典,我需要将其转换为spark
dataframe
。此JSON字典显示在
数据
框列
中
。我一直在尝试使用"from_json“和"get_json_object”来解析
dataframe
列
中
存在
的
字典,但一直无法读取
数据
。以下是我一直在尝试读取
的
源
数据
的
最小片段: {"value": "\u0000\u0000\u0000\u00
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
2
回答
pyspark
.pandas和熊猫有什么区别?
、
开始在Databricks上使用
PySpark
,我看到我可以在pandas
的
同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
如何在
pyspark
中将
数据
帧
的
输出写入CSV文件
、
我正在研究使用
pyspark
的
回归分类算法。我想将模型输出保存到CSV文件
中
。我用过但是它抛出一个错误,声明saveAstextFile属性不在列表
中
。请参阅以下代码并提出建议:from
pyspark
import SparkContext from
pys
浏览 18
提问于2017-07-05
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券