腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
-
将
DataFrame
导出
为
文本
、
、
我在做一些
Pyspark
任务。 我使用一个拼图文件作为源文件,有3列。 其中之一是将我的数据框
导出
到一个以制表符分隔的
文本
文件。我可以使用以下操作来完成此操作: `df.write.option("text").csv("output_file"`) 但是,它
导出
的是csv文件而不是
文本
文件。我能够看到的
导出
文本
文件的唯一方法是只
导出
单个列,但是使用该选项,我去掉了分隔符部分。例如: df = df.select
浏览 94
提问于2020-11-06
得票数 0
回答已采纳
6
回答
如何
将
PySpark
中的表数据框
导出
到csv?
、
、
、
、
我使用的是Spark 1.3.1 (
PySpark
),并且我已经使用SQL查询生成了一个表。我现在有一个对象,它是一个
DataFrame
。我想把这个表对象(我把它叫做“
DataFrame
”)
导出
到一个csv文件中,这样我就可以操作它并绘制列。如何
将
DataFrame
“表”
导出
为
csv文件? 谢谢!
浏览 813
提问于2015-07-13
得票数 92
回答已采纳
1
回答
在python中导入
pyspark
.sql.
dataframe
.
DataFrame
时出错
、
、
然后,当
将
pyspark
.sql.
dataframe
.
DataFrame
作为包导入时,我会得到一个错误。Import "
pyspark
.sql.
dataframe
.
DataFrame
" could not be resolvedPylancereportMissingImports 原因何在?
浏览 3
提问于2022-10-26
得票数 0
1
回答
将
解析
文本
文件火花发送到
DataFrame
、
目前,我可以通过RDD使用以下代码
将
文本
文件解析
为
DataFrame
: # Do parse logic...return
pyspark
.sql.Row(...)raw_rdd = spark_context.textFile(full_source_path) # Convert RDD of strings to RDD of
pyspark
.sql.Rowrow_rdd = raw_rdd
浏览 6
提问于2016-09-02
得票数 0
回答已采纳
1
回答
用笔记本
将
数据从Azure Synapse数据库加载到
DataFrame
中
、
我试图从Azure Synapse DW中加载数据到一个数据文件中,如图像所示。AttributeError: 'DataFrameReader' object has no attribute 'sqlanalytics' 对我做错了什么有什么想法吗?
浏览 2
提问于2021-08-17
得票数 1
回答已采纳
2
回答
CreateProcess error=5,访问被拒绝-火花源
、
、
、
count / NUM_SAMPLES 1129 1120 1121 def count(self)
浏览 4
提问于2020-02-26
得票数 0
1
回答
是否可以在
PySpark
中解除
DataFrame
的标记?
、
、
、
、
在标记化并删除停用词之后,我想要取消标记化剩余的单词并
导出
到csv。这有可能吗?("StopWords").getOrCreate()from
pyspark
spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("myfile.csv"), sep=",", header=True)
浏览 18
提问于2021-02-17
得票数 1
2
回答
将
Spark (
pyspark
.pandas.
Dataframe
)从Azure DataBricks
导出
到Excel文件
、
、
、
、
我很难
将
一个
pyspark
.pandas.
Dataframe
导出
到一个Excel文件。我发现很多与性能和方法有关的困难。
pyspark
.pandas.
Dataframe
有一个内置的to_excel方法,但是当文件大于50 to时,命令在1小时后出现超时错误(似乎是众所周知的)。 下面可以找到一个代码示例。最后
将
文件保存在DBFS上
浏览 13
提问于2022-09-14
得票数 0
回答已采纳
1
回答
如何从
文本
文件中删除特定分隔符并作为
dataframe
加载到
pyspark
中
、
我有一个以"|~“
为
分隔符的
文本
文件。在
pyspark
中加载
文本
文件作为
dataframe
时,如何删除它? ?
浏览 7
提问于2021-10-26
得票数 0
2
回答
使用lower函数在
文本
清理中将
pyspark
dataframe
中的单个列中的值转换为小写
、
尝试使用.lower函数
将
pyspark
dataframe
单列中的值转换为小写,以便进行
文本
清理f.lower(f.col(col
浏览 0
提问于2019-02-21
得票数 0
1
回答
如何在
Pyspark
dataframe
中使用POS标签执行词汇化(不使用Pandas)
、
、
如何在
Pyspark
dataframe
中使用POS标签执行词汇化(不使用Pandas) 我对
pyspark
和尝试词性标注的词汇化是个新手。我的数据是表格格式的。
将
列作为
文本
的。我已经清理了
文本
,但无法使用词性对标记进行词法分类。
浏览 14
提问于2019-06-06
得票数 0
1
回答
在保留模式的同时
导出
熊猫数据
、
、
我正在处理一个
dataframe
,它的每一行都由不同的python字典组成。我希望能够
将
这些数据存储到磁盘中并移动这些数据,但是
将
数据保存到.csv文件格式将使格式化信息消失。是否有任何格式可以在不放松模式的情况下
导出
dataframe
? 我可以用.parquet格式在
pyspark
中做类似的事情。熊猫中有类似的东西吗?
浏览 1
提问于2017-08-16
得票数 1
回答已采纳
1
回答
使用套接字的火花结构化流,设置模式,在控制台中显示
DATAFRAME
、
、
、
如何在
DataFrame
中
为
流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builder\
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
在CSV文件中处理JSON对象并保存到
PySpark
DataFrame
、
、
、
、
如果我尝试
将
文件读取
为
CSV,那么JSON对象将在其他列中重叠。Test_File.pyfrom
pys
浏览 2
提问于2020-09-23
得票数 1
2
回答
配置单元orc表的sqoop
导出
、
、
我有一个由
pyspark
dataframe
_writer填充的orc格式的蜂窝表。我需要将这个表
导出
到oracle.我在
导出
表时遇到问题,因为sqoop无法解析orc文件格式。对于
导出
hive orc表,是否需要使用sqoop命令指定任何特殊的注意事项或参数。
浏览 0
提问于2017-02-22
得票数 0
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中,如何
将
Dataframe
转换为普通字符串?我
将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是在
PySpark
中参数化了Kafka broker名称。这些变量
为
带有字符串的
Dataframe
类型。错误: 只能将字符串(不是
Dataframe
浏览 0
提问于2021-03-05
得票数 0
1
回答
R
将
字符串转换为图像
、
、
我有一个数据帧df <- as.
dataframe
(矩阵(nrow= 100,ncol = 1)),其中df$text有一组
文本
字符串。我想要将每个df$text值转换为image,然后
导出
为
image。我尝试
将
每个df$texti
导出
为
.txt文件,然后
导出
为
.pdf,然后
导出
为
图像,但在这种情况下,我得到了一个A4尺寸的图像,其中包含
文本
字符串。我想要的是只有一个图像,这
浏览 26
提问于2019-09-06
得票数 0
回答已采纳
1
回答
Pyspark
句柄从字符串转换为十进制
、
我是在Databricks中使用
Pyspark
的新手,所以这就是为什么我要与以下内容斗争的原因:我有一个
dataframe
,它有数据类型
为
string的列。这是因为我要
导出
Azure SQL数据库中的架构和数据。我尝试了以下几种方法: 从
pyspark
.sql.functions导入列从
pyspark
.sql.types导入DecimalType newouterjoindffinal = newouterjoindf.withColumn有些记录的数据
为
-100,88
浏览 23
提问于2021-10-25
得票数 0
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.squeeze()
将
datafram
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
从Pandas
DataFrame
创建火花
DataFrame
、
、
、
我正在尝试从一个简单的Pandas
DataFrame
构建一个火花
DataFrame
。这是我遵循的步骤。产出如下: -字符串(nullable = true) spark_df.show()SparkSession -蜂巢火花用户界面师父:本地*,这是我的静脉:
导出
PYSP
浏览 0
提问于2019-02-14
得票数 12
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将PPT文档导出为视频格式
使用python代码将excel中的图表导出为图片
PySaprk之DataFrame
如何在CDH集群上部署Python3运行环境及运行Python作业
Dataiku DSS Code Recipe 介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券