Pyspark -将DataFrame导出为文本_将架构推断为DataFrame pyspark_使用Pyspark将JSON读取为dataframe - 腾讯云开发者社区

、、

我在做一些Pyspark任务。我使用一个拼图文件作为源文件，有3列。其中之一是将我的数据框导出到一个以制表符分隔的文本文件。我可以使用以下操作来完成此操作： `df.write.option("text").csv("output_file"`) 但是，它导出的是csv文件而不是文本文件。我能够看到的导出文本文件的唯一方法是只导出单个列，但是使用该选项，我去掉了分隔符部分。例如： df = df.select

浏览 94提问于2020-11-06得票数 0

回答已采纳

6回答

如何将PySpark中的表数据框导出到csv？

、、、、

我使用的是Spark 1.3.1 (PySpark)，并且我已经使用SQL查询生成了一个表。我现在有一个对象，它是一个DataFrame。我想把这个表对象(我把它叫做“DataFrame”)导出到一个csv文件中，这样我就可以操作它并绘制列。如何将DataFrame“表”导出为csv文件？谢谢!

浏览 813提问于2015-07-13得票数 92

回答已采纳

1回答

在python中导入pyspark.sql.dataframe.DataFrame时出错

、、

然后，当将pyspark.sql.dataframe.DataFrame作为包导入时，我会得到一个错误。Import "pyspark.sql.dataframe.DataFrame" could not be resolvedPylancereportMissingImports 原因何在？

浏览 3提问于2022-10-26得票数 0

1回答

将解析文本文件火花发送到DataFrame

、

目前，我可以通过RDD使用以下代码将文本文件解析为DataFrame： # Do parse logic...return pyspark.sql.Row(...)raw_rdd = spark_context.textFile(full_source_path) # Convert RDD of strings to RDD of pyspark.sql.Rowrow_rdd = raw_rdd

浏览 6提问于2016-09-02得票数 0

回答已采纳

1回答

用笔记本将数据从Azure Synapse数据库加载到DataFrame中

、

我试图从Azure Synapse DW中加载数据到一个数据文件中，如图像所示。AttributeError: 'DataFrameReader' object has no attribute 'sqlanalytics' 对我做错了什么有什么想法吗？

浏览 2提问于2021-08-17得票数 1

回答已采纳

2回答

CreateProcess error=5，访问被拒绝-火花源

、、、

count / NUM_SAMPLES 1129 1120 1121 def count(self)

浏览 4提问于2020-02-26得票数 0

1回答

是否可以在PySpark中解除DataFrame的标记？

、、、、

在标记化并删除停用词之后，我想要取消标记化剩余的单词并导出到csv。这有可能吗？("StopWords").getOrCreate()from pysparkspark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("myfile.csv"), sep=",", header=True)

浏览 18提问于2021-02-17得票数 1

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我很难将一个pyspark.pandas.Dataframe导出到一个Excel文件。我发现很多与性能和方法有关的困难。pyspark.pandas.Dataframe有一个内置的to_excel方法，但是当文件大于50 to时，命令在1小时后出现超时错误(似乎是众所周知的)。下面可以找到一个代码示例。最后将文件保存在DBFS上

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

如何从文本文件中删除特定分隔符并作为dataframe加载到pyspark中

、

我有一个以"|~“为分隔符的文本文件。在pyspark中加载文本文件作为dataframe时，如何删除它？ ?

浏览 7提问于2021-10-26得票数 0

2回答

使用lower函数在文本清理中将pyspark dataframe中的单个列中的值转换为小写

、

尝试使用.lower函数将pyspark dataframe单列中的值转换为小写，以便进行文本清理f.lower(f.col(col

浏览 0提问于2019-02-21得票数 0

1回答

如何在Pyspark dataframe中使用POS标签执行词汇化(不使用Pandas)

、、

如何在Pyspark dataframe中使用POS标签执行词汇化(不使用Pandas) 我对pyspark和尝试词性标注的词汇化是个新手。我的数据是表格格式的。将列作为文本的。我已经清理了文本，但无法使用词性对标记进行词法分类。

浏览 14提问于2019-06-06得票数 0

1回答

在保留模式的同时导出熊猫数据

、、

我正在处理一个dataframe，它的每一行都由不同的python字典组成。我希望能够将这些数据存储到磁盘中并移动这些数据，但是将数据保存到.csv文件格式将使格式化信息消失。是否有任何格式可以在不放松模式的情况下导出dataframe？我可以用.parquet格式在pyspark中做类似的事情。熊猫中有类似的东西吗？

浏览 1提问于2017-08-16得票数 1

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builder\

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。Test_File.pyfrom pys

浏览 2提问于2020-09-23得票数 1

2回答

配置单元orc表的sqoop导出

、、

我有一个由pyspark dataframe_writer填充的orc格式的蜂窝表。我需要将这个表导出到oracle.我在导出表时遇到问题，因为sqoop无法解析orc文件格式。对于导出hive orc表，是否需要使用sqoop命令指定任何特殊的注意事项或参数。

浏览 0提问于2017-02-22得票数 0

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。这些变量为带有字符串的Dataframe类型。错误：只能将字符串(不是Dataframe

浏览 0提问于2021-03-05得票数 0

1回答

R将字符串转换为图像

、、

我有一个数据帧df <- as.dataframe(矩阵(nrow= 100，ncol = 1))，其中df$text有一组文本字符串。我想要将每个df$text值转换为image，然后导出为image。我尝试将每个df$texti导出为.txt文件，然后导出为.pdf，然后导出为图像，但在这种情况下，我得到了一个A4尺寸的图像，其中包含文本字符串。我想要的是只有一个图像，这

浏览 26提问于2019-09-06得票数 0

回答已采纳

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark.sql.types导入DecimalType newouterjoindffinal = newouterjoindf.withColumn有些记录的数据为-100,88

浏览 23提问于2021-10-25得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将datafram

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

从Pandas DataFrame创建火花DataFrame

、、、

我正在尝试从一个简单的Pandas DataFrame构建一个火花DataFrame。这是我遵循的步骤。产出如下： -字符串(nullable = true) spark_df.show()SparkSession -蜂巢火花用户界面师父:本地*，这是我的静脉：导出PYSP

浏览 0提问于2019-02-14得票数 12

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云