Pyspark-使用python或pyspark转换excel文件的行和列

文章/答案/技术大牛

发布

1回答

、、、

我有一些文件(Xlsx)，其中包含代理名称及其数据等数据，然后是代理名称及其数据。示例： ? ? ? 如何添加一个列，该列将包含所有包含其数据的列中的代理名称？

浏览 31提问于2021-09-14得票数 0

1回答

PySpark安全列类型转换

、

如果我将一个列强制转换为不同的类型，那么任何无法强制转换的数据都会被静默转换为NULL：+------++------+| null|+-----

浏览 4提问于2017-09-29得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。"/opt/spark/python/lib/<em

浏览 3提问于2021-11-25得票数 0

1回答

Spark XML -使用Excel中的XML

、、、

我有一个Excel表，其中一列包含xml(每一行都是一个不同的xml)。我正在尝试使用Pyspark和spark-xml通过执行df = spark.read.format('xml').options(rowTag = 'book').load(___)来解析这些内容。当您指定一个xml文件时，load工作得很好，但是是否可以读取Excel表格并循环这些要解析的xml，而不必

浏览 17提问于2020-06-15得票数 2

1回答

无法在putty中的Cron作业中运行python文件

、、

我使用的是Putty，它没有Python3，它有python2或python，所以尝试使用命令来运行python文件。55 08 * * * /usr/bin/python2 /home/user/file.py 还有几条其他命令，但什么也没起作用。我所拥有的python文件运行得非常好，可以使用闪烁2

浏览 4提问于2022-07-24得票数 1

1回答

如何在excel和csv文件中自动跳过行，直到在python中找到标题行为止？

、、

我们是否可以使用python (任何模块)使代码跳过不必要的行，直到在excel和csv文件中找到标题行？在上面的示例中，我们需要自动跳过前3行，然后从第4行开始读取文件，从"G/L“开始，这是文档的主要标题行。

浏览 17提问于2022-09-14得票数 0

回答已采纳

1回答

无法将RDD转换为DataFrame (RDD有数百万行)

、、、

我正在使用ApacheSpark1.6.2但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。"c:\spark\python\lib\pyspark.zip\pyspark\rdd.py", line 1297, in take File "c:\spark\python\lib\<e

浏览 3提问于2017-01-14得票数 4

回答已采纳

2回答

将Excel数据写入Server数据库的脚本

、、、、

我需要某种起点来完成以下任务：现在，我不知道我应该/可以使用什么样的脚本语言来执行这个任务。希望你能给我指明正确的</

浏览 5提问于2012-07-26得票数 0

2回答

如何正确循环和构建pyspark* dataframe*

、、、、

我已经完成了Pyspark dataframe的逻辑，现在必须应用不同的输入并组合结果。我的附加逻辑是广泛的，但仍然完全使用sql，所以我不确定运行时缓慢是由于查询还是for循环。

浏览 0提问于2019-07-03得票数 1

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用sparkimport SQLContext pdf=pd.read_excel('/home/testdata/test

浏览 0提问于2016-01-15得票数 2

1回答

将错误赋值为目录未找到错误的Pyspark命令

、、、、

我已经在Anaconda ( Macbook中的@ OS )上安装了ApacheSpark和Pyspark，也没有安装Hadoop！。/usr/local/lib/python3.8/site-packages/pyspark/bin/load-spark-env.sh:没有这样的文件或目录 /Library/Frameworks/Py

浏览 3提问于2020-02-01得票数 0

1回答

使用python脚本删除.xls中的行

我是python新手，但到目前为止，我想要做的是删除扩展名为.xls的excel文件中的几行。Excel版本为2007。我知道我们可以使用xlrd xlwt包，但我不知道需要执行哪些函数调用来删除行或列。我只删除那些包含具有特定文件的特定列的行。我知道open_workbook和读取行

浏览 0提问于2012-11-22得票数 0

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id&qu

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

在使用Python中的Polars读写Parquet文件时，我可以指定模式吗？

、、、、

当使用Python中的Polars读取CSV文件时，我们可以使用参数dtypes来指定要使用的模式(对于某些列)。我想知道我们在读或写Parquet文件时能做同样的事情吗？我有一些从PySpark生成的Parquet文件，并希望将这些Parquet文件加载到Rust中。锈蚀需要无符号整数，而火花/PySpark

浏览 13提问于2022-05-20得票数 1

1回答

是否需要编辑excel文件(.xlsb)中的几个单元格，并使用客户端凭据将编辑后的excel文件上传到sharepoint？

、、、

我的工作是收集、编辑和上传python中的format.xlsb excel文件，并将编辑后的文件上传到sharepoint。我不想在本地保存它，因为代码应该运行在Azure函数上。我可以从sharepoint收集excel文件的二进制文件，并处理它，但我想编辑excel，并将编辑后的文件上传到相同的路径上，

浏览 7提问于2022-01-26得票数 0

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

、、

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。示例模式是：input DFinput (col

浏览 1提问于2018-12-19得票数 5

1回答

Arduino SD卡和Excel文件

、

我有一个Arduino SD卡，它将数据从IMU传感器保存到一个文本文件中。这有可能让SD卡直接将这些数据保存到excel文件中吗？

浏览 3提问于2016-04-01得票数 0

回答已采纳

1回答

如何将带有时区的奇怪日期时间字符串转换为时间戳(PySpark)

、、、

我有一个名为datetime的列，它是一个表单字符串。Month Name DD YYYY H:MM:SS,nnn AM/PM TZ Mar 18 2019 9:48:08,623 AM MDT纳秒精度是非常重要的，因为日志是如此接近的时间。TZ是可选的，因为它们都在同一个

浏览 1提问于2019-03-19得票数 0

回答已采纳

1回答

将非柱状文本文件转换为柱状CSV/Excel

、、、、

我有一个输入文本文件，其中包含从PDF逐页提取的数据。此输入文本文件没有列和行格式的所有数据。如何将此文件转换为csv或excel格式，并将数据按图中所示的列和行排列。我已经附加了样本输入文件以及所需的样本输出文件。是否有免费软件或Java/<em

浏览 2提问于2019-11-13得票数 1

1回答

如何分配python解释器火花工作人员使用？

、、

我确信PYSPARK_DRIVER_PYTHON PYSPARK_PYTHON env设置成功使用：我想用火药作为启动的python解释器python -m deamon 我不想将默认pyt

浏览 0提问于2018-02-12得票数 1

回答已采纳

点击加载更多