pyspark合并覆盖为一个具有固定名称的文件_合并多个csv文件在合并后的文件中创建一个新列，该列中具有示例名称 - 腾讯云开发者社区

、、

我们有一个自动化管道的需求。我的需求是使用具有固定名称的pyspark生成/覆盖一个文件但是，我现在的命令是- final_df.coalesce(1).write.option("header", "true").csv("s3://finalop/" , mode="

浏览 25提问于2020-10-14得票数 0

回答已采纳

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件</

浏览 14提问于2020-02-17得票数 2

回答已采纳

3回答

需要对txt文件运行GPSBabel命令

、、、、

我正在使用windows 10，我的当前项目要求我将几个TXT文件合并到一个文件中。问题是TXT文件具有所有相同的名称，区别在于它们的文件夹名。例如：具有13位随机名称gpsdata.txt的文件夹具有13位随机名称的文件夹(随机名称gp

浏览 4提问于2021-09-16得票数 1

2回答

我在每个模块中指定了原则应该使用每个模块的module.config.php文件查找实体的位置。目前，我有两个模块，包含两个不同的module.config文件，这些是我指定Doctrine应该在其中找到实体的路径的行： module.config.php (MailTemplates (模块))如果我注释module.config.php of MailTemplate模块的行，并再次执行命令，我就可以看到应用程序模块实体中的表已经

浏览 2提问于2016-12-12得票数 0

回答已采纳

1回答

在pyspark中使用foreachPartition()函数时，如何知道当前正在运行哪个分区？

、、、

我要求将分区保存到文本文件中，每个分区具有不同的名称。但是当在代码片段下面运行时，只有一个文件通过覆盖以前的分区来保存。) sc.parallelize([1,2,3,4,5,6],num_partions).foreachPartition(chunks) 有没有办法让我知道当前在pySpark中运行的是哪个分区？

浏览 61提问于2020-06-21得票数 0

2回答

脚本合并视频和子文件然后删除现有文件(非递归)

、、

我一直在使用mkvmerge合并视频文件和字幕，我使用以下命令它工作得很好，但你可能会猜到这真的是很慢的操作我必须在每一个存储电影的目录中打开终端。然后我要重命名输出文件这是一个漫长的过程。我想要<

浏览 0提问于2017-07-26得票数 7

回答已采纳

1回答

如何在Pyspark中以编程方式解析固定宽度的文本文件？

、、

这篇文章很好地展示了如何使用pyspark ()将固定宽度的文本文件解析成Spark数据帧。我有几个要解析的文本文件，但每个文件的模式都略有不同。而不是像上一篇文章所建议的那样，为每个文件编写相同的过程，我想编写一个通用函数，它可以解析给定宽度和列名的固定宽度文本文件。我是pyspark<e

浏览 0提问于2017-09-08得票数 2

1回答

方法pow不存在错误火花误差

、、

当我创建一个dataframe，然后用函数pow进行一些转换时，它就能工作了。但当我推动它在现实世界中运行时，它就没有了。在我的虚拟场景中，列的数据类型和实际场景是相同的。from pyspark.sql.types import StructType,StructField, IntegerType, DoubleType columns = ["CounterpartID(生产作业)中，我没有df，而是有一个真实的dataframe (当然)，其中<em

浏览 7提问于2022-08-11得票数 0

回答已采纳

1回答

用固定和可变的C部分编写文件

、、

我有以下问题:日历文本文件和二进制文件应该有一个带有固定部分和变量部分的名称。使用time函数(在time.h中)或其他一些自动机制来确保，当您在更新日历后将文件写回外部时，您不会覆盖您读取的文件，而是会写入一个新版本的文件，该版本显然是最近的。知道我有一个管理日历的程序。是否可以使用time.h库创建

浏览 1提问于2012-11-28得票数 0

回答已采纳

1回答

Dynaconf使用.secrets.toml覆盖settings.toml中的部分

我使用Dynaconf (3.1.2)来处理我的python应用程序设置。如果我在settings.toml和.secrets.toml上使用相同的密钥，那么这两个部分最后只有secrets文件中的值，不再有设置文件中的值。我该怎么处理呢？

浏览 142提问于2020-10-15得票数 1

回答已采纳

1回答

继承Maven配置文件和激活

、

我的maven项目定义了一个具有激活条件的配置文件，并有一个子模块。父项目的激活条件被忽略，我必须将其复制到子项目。container 文物中缺少“本地”特征的依赖关系。如果删除围绕激活的注释，则依赖项是可用的。当我从父项目和子项目的目录运行mvn package时，结果相等。奇怪的是，help:active-profiles说，如果激活是在子节点中注释掉的，那么配置文件是可以获得

浏览 7提问于2022-04-27得票数 0

1回答

cmake find_program命令找不到lib.exe

在我的CMake文件中，当在Windows上构建时，我需要在自定义命令中使用lib.exe，以将多个静态库合并为一个。我尝试使用find_program命令查找可执行文件： find_program(LIB_EXE NAMES lib.exe) 但它总是将变量设置为not found。找到lib.exe的正确方法是什么？编辑固定名称->名称，但仍未找到该程序

浏览 83提问于2019-01-20得票数 1

2回答

火花性能问题-将分区作为单个文件写入S3

、、、、

我正在运行一个火花作业，其任务是扫描一个大文件并将其分割成较小的文件。这个文件是Json格式的，我试图用一个特定的列(id)来划分它，并将每个分区作为一个单独的文件保存到S3中。文件大小约为12 GB，但id有大约500000个不同的值。查询所用的时间几乎是15个小时。我能做些什么来提高性能呢？对于这样的任务来

浏览 3提问于2020-08-01得票数 1

1回答

如何使用Jupyter选项内联启动pyspark？

、、、

我尝试使用Jupyter Lab选项(内联)运行pyspark，如下所示。PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.notebook_dir='/' --NotebookApp.port=4444" $SPARK_HOME/bin/pyspark 这种方法的灵感来自于。但是，当执行该命令时，将从

浏览 22提问于2019-11-06得票数 1

1回答

我可以让Doxygen合并不同文件中的命名空间内容吗？

、

我有不同的.h文件，每个文件都在相同的名称空间中提供声明。Doxygen为每个文件生成一个具有相同名称的新条目。我可以让doxygen合并所有这些吗？

浏览 0提问于2012-06-15得票数 1

1回答

如何使用读取csv文件的py2neo在neo4j中创建不同的关系？

、、

我想读入一个csv文件，其中前两列具有节点名称，第三列具有节点关系。目前，我在py2neo中使用以下代码： query2 =“ 使用定期提交使用"file:///data.csv“AS line”中的标题加载CSV 合并(topic:Topic {name: line.Topic}) 合并(结果:结果{名称: line.Result}) 创建唯一(主题)-：讨论->(结果) "

浏览 21提问于2020-04-24得票数 0

回答已采纳

1回答

如何合并Bazel中多个.dat文件的覆盖率

、

我能够使用bazel命令生成coverage.dat文件：这会为其中一个类生成报告，因为coverage.dat文件是为不同目录中的每个检测文件分别生成的。如何获得合并的coverage.dat？

浏览 7提问于2017-09-22得票数 4

回答已采纳

2回答

如何在没有sha的情况下将索引部署到s3

、、、

在之后，我成功地将索引部署到一个存储静态web主机的桶中，并将另一个存储这些资产的桶部署到桶中。我想自动化(CI)部署过程，但是有两个问题：我希望我的索引文件有一个固定

浏览 3提问于2015-07-02得票数 0

回答已采纳

1回答

如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra数据传输到火花源？

、、、、

我只是使用querycassandra处理器查询cassandra表，但我不理解的是如何将Json输出文件作为输入文件传递给ExecutePyspark处理器，然后我需要将我的Spark数据传递给Hive我的查询Cassandra属性：火花特性：

浏览 1提问于2018-03-14得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云