使用spark在s3中写入文件，并使用pandas dataframe读取相同文件_如何使用spark streaming读取.csv文件并使用Scala写入拼图文件？_在Python中写入文件，使用Arduino读取文件 - 腾讯云开发者社区

python、pandas

使用spark写一个文件s3通常会创建一个有11个文件成功的目录，另一个文件名以s3中有实际数据的部分名称开头，如何使用pandas dataframe加载相同的文件，因为文件路径会改变，因为所有10个有实际数据的文件在每次运行中解析的文件名都会不同例如，编写时的文件

浏览 0提问于2020-08-17得票数 0

1回答

使用spark在s3中写入文件，并使用pandas* dataframe读取相同文件*

python、amazon-s3、pyspark

使用spark编写文件s3通常会创建两个文件成功的目录，另一个文件名以s3中具有实际数据的部分名称开头，如何使用pandas dataframe加载相同的文件，因为文件路径会发生变化，因为文件名与实际数据在每次运行中都不同例如，编写时的文件路径: df。写。\testfolder.csv(“<

浏览 8提问于2020-07-26得票数 0

1回答

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

apache-spark、amazon-s3、pyspark、boto3、emr

使用PySpark，我有一些代码可以运行在一系列查询中。for index, query in enumerate(query_map): query).write.csv('s3://OutputBucket/Csvs/Query_{}'.format(index) 我是个新手，但我知道每个分区都在将各个csv文件写入一个名为Query_[

浏览 3提问于2018-02-07得票数 1

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

pandas、scala、dataframe、apache-spark

Dataframe是使用scala创建的。val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

PySpark:将输入文件写入单独的输出文件，而无需重新分区

apache-spark、pyspark、parquet

我有一个非常大的每日gzipped文件序列。我正在尝试使用PySpark重新保存所有S3格式的文件，以供以后使用。如果对于单个文件(例如，2012-06-01)，我这样做： dataframe = spark.read.csv('s3://mybucket/input/20120601.gz', schema=my_schema，并且我没有从使用集群

浏览 2提问于2017-12-16得票数 0

1回答

PyArrow表到PySpark数据帧的转换

python-3.x、pandas、pyarrow

我正在尝试将我的Pandas数据帧转换为PySpark数据帧。createDataFrame函数不起作用，所以我找到了PyArrow。我可以转换PyArrow表--> Spark表，但是我找不到任何方法来转换Pandas表--> Spark谢谢

浏览 1提问于2018-11-16得票数 3

2回答

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

python、amazon-s3、zip、azure-databricks、delta-lake

我有存储在s3中的压缩文件，然后我有一个["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]列表，我需要使用Spark集群解压缩所有这些文件，并将所有的CSV文件存储到一个增量格式表中。2)我正在使用PythonBot

浏览 0提问于2019-10-30得票数 6

1回答

星火本地模式-所有作业只使用一个CPU核心

java、amazon-web-services、apache-spark、amazon-ec2

我们在单个AWS EC2实例上以本地模式运行Spark，使用然而，使用New工具和一个简单的“top”进行分析表明，我们16台核心机器中只有一个CPU核心用于我们编写的三个不同的谢谢1)使用sqlContext从磁盘(S3)读取gzipped CSV文件1，并使用com.databricks.spark.csv (S

浏览 2提问于2016-10-31得票数 6

回答已采纳

1回答

Spark Streaming xml文件

xml、apache-spark、spark-structured-streaming

我需要处理流到S3文件夹中的xml文件。目前，我已经实现了如下内容。首先，使用Spark的fileStream读取文件 val data = ssc.fileStream[LongWritable, Text, TextInputFormat]("s3://myfolder("com.databricks.spark.xml").option("rowTag

浏览 0提问于2016-11-18得票数 2

2回答

如何使用pyspark读取Excel文件？

python、pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试使用AWS EMR的Pyspark来读取它驻留在s3中的Excel文件，为此，我下载了spark-excel jars spark-excel_2.11-0.12.4.jar和spark-excel_2.12-0.13.5.jar，并将其放入s3存储桶中=========== df = spark.read.format("com.crealytics.

浏览 109提问于2021-02-13得票数 0

1回答

火花转换Pandas* df到S3*

python、amazon-web-services、pandas、apache-spark、amazon-s3

目前，我正在使用星火与潘达斯框架。如何将Pandas以一种方便的方式转换成可以写入s3的数据。 .format("com.databricks.spark.csv") .save("123.csv")

浏览 0提问于2017-01-03得票数 0

回答已采纳

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

python、pandas、csv、pyspark、dask

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块：data.to_csv('/test-*.csv')因此，我尝试使用

浏览 1提问于2020-09-02得票数 0

1回答

从新位置进行Spark读取保持输出目录不变

apache-spark、spark-structured-streaming

我有一个spark作业，它从源s3://bucket/ source -1文件夹读取(使用结构化流式API)，并写入s3://bucket/destination-1文件夹。检查点保存在s3://bucket/checkpoint-1。现在，我希望从s3://bucket/sour

浏览 0提问于2021-05-01得票数 1

2回答

使用Python将Dask Dataframe转换为Spark dataframe

python、pandas、apache-spark、pyspark、dask

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

amazon-web-services、apache-spark、pyspark、aws-glue

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。我尝试过使用create_dynamic_frame_from_options()，但“路径”连接选项显然不允许我命名该文件。有办法这样做吗？

浏览 1提问于2020-07-15得票数 1

1回答

xlsx pandas写入s3 (带标签)

pandas、amazon-web-services、amazon-s3、xlsx

我有一个项目，需要将数据帧写入s3存储桶中的xlsx。通过df= pd.read_excel(' s3 ://path/file.xlsx')从pandas加载一个文件非常简单。但是向s3写入文件会给我带来问题。 # Create a Pandas dataframe from the

浏览 4提问于2018-12-01得票数 3

3回答

如何将HDFS小文件合并为一个大文件？

bash、scala、apache-spark、hdfs

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

1回答

AWS胶水最大值和转换行

amazon-web-services、amazon-s3、aws-glue、amazon-athena、aws-glue-spark

我正在尝试从源存储桶S1加载使用AWS glue创建的一个表中的数据。源存储桶有4列( session_id, Date, type, action )，值如下。购买交易持续了1分钟，我们得到了相同的2条记录。在某些情况下，我们得不到结束记录 session_id, Date, type, action1, 01jan20 10:01, Purchase我正在尝试AWS glue，希望将目标表/结果存储到S3。有没有人能帮

浏览 15提问于2020-12-06得票数 0

4回答

pandas使用append将数据帧写入parquet格式

python、apache、pandas、parquet

我正在尝试在append模式下将pandas dataframe写成parquet文件格式(在最新的pandas版本0.21.0中引入)。但是，该文件将被新数据覆盖，而不是附加到现有文件。写入语法为读取器语法为 pd.read_parquet(path)

浏览 0提问于2017-11-09得票数 7

1回答

拼图创建从pandas* dataframe到pyarrow表的转换不适用于对象数据类型*

pandas、hive、parquet

我想从csv文件创建一个拼图文件。出于测试目的，我有下面的一段代码，它读取一个文件，并首先将其转换为pandas dataframe，然后再转换为pyarrow表。然后将该表存储在亚马逊网络服务S3上，并希望在该表上运行配置单元查询。输入文件内容：2017|Word 1代码： dataFrame=pd.read_cs

浏览 2提问于2017-04-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用spark编写文件，使用python读取文件

使用spark在s3中写入文件，并使用pandas* dataframe读取相同文件*

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

PySpark:将输入文件写入单独的输出文件，而无需重新分区

PyArrow表到PySpark数据帧的转换

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

星火本地模式-所有作业只使用一个CPU核心

Spark Streaming xml文件

如何使用pyspark读取Excel文件？

火花转换Pandas* df到S3*

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

从新位置进行Spark读取保持输出目录不变

使用Python将Dask Dataframe转换为Spark dataframe

AWS作业create_dynamic_frame_from_options()打开特定的文件？

xlsx pandas写入s3 (带标签)

如何将HDFS小文件合并为一个大文件？

AWS胶水最大值和转换行

pandas使用append将数据帧写入parquet格式

拼图创建从pandas* dataframe到pyarrow表的转换不适用于对象数据类型*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐