动态构建用于导出到csv的大型数据帧(spark或pandas)的方法

apache-spark、hive、pyspark、apache-spark-sql、hiveql

我有一个非常大的csv文件，所以我使用spark并将其加载到spark数据帧中。我需要从csv上的每一行提取纬度和经度，以便创建folium地图。使用pandas，我可以用一个循环解决我的问题： for index, row in locations.iterrows(): folium.CircleMarker(location=(row["Pickup_latitude"], row["Pickup_longitude"]), radiu

浏览 27提问于2018-05-30得票数 0

2回答

Pyspark将多个csv文件读取到一个数据帧中(或RDD?)

python、apache-spark、pyspark、spark-dataframe、jupyter-notebook

我有一个Spark 2.0.2集群，我正在通过Pyspark通过Jupyter Notebook访问它。我有多个以管道分隔的txt文件(加载到HDFS中。我需要使用spark-csv将其加载到三个独立的数据帧中，具体取决于文件的名称。我认为我可以采取三种方法--或者我可以使用python以某种方式遍历HDFS目录(还没有想出如何做到这一点，加载每个文件，然后执行联合。我还知道在spark中有一些通配符功能(参见) -我可能可以利用最后，我可以使用pandas从磁盘加载vanilla csv文件作为pandas数据帧，然后创建spark数据帧。这里的缺点是这些文件很大，加载到单个节点上的内

浏览 0提问于2016-12-14得票数 7

回答已采纳

1回答

火花数据帧

dataframe、apache-spark、pyspark

星火数据帧和Pandas数据帧的区别是什么？我的理解是，Pandas数据框架主要用于将CSV数据读入DF，在DF中，Spark数据帧用于将弹性分布式数据( RDD )加载到数据帧中，并且可以操作数据帧。请分享你的反馈

浏览 6提问于2020-09-01得票数 0

回答已采纳

2回答

Julia Dataframes vs Python pandas

python、pandas、dataframe、julia

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas更有优势，除了非常大的数据集和运行许多循环的东西(比如神经网络)？

浏览 0提问于2014-04-27得票数 16

回答已采纳

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

pandas、apache-spark、dataframe、pyspark、apache-spark-sql

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

4回答

将csv文件内容导入pyspark数据格式

pyspark

我如何将一个.csv文件导入？我甚至尝试在Pandas中读取csv文件，然后使用createDataFrame将其转换为createDataFrame，但它仍然显示出一些错误。有人能指引我渡过难关吗？另外，请告诉我如何导入xlsx文件？我试图将csv内容导入熊猫数据格式，然后将其转换为spark数据帧，但它显示了错误： "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeExceptio

浏览 0提问于2016-08-01得票数 14

1回答

输出到Pandas Dataframe？

python、pandas

我是python的新手，我希望输出到pandas dataframe，这样其他包就可以使用它了。有人能解释一下我在实践中需要做什么吗？例如，要将表输出到交叉表，我将执行以下操作： import pandas as pd income_final = pd.read_csv("D:\\data\\income17-18_data.csv") income2 = income_final[(income_final.benefits == 1)] pd.crosstab(income2.benefits, income2.taxes) 我该如何将其输出到pan

浏览 30提问于2020-04-14得票数 0

回答已采纳

2回答

在spark中，如何从没有列名的CSV文件创建带模式的dataframe？

csv、apache-spark、dataframe、schema

我有一个只有数据但没有列名的CSV文件，现在我想用这个CSV文件的数据在Spark中创建一个数据帧，并为它创建模式(列名和数据类型)。我的代码如下： import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc) val employee = sqlContext.read.format("com.databricks.spark.csv") .option("header", "false") .option("inferSchema",

浏览 52提问于2019-02-26得票数 0

1回答

PySpark数据显示错误的值

python、pandas、dataframe、pyspark、spark-dataframe

我刚刚从Pandas转到了PySpark dataframe，发现在PySpark dataframe中打印出相同的列会给出错误的值。下面是一个例子:使用Pandas： df_pandas=pd.read_csv("crime.csv", low_memory=False) print(df_pandas["CRIMEID"].head(5)) Output: 1321797 1344185 1181882 1182632 1195867 而使用PySpark数据帧： df_spark = sqlContext.read.format('csv'

浏览 1提问于2018-02-27得票数 0

回答已采纳

1回答

使用大型np.arrays导出pandas数据帧的csv

python、pandas、deep-learning、export-to-csv、numpy-ndarray

我正在为google colab环境中的语音情感识别构建一个深度学习模型。从音频文件中提取数据和特征的过程大约需要20+分钟的运行时间。因此，我制作了一个pandas DataFrame，其中包含了我想要导出到CSV文件中的所有数据，这样我就不需要每次都等待那么长时间来提取数据了。因为音频文件平均每秒有44,100帧(采样率(Hz))，所以我得到了一个巨大的值数组，因此df.sample显示例如：每个'x‘数组都有大约170K的值，但只在df.sample中显示了这种最小化表示。不幸的是，df.to_csv复制的是精确的表示，而不是完整的数组。有没有办法将完整的DataFram

浏览 1提问于2021-03-09得票数 0

1回答

Pyspark over zeppilin:无法导出为csv格式？

pyspark、export-to-csv、apache-zeppelin

我正在尝试将数据帧导出到S3存储桶的.csv文件中。不幸的是，它保存在拼图文件中。谁能让我知道，如何得到出口火花源数据帧到.csv文件。我尝试了下面的代码: predictions.select("probability").write.format('csv').csv('s3a://bucketname/output/x1.csv') 它抛出这个错误: CSV数据源不支持结构，values:array>数据类型。感谢任何人的帮助。注意:我的spark设置是基于zepplin的。谢谢，Naseer

浏览 15提问于2019-02-11得票数 2

回答已采纳

0回答

将句子连接到数据帧

python、pandas

我想要将数据帧导出到csv。但最重要的是，我想打印数据帧的日期，以在csv文件中产生以下结果。如何将字符串句子连接到数据帧中，以便将其一起导出到csv？ import pandas as pd import datetime as dt today1=dt.datetime.today().strftime('%Y%m%d') print('This dataframe is created on ',today1) df=pd.DataFrame({'A':[1,2],'B':[3,4]}) print(df) df.to_c

浏览 5提问于2016-12-20得票数 1

回答已采纳

1回答

python、pandas、apache-spark、pyspark、databricks

我有一个csv，我使用spark.read导入到databricks中。这个大文件包含每日级别的记录/事务。我将数据帧减少到5列，并保持500,000行不变。我正在尝试构建这个源文件的汇总表，它在一个月级别(聚合)表示这些记录/事务。该脚本有一个filter/groupby/sum命令，该命令返回一行，将数据汇总为一个月的计数。查询返回的行将如下所示： +---------+---------+-------+-------------+ | Country|StockCode|YYYY-MM|sum(Quantity)| +---------+---------+-------+---

浏览 12提问于2020-07-12得票数 0

3回答

读取R中的pickle文件(PANDAS Python数据框)

python、r、pandas、dataframe

有没有一种简单的方法将Pandas Dataframe中的pickle文件(.pkl)读取到R中？一种可能是导出到CSV并让R读取CSV，但这对我来说似乎真的很麻烦，因为我的数据帧相当大。有没有更简单的方法呢？谢谢!

浏览 0提问于2016-02-01得票数 32

回答已采纳

2回答

重复将多个Panda数据名导出到多个csv文件的任务

pandas、dataframe、csv、for-loop

我对Pandas/Python有些陌生(更深入地了解SAS)，但我的任务如下:我有四个Pandas数据帧，我想将它们分别导出到一个单独的csv文件中。csv的名称应与原始数据帧(forsyning.csv、inntak.csv等)相同。到目前为止，我已经用数据帧的名称创建了一个列表，然后尝试将该列表放入一个for循环，以便生成一个接一个的csv。但我只做了一半。到目前为止我的代码如下： df_list = ['forsyning', 'inntak', 'behandling', 'transport'] for i in

浏览 8提问于2021-01-27得票数 2

回答已采纳

1回答

pyspark:创建多个dataframe失败

python、pandas、pyspark

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示： import pandas as pd from pyspark import SparkContext,SQLContext df1 = pd.read_csv('data1.cat',delim_whitespace=True) df2 = pd.read_csv('data2.cat',delim_whitespace=True) sc = SparkContext() sql = SQLContext(sc) spark_df1 = sql.createDa

浏览 208提问于2020-06-08得票数 0

回答已采纳

3回答

Python -如何从Smartsheets直接创建熊猫数据帧？

python、pandas、dataframe、smartsheet-api、smartsheet-api-2.0

我不知道如何导入Smartsheet并将其转换为pandas数据帧。我想要操作来自smartsheets的数据，目前我转到smartsheets导出到csv并在python中导入csv，但我想消除这一步，这样它就可以按计划运行。 import smartsheet import pandas as pd access_token ='#################' smartsheet = Smartsheet(access_token) sheet = smartsheet.sheets.get('Sheet 1') pd.DataFrame(sh

浏览 37提问于2019-12-07得票数 1

0回答

Python Spark-如何将空的DataFrame输出到csv文件(仅输出头)？

csv、apache-spark、pyspark、spark-dataframe

我想将空数据帧输出到csv文件。我使用以下代码： df.repartition(1).write.csv(path, sep='\t', header=True) 但是由于数据帧中没有数据，spark不会将头文件输出到csv文件中。然后我将代码修改为： if df.count() == 0: empty_data = [f.name for f in df.schema.fields] df = ss.createDataFrame([empty_data], df.schema) df.repartition(1).write.csv(path, se

浏览 2提问于2017-11-29得票数 7

1回答

使用pyspark在Azure Blob存储中将多个csv文件合并为一个csv文件

azure、pyspark、azure-blob-storage、azure-databricks

我使用下面的代码将csv文件保存回blob存储，尽管它在循环中运行时会创建多个文件。现在我想将它们合并到一个单独的csv文件中。虽然我已经使用了dbutils.fs.cp/mv，但它没有什么帮助 while start_date <= end_date: df = spark.read.format("com.databricks.spark.csv").options(header="true", inferschema="true").load(inputFilePath) df.coalesce(1).write.mode("

浏览 15提问于2019-08-20得票数 1

回答已采纳

1回答

如何从pyspark dataframe中更快地保存csv文件？

python、apache-spark、hadoop、pyspark

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

2回答

如何确定数据帧是Pandas还是Spark？

pandas、apache-spark、dataframe

我将一个数据帧传递给一个函数。有时是Pandas数据帧，有时是Spark数据帧。我的函数需要采取相应的行动。有没有简单的方法，比如df.isPandas()，来确定一个数据帧(作为“df”接收)是Pandas数据帧还是Spark数据帧？提前谢谢。

浏览 17提问于2019-05-14得票数 1

回答已采纳

4回答

Pyspark: Jupyter Notebook中的spark数据帧列宽配置

python、apache-spark、pyspark、spark-dataframe、jupyter-notebook

我在Jupyter Notebook中有以下代码： import pandas as pd pd.set_option('display.max_colwidth', 80) my_df.select('field_1','field_2').show() 我想增加列宽，这样就可以看到field_1和field_2的完整值。我知道我们可以对pandas数据帧使用pd.set_option('display.max_colwidth', 80)，但它对spark数据帧似乎不起作用。有没有办法增加spark数据帧的列宽，就像我们对p

浏览 2提问于2016-08-26得票数 2

1回答

将大型数据框导出到可供Power BI使用的单个文件的最佳方法

pyspark、powerbi、azure-databricks

我正在Azure Databricks中处理大量输入文件。我的最终数据帧大约有9800万行。我需要将其从Databricks导出，以便我可以将其导入Power BI进行报告。 Power BI目前似乎没有一个连接器可以解释分区的性质，如果我只是简单地将数据帧写入CSV。使用合并或转换为pandas数据帧并导出到CSV的速度非常慢，并且容易受到群集上的资源限制。我尝试过上述两种方法，但收效甚微。要以Power BI可以理解的方式有效地导出我的数据帧，我还有哪些其他选择？我不介意这是从Databricks方面还是从Power Query方面进行处理。

浏览 10提问于2019-04-29得票数 0

1回答

Pandas dataframe to_csv()默认将字符串"1“转换为"1.0”

pandas

默认情况下，Pandas数据帧to_csv()执行不需要的格式转换。我有一个Excel工作表，其中包含引用web应用程序中的选项项的整数值的列。在将这些整数值导出到CSV之前，我花了相当大的力气将它们转换为字符串。但是，当我这样做时，to_csv()仍然将"1“转换为"1.0”，将"0“转换为"0.0”。第一个问题是，我如何防止熊猫这样做？第二个问题，为什么to_excel()没有显示这种行为。如果我将我的数据框导出到Excel中，整数值将被正确地保留。我在Mac OSX Mojave上的虚拟环境中使用Pandas 0.23.4。如有任何帮助，我们不胜感

浏览 51提问于2019-04-10得票数 1

回答已采纳

1回答

将ascii字符添加到spark中的数据帧

python、pandas、dataframe、apache-spark

当前有一个数据帧，我想在最后一行中放置一个ASCII字符。我有一个大约有17列的pandas数据帧，并创建了一个带有新行的新数据帧。 newrow = pd.DataFrame(columns=['A','B','C','D'.....and so forth]) newrow.loc[0] = [chr(26),'','','','','','','','','',''

浏览 9提问于2020-07-08得票数 0

2回答

使用pyspark覆盖spark输出

python、apache-spark、pyspark

我正在尝试使用PySpark中的以下选项覆盖Spark数据帧，但未成功 spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path) mode=overwrite命令不成功

浏览 0提问于2016-03-08得票数 38

回答已采纳

1回答

TypeError:字段客户:不能合并类型<class‘pyscapk.sql.type.’>和<class‘class’>pysck.sql.type.‘>

pandas、apache-spark、pyspark、apache-arrow

SL No: Customer Month Amount 1 A1 12-Jan-04 495414.75 2 A1 3-Jan-04 245899.02 3 A1 15-Jan-04 259490.06 我的Df在上面代码 import findspark findspark.init('/home/mak/spark-3.0.0-preview2-bin-hadoop2.7') import pyspark from pyspark.sql import SparkSession spark = SparkSession.bui

浏览 2提问于2020-02-02得票数 2

回答已采纳

1回答

如何在PySpark中使用StructType将浮点数转换为IntegerType？

python、types、pyspark

我正在尝试从一个Pandas数据帧创建一个Spark数据帧，其中我使用StructType类指定列数据类型。我已经将pandas数据帧保存为df，将spark数据帧保存为data。在我开始之前，csv文件中的某个地方有一个错误，我使用了pandas的read_csv方法的参数error_bad_lines。我不熟悉spark的等价物。 df = pd.read_csv('Amazon_Responded_Oct05.csv',error_bad_lines=False) df.head() >>>> user_id_str user_foll

浏览 62提问于2019-10-13得票数 0

回答已采纳

1回答

如何在Spark (Pyspark)中加速缓存？

apache-spark、caching、pyspark、apache-spark-sql

我需要在Pyspark(2.4.4)中缓存一个数据帧，内存缓存很慢。我使用Spark缓存对Pandas缓存进行基准测试，通过读取相同的文件(CSV)。具体地说，Pandas的速度要快3-4倍。谢谢，提前说

浏览 26提问于2020-01-28得票数 0

1回答

是否将pandas数据框导出到Azure data Lake Storage作为CSV文件？

python、pandas、csv、azure-data-lake

这可能是一个不常见的问题，因为我相信以前从未有人问过这个问题，但是否可以将Pandas数据帧作为CSV文件直接导出到Azure data Lake Storage？为了添加一些上下文，我有一个pandas数据帧，它作为CSV文件导出到本地目录，然后使用datalakeserviceclient从文件路径中获取CSV文件，并将该文件写入数据湖存储。 docs[:0].to_csv("test.csv", index = False) docs.to_csv("test.csv", index = False, header = False ,mode = &#

浏览 14提问于2021-02-05得票数 1

回答已采纳

5回答

如何在pyspark中获取dataframe列的名称？

pyspark、pyspark-sql

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

1回答

比较两个考拉数据帧以进行测试

spark-koalas

Pandas有一个包含assert_frames_equal的测试模块。考拉也有类似的东西吗？我正在编写一系列到考拉数据帧的转换测试。首先，由于我的测试csv文件只有几行(<10行)，我考虑只使用pandas。不幸的是，这些文件非常宽(接近200列)，并且具有在spark读取文件时指定的各种数据类型。由于熊猫的类型规范与考拉的类型规范非常不同，除了我们已经为spark编写的类型模式之外，我还必须编写大约200个完整的dtype列表。这就是为什么我们决定使用spark和koalas为测试创建数据帧会更有效率。但是，我在文档中找不到一种方法来比较数据帧，以查看转换的结果是否与我们创建的预

浏览 27提问于2020-12-12得票数 0

回答已采纳

1回答

有没有办法使用.NET SPARK更改导出文件名？

.net、apache-spark、hadoop、.net-spark

我正在尝试使用.NET SPARK将数据帧导出到CSV文件，但我的导出文件的默认名称为'part-00000-{GUID}'，我想要的是根据我的业务规则操作文件的名称，例如：‘ABC_20200504.csv’。这是我的代码： string pathSource = Path.Combine(path, folderName); exportDataFrame .Coalesce(1) .Write() .Option("header", "false&#

浏览 13提问于2020-05-04得票数 0

7回答

在pandas中输出数据框中所有列的数据

python、pandas

我有一个名为params.csv的csv文件。我打开ipython qtconsole并使用以下命令创建了一个熊猫dataframe： import pandas paramdata = pandas.read_csv('params.csv', names=paramnames) 其中，paramnames是字符串对象的python列表。paramnames示例(实际列表长度为22)： paramnames = ["id", "fc", "mc", "markup", "asplevel", &#

浏览 2提问于2012-07-06得票数 122

回答已采纳

1回答

将数据帧转换为字符串

python、pandas、dataframe、apache-spark、pyspark

我希望将Pandas数据帧转换为string，以便在regex中使用。输入数据： SRAVAN KUMAR RAKESH SOHAN import re import pandas as pd file = spark.read.text("hdfs://test.txt") pands = file.toPandas() schema: pysark.sql.dataframe.DataFrame result = re.sub(r"\n","",pands,0,re.MULTILINE) print(result) SRAVAN

浏览 5提问于2022-06-10得票数 0

2回答

优化PySpark与pandas DataFrames之间的转换

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

将Pandas DataFrame上传到GCP Bucket以进行数据处理

python、pandas、dataframe、google-cloud-storage、google-cloud-dataproc

我一直在使用Data Proc google cloud services for Machine Learning Modelling开发Spark Cluster。我已经成功地从Google存储桶中加载了数据。但是，我不确定如何将熊猫的数据帧和spark数据帧作为csv写入云存储桶中。当我使用下面的命令时，它会给我一个错误 df.to_csv("gs://mybucket/") Traceback (most recent call last): File "<stdin>", line 1, in <module> File &#

浏览 0提问于2018-11-05得票数 1

2回答

如何动态创建Spark管道

json、web-services、apache-spark-ml

我正在构建一个简单的web服务，用户可以轻松地在UI中构建一个Spark管道并将其持久化，这样用户就可以检索保存的管道并开始训练它。以下是这样的想法：用户可以选择模型和评估器，并填写参数以形成用户界面中的管道。用户可以指定输出目录来保存这个管道。用户点击保存，管道将在指定的目录下创建。经过集思广益，我得到了后续的实施理念：拆分两台服务器: Web服务器和星火集群当用户点击“保存”按钮时，以JSON格式导出用户定义的管道元数据，并将其发送到火花集群。星盘集群接受JSON并在SparkContext中实例化管道使用Spark ML Persis

浏览 5提问于2017-01-07得票数 1

1回答

使用pyspark直接从hdfs加载pandas的大数据

apache-spark、pyspark

我直接从数据库中获取数据，大约有5-1200万的数据。当我尝试将其转换为pandas数据帧以进行分析时。由于音量太大，它总是崩溃。举个例子 df1 = spark.sql("select * from database.table") sample = df1.toPandas() ## this is where it wont execute 我读到有人建议使用dask和chunksize。但这是作为csv读取，然后转换为数据帧，否则我将直接从数据库获取。有没有一种有效的方法可以在很短的时间内将这些数据加载为pandas数据帧？

浏览 7提问于2020-06-22得票数 0

2回答

在For循环中动态命名R数据帧

r、for-loop、dataframe、dynamic、naming

我使用For循环根据一些规范创建100个数据集。我的最终目标是有一个数据集包含每个迭代数据集(即数据集1到100)。我目前的解决方案不雅观。我将每个单独的数据帧(称为Dataset)导出到csv，然后将它们与For循环的每个迭代I在R外合并，我的数据框架就会被覆盖。 Trackfile=1:100 for (i in Trackfile){ d.cor <- .10 # Desired correlation Dataset <- as.data.frame(mvrnorm(20, mu = c(0,0),

浏览 1提问于2018-03-09得票数 0

回答已采纳

2回答

针对包含多个区块的大数据(~22 for )的Catboost训练模型

python、pandas、catboost

我正在尝试训练一个csv文件中大约22 50数据的CatboostClassifier，这个文件大约有50列。我试着在pandas数据帧中一次加载所有数据，但做不到。有没有什么办法可以在catboost中使用多个数据帧块来训练模型？

浏览 2提问于2017-10-30得票数 1

1回答

如何将numpy数组元素转换为spark RDD列值

python、numpy、apache-spark

我准备使用spark dataframe (不是pandas)的内置CSV打印工具。我已经构建了一个IndexedRowMatrix。因此，它中有稀疏数组列。到密集数组的转换是由x.vector.toArray()映射调用执行的(如下所示)。我似乎想不出，如何将密集的numpy数组元素放入Spark DataFrame的单独列中。(我不是在介绍熊猫。)如何将此RDD转换为7列数据帧，由一个字符串列和6个整数列组成？到目前为止我的代码如下： X = CoordinateMatrix(sc.parallelize(entries)) Xirm = X.toIndexedRowMatrix() c

浏览 0提问于2018-06-12得票数 0

4回答

如何在pyspark (2.2.0)中将CSV文件写入AWS时分配访问控制列表(ACL)？

amazon-web-services、csv、amazon-s3、pyspark、acl

我知道我可以通过以下方式将我的spark数据帧作为CSV文件输出到AWS S3 df.repartition(1).write.csv('s3://my-bucket-name/df_name') 我的问题是，有没有一种简单的方法可以将这个文件的访问控制列表(ACL)设置为'bucket-owner-full-control'，当使用pyspark将其写入S3时？

浏览 0提问于2018-10-06得票数 0

1回答

我应该添加什么到代码中，以避免使用pyspark时出现“超过最大允许的字节数”错误？

python、apache-spark、pyspark

我有一个有400万行和10列的数据帧。我正在尝试使用pyspark从Cloudera数据科学工作台将其写入hdfs中的一个表。我在尝试这样做时遇到了一个错误： [Stage 0:> (0 + 1) / 2]19/02/20 12:31:04 ERROR datasources.FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage fail

浏览 103提问于2019-02-21得票数 1

回答已采纳

3回答

如何加速将数据帧导入pandas

python、pandas、dataframe

我理解pandas导入csv文件相对较慢的原因之一是，在猜测类型之前，它需要扫描一列的整个内容(请参阅关于pandas.read_csv的low_memory选项的讨论)。我的理解正确吗？如果是这样的话，什么样的格式才是存储数据帧的好格式，哪些格式显式地指定了数据类型，这样pandas就不必去猜测了(SQL暂时不是一个选项)？有什么特别的选择吗？我的数据帧有浮点数、整数、日期、字符串和Y/N，所以只支持数字值的格式是行不通的。

浏览 0提问于2017-11-15得票数 2

2回答

用于csv文件/数据帧的Postgresql批插入(在GCP上)

sql、pandas、postgresql、google-cloud-platform、batch-processing

我有一个包含两列[key, chunk]的csv文件，需要将其插入到SQL db表中。(放大信息-托管在GCP上的Postgresql数据库，我可以很好地选择和执行其他数据库操作。) 我的csv文件有1000多万行。因此，我很好奇，针对Postgresql语法，我可以使用的最佳批处理插入选项是什么？将csv文件作为pandas数据帧打开会有帮助吗？由于文件的大小，我希望避免迭代行插入。

浏览 2提问于2021-05-28得票数 0

1回答

如何避免“任务大小太大”？

apache-spark、apache-spark-sql

我的问题是，在使用Spark将表还原为更大的表时，任务大小太大了。在人们指出其他答案之前，说要使用、广播或避免结束整个类；让我说一下，我已经读过这些内容，而且在使用Spark时仍然很困惑。当使用Spark时，任务大小可达到推荐大小的10倍。这里是情况：我有10+表/数据帧连接到一个uber表中。我创建了一个scala对象，并在主体中从它们的CSV中填充了这10个表。我在其他对象中导入该对象的成员(只是表)，这些对象的计算形式是uber-table。当Spark连接在这10个表之间运行时，比如说，将结果表写到一个parquet文件中时，我会得到任务大小警告。

浏览 0提问于2017-03-06得票数 2

1回答

如何加速pandas将数据帧保存到csv？

python、pandas、performance、csv

有没有办法加快存钱的过程。我有一个只包含600,000行的数据框，我的程序在保存文件大约8个小时后被卡住了，然后我出于沮丧退出了程序。Pandas将在短短45秒内成功保存一个50,000行的数据帧，但由于某种原因，这个有点大的数据帧正在使其出错。我知道肯定是pandas的to_csv命令使程序变慢了。下面是一些代码: df.to_csv(mes_csv + "_copy.csv.gz"，chunksize=100000，header=True，compression='gzip'，encoding='utf-8')

浏览 0提问于2020-08-12得票数 0

2回答

如何将多个pandas数据帧输出到不同维度的同一csv或excel中

python、pandas、csv、dataframe

因此，我将多个数据表保存为pandas数据帧，并希望将它们全部输出到相同的CSV中，以便于访问。然而，我真的不确定这样做的最好方法，因为我想维护每个数据帧的固有结构(即列和索引)，所以我不能将它们全部组合成一个单独的数据帧。有没有一种方法可以让我一下子轻松地把它们都写出来，类似于通常的pd.to_csv方法？

浏览 11提问于2019-08-05得票数 1

1回答

如何为PySpark数据帧创建海上线图？

python、pandas、pyspark、pyspark-sql

我有一个有三列的数据框，我正在尝试使用Seaborn库绘制线条图，但它抛给我一个错误，说明'DataFrame' object has no attribute 'get'。这是我的测试数据框架 Age variable value 31 Overall 69.76751118 31 Potential 69.76751118 31 Growth 0 34 Overall 68.91176471 34 Potential 68.91176471 34 Growth 0 28 Overall 69.05803996 28 Pote

浏览 3提问于2018-11-02得票数 7