如何使用for循环将各种csv文件读取到dataframe中，并将其添加到一起

、

我刚试过 import dask.dataframe as dd df = dd.read_csv("data.csv") print(df.describe()) 这给 Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ... ... ... Dask Name: describe,

浏览 3提问于2017-10-16得票数 0

1回答

显示PHP中字段中的CSV行号

、、

我目前有一个大规模的应用程序，采取CSV文件和渲染成各种PDF的细节。在命名输出文件时，我希望显示与CSV中的行相关联的行号，以便所有PDF按顺序显示。我似乎无法从CSV文件中获取行号？ function safeFileName($filename) { return str_replace(array("\\", "/", ":", "*", "\"", "?", "<", ">", "|"), "_&#

浏览 0提问于2013-03-19得票数 0

回答已采纳

2回答

如何确保float32与熊猫的圆周整数部分保持不变

、、

这是我的密码 df = pd.DataFrame([110100.0], dtype=np.float32) df.round(7) 结果是： 110099.992188 我期望的是110100.0。如何确保循环操作只影响十进制部分，整数部分保持不变例如:输入=>预期输出 1.0 => 1.0 1.12345678 => 1.1234567

浏览 5提问于2019-01-17得票数 2

1回答

使用python从GCP桶递归读取所有子文件夹中的csv文件

、、、

我试图使用python熊猫从GCP桶中的所有子文件夹递归加载所有csv文件。目前我正在使用dask来加载数据，但是它非常慢。 import dask path = "gs://mybucket/parent_path + "*/*.csv" getAllDaysData = dask.dataframe.read_csv(path).compute() 有人能用更好的方法帮我吗。

浏览 4提问于2022-09-27得票数 2

1回答

熊猫在循环中读取数据并得到平均值。

、

我获得了几个与df0具有相同列大小但不同行大小的数据文件： lang,h,H ar,2,2 en,1,2 es,3,4 id,4,2 和df1： lang,h,H ar,2,2 en,2,2 es,2,3 这些数据文件是存储在目录中的.csv文件，它们的名称是df + i + '.csv'，在这里我使用了范围(10)。我想阅读所有的文件，然后对每一列做一个平均值。到目前为止，我试着逐个阅读以下内容： df0 = pd.read_csv('df0.csv', index_col='lang') df1 = pd.read_csv('df1.

浏览 3提问于2015-06-10得票数 0

回答已采纳

1回答

如何在循环中抓取链接并将结果存储在各自的CSV中？

、、

我有一个抓取脚本，它可以从RSS提要中抓取数据。我有一个RSS提要链接列表，我想传递到一个循环中，该循环将各自的结果存储到他们的CSV中。我的feedlink_01.py # My current approach: df1 = pd.read_csv("feedlink_01.csv") URL = "RSSfeedlink_01.com" # Do some scraping df2 = pd.DataFrame(output) df = pd.concat([df1, df2]).drop_duplicates('name') df.to

浏览 1提问于2022-03-02得票数 0

4回答

从第一行和最后一行的DataFrame熊猫

、、、

全是- 我想创建一个熊猫DataFrame只从第一行和最后一行非常大的csv。本练习的目的是能够轻松地从这些csv文件中的第一个和最后一个条目中获取一些属性。我可以使用以下方法获取csv的第一行： pd.read_csv(filename, nrows=1) 我还可以以各种方式抓取文本文件的最后一行，例如： with open(filename) as f: last_line = f.readlines()[-1] 然而，将这两件事放到一个DataFrame中，这让我不得不做一个循环。对如何最好地实现这一目标有任何见解吗？编辑注意:我试图完成这一任务，而不首先将所有数据加载到单个D

浏览 6提问于2014-11-07得票数 11

回答已采纳

2回答

大熊猫read_table对read_csv和from_csv与read_excel的表演差异？

、、、、

我倾向于将.csv文件导入到熊猫中，但有时我可能会以其他格式获取数据以生成DataFrame对象。今天，我刚刚发现read_table是其他格式的“通用”导入程序，我想知道在熊猫阅读.csv文件的各种方法之间是否存在显著的性能差异，例如read_table、from_csv、read_excel。这些其他方法是否比read_csv具有更好的性能？ read_csv与from_csv用于创建DataFrame有很大的不同吗？

浏览 1提问于2015-07-11得票数 16

回答已采纳

3回答

保存和加载列表值？

、、

我有一个dataframe，其中一个列包含一个值列表：示例：type(df['col_list'].values[0]) = list 我将此数据存储为csv文件(df.to_csv('my_file.csv'))。加载dataframe (df = pd.read_csv('my_file.csv'))时，包含值列表的列更改为string类型：type(df['col_list'].values[0]) = str 当转换为list (list(df['col_list'].values[0])时，我得到的是

浏览 16提问于2022-02-20得票数 1

回答已采纳

2回答

使用azure数据工厂将头文件从txt文件复制到其他csv文件

我是azure数据工厂的新手。我有一个txt文件列表(通过拆分一个巨大的CSV文件创建- flights.txt)。txt文件的列表被列为flightaa、flightab、flightac等。只有第一个文件flightaa具有标题。我的所有文件都存储在输入容器的Azure blob存储中。我正在将文件名从flightaa转换为flight_1.csv，每个文件都有一个头文件。我正在使用Azure数据工厂从输入容器复制到输出，以及每个文件的头。如何存储一个文件的头文件，并将其用作azure数据工厂中所有输出文件的头文件？有什么建议吗？

浏览 30提问于2020-12-29得票数 0

回答已采纳

2回答

从函数返回数据框

、、

我在一个函数中有以下代码 Myfunc<- function(directory, MyFiles, id = 1:332) { # uncomment the 3 lines below for testing #directory<-"local" #id=c(2, 4) #MyFiles<-c(f2.csv,f4.csv) idd<-id df2 <- data.frame() for(i in 1:length(idd)) { EmptyVector <- read.csv(MyFiles[i]) comp_cases

浏览 0提问于2014-06-14得票数 10

回答已采纳

2回答

在读取csv文件时向dataframe添加一列[熊猫]

、

我正在读取多个csv文件，并将它们合并到一个数据文件中，如下所示： pd.concat([pd.read_csv(f, encoding='latin-1') for f in glob.glob('*.csv')], ignore_index=False, sort=False) 问题：我希望根据csv文件名添加一个列，该列不存在于任何csv (到dataframe中)，而csv文件名是连接到dataframe的每个csv文件。任何帮助都将不胜感激。

浏览 0提问于2019-04-11得票数 3

回答已采纳

2回答

在循环中填充数据帧

、、

我在一个目录中有超过300个csv文件。csv文件具有以下结构 id Date Nitrate Sulfate id of csv file Some date Some Value Some Value id of csv file Some date Some Value Some Value id of csv file Some date Some Value Some Value 我希望计数每个csv文件中的行数，不包括该文件中的NA，并将其存储在dataframe中，其中有两列：(1) id & (2)

浏览 5提问于2016-02-28得票数 0

回答已采纳

2回答

熊猫to_csv逗号被替换为

、、

我想使用csv将数据写入Pandas DataFrame文件，我的代码如下： >>> for _, dataframe in my_data.items(): dataframe.to_csv('./my_file.csv', 'a') 但是，问题是：当我打开my_file.csv时，逗号",“被替换为'a‘，如下所示：1,2,3 4,5,6但它是：1a2a3 4a5a6 而我在to_csv函数中使用的是to_csv模式，但是之前的数据被清除了，我很困惑！

浏览 9提问于2015-11-12得票数 1

回答已采纳

2回答

浮点数转换为从.dat文件读取的符号。不确定编码

、、、

我正在尝试使用Python将MapInfo .dat文件读取到.csv文件中。到目前为止，我已经找到了最简单的方法是通过xlwing和pandas。当我这样做时(下面的代码)，我得到了一个基本正确的.csv文件。唯一的问题是，一些列显示为符号/胡言乱语，而不是它们的实际值。我知道这一点，因为我手头也有从MapInfo导出的正确数据。 import xlwings as xw import pandas as pd app = xw.App(visible=False) tracker = app.books.open('./cable.dat') last_row =

浏览 2提问于2020-11-20得票数 1

1回答

将值附加到循环中的列

、

我有各种包含数据的文件。我希望从每个文件中提取一个特定的列，并创建一个包含所有提取数据的列的新的dataframe。例如，我有3个文件： A B C 1 2 3 4 5 6 A B C 7 8 9 8 7 6 A B C 5 4 3 2 1 0 新的dataframe应该只包含来自C列的值： C 3 6 9 6 3 0 因此，第一个文件的列应该复制到新的dataframe，来自第二个文件的列应该是新dataframe的附录。到目前为止，我的代码如下所示： import pandas as pd import glob for filename in glob.glob('

浏览 0提问于2018-05-15得票数 0

回答已采纳

1回答

如何在特定pandas数据框列中查找值，然后将该行中的其他值存储在单独的变量中

、、

我正在尝试根据在csv文件中找到的值自动发送电子邮件，我正在将csv文件读取到pandas数据框中。我想知道如何在pandas数据框中的列中查找特定的单词，当该单词出现时，我希望在单独的变量中返回该行中的其他值，以便稍后在电子邮件函数中使用(定义send_notification)。我已经找到了一些方法，可以将行中的所有变量作为一个列表或字符串返回，但我不知道如何将它们存储在单独的变量中。另一个让我头疼的部分是，我需要所有这些都以迭代的方式发生。由于我试图使用这些变量在另一个发送电子邮件给人的函数(def send_notification)中填充数据，因此我需要将数据存储到单独变量中的函数

浏览 4提问于2018-01-13得票数 0

回答已采纳

2回答

提取大型Postgres表并使用Python Pandas数据框将其写入csv文件

、、、

我正在读取postgres表，提取数据并将其加载到csv文件中。我的问题是，我能够读取高达5 5gb的表，并成功地创建了csv文件。我的一个表是35 GB的，我无法创建csv文件，并且进程正在被终止。我怀疑我的数据帧不能处理大尺寸。我们可以做些什么来克服这个问题并成功创建csv文件？ def table_to_csv(sql, file_path, dbname,port, user): """This function creates a csv file from PostgreSQL with query """

浏览 17提问于2019-03-27得票数 0

回答已采纳

3回答

如何循环拉入目录中的所有文件夹，对它们运行相同的代码并获得摘要输出文件？

、、

我有一个目录，有一个文件夹，为每个病人的研究，但在每个文件夹中的多个文件为该病人。我希望在R中为每个文件夹运行相同的代码，并创建一个摘要文件。例如： setwd("~/pt1") ##pull in files T1<-read.csv('T1.csv') T2<-read.csv('T2.csv') T3<-read.csv('T3.csv') T4<-read.csv('T4.csv') ## lots of code here ## --> outputsummaryfi

浏览 5提问于2022-01-21得票数 0

2回答

如何将所有收集到的数据导出到.CSV？

、、、、

目前，运行此代码将只生成一个.csv文件，其中只包含最后一个结果。如何将所有获取的数据导出到一个.csv文件中？ import requests import pandas as pd import json from pandas.io.json import json_normalize from bs4 import BeautifulSoup for id in range (1, 6): url = f"https://liiga.fi/api/v1/shotmap/2022/{id}" res = requests.get(url)

浏览 5提问于2022-09-02得票数 0

回答已采纳

2回答

Python中的元组和CSV阅读器

、、

尝试一些相对简单的东西。首先，我有一个以元组为键的字典，如下所示：(0,1,1,0)："Index 1“ 我正在读入一个CSV文件，该文件有一组相应的字段，其中包含这些0和1的各种组合。例如，CSV中的行可能是0,1,1,0，没有任何引号。我正在尝试将文件中0和1的组合与字典中的键进行匹配。为此使用标准CSV模块然而，问题是0和1是作为带有单引号的字符串读入的，而不是整数。换句话说，从每一行创建的元组被构造为('0'，'1'，'1'，'0')，它不匹配(0,1,1,0) 谁能解释一下如何引入CSV并删除单引号？元组匹配

浏览 0提问于2015-01-07得票数 2

1回答

如何用另一个CSV文件中的数据写入现有的csv文件？

、、、、

简单介绍一下:我有两个CSV文件：第一个我将称之为语句第二个是大文件大文件包含许多数据，包括语句中的Order ID编号。我想做的是：如果来自"Yes".语句的Order ID与大文件中的Order ID匹配，那么在包含Order ID的行Paid中的大文件中写入所以我写的是： import pandas as pd data1 = pd.read_csv('Big_File.csv') data2 = pd.read_csv('Statement.csv') df = pd.DataFrame(data1) for i in

浏览 0提问于2019-08-02得票数 2

1回答

将Python系列转换为list或Dask DataFrame or for循环

、、、

我正在使用Pandas中的代码，该代码涉及读取大量文件，然后对循环中的每个文件执行各种操作(循环遍历文件列表)。我正在尝试将此转换为基于Dask的方法，而不是基于Pandas的方法，到目前为止，我尝试了以下的尝试--我对Dask还不熟悉，需要询问这是否是一种合理的方法。以下是输入数据的样子： A X1 X2 X3 A_d S_d 0 1.0 0.475220 0.839753 0.872468 1 1 1 2.0 0.318410 0.940817 0.526758 2 2 2 3.0 0.

浏览 1提问于2017-05-03得票数 1

回答已采纳

1回答

从csv中删除匹配值

、、

使用DictReader和DictWriter，我需要找到file1.csv和file2.csv之间的匹配值。如果找到匹配项，则将其从file1.csv中删除 file1.csv UserName,LastIP,LastLogon Jessica_Alba,10.10.10.11,11/14/2019 Karen_Edwards,10.10.10.12,11/14/2019 Tracy_Chung,10.10.10.25,11/15/2019 file2.csv Department,UserName,LastPasswordReset,LastIP IT,Jessica_Alba,9/14

浏览 19提问于2020-09-30得票数 1

回答已采纳

2回答

如何将文件作为参数传递给php exec？

、、、

我想知道如何将文件(在我的例子中是csv)的内容作为参数传递给要由php中的exec调用的命令行可执行文件(在C或Objective C中)。下面是我所做的:用户从URL加载其文件的内容，如下所示： http://www.myserver.com/model.php?fileName=test.csv 然后，下面的代码允许php解析并加载csv文件： <?php $f = $_GET['fileName']; $handle = fopen("$f", "r"); $data = array(); while (($line =

浏览 1提问于2011-10-24得票数 1

1回答

如何在循环(或应用函数)中包装相同的代码块？

、、

我希望将一个代码块包装在一个循环中，该代码块对从不同csv文件导入的DataFrames执行相同的操作。考虑一个例子:我导入 apples=pd.read_csv("path\dataset_1.csv") oranges=pd.read_csv("path\dataset_2.csv") 导入的DataFrames的结构、格式和列名完全相同。然后我在第一个集合上执行操作。例如 apples_1 = apples [["column A", "column B"]] apples_1. columns= ["bad

浏览 13提问于2019-03-12得票数 0

回答已采纳

3回答

在c#中拆分CSV文件的有效方法

、、、

我正在尝试拆分一个大的电信账单，它以CSV文件的形式出现，300MB，根据账单中的电话号码分成较小的部分。有些电话号码有20条线路的账单，有些电话号码有1000多条线路，所以它是动态的。第一次通过时，我读取账单并使用LINQ将它们按电话号码分组，并在CSV文件中计算每个电话号码账单包含的线路数。然后插入到一个列表中: split_id，开始行，结束行。(开始行从0开始)。下面的脚本是我用来拆分较小账单的脚本。但这300MB的7500+电话号码不同寻常，即使每个文件降到100KB以下，它也要花费很长时间来处理拆分账单。 static void FileSplitWriter(List

浏览 0提问于2011-12-10得票数 2

回答已采纳

1回答

用php \copy在postgresql中插入csv

、、、

我试图从php脚本在postgresql数据库表中插入csv文件。在使用\copy命令时，psql： \copy tablename(col1, col2, col3) FROM 'path/to/the/file.csv' DELIMITERS ',' CSV HEADER; 我没有出现任何问题，但是在执行来自php的查询的相同命令时，我得到:查询失败: ERROR:语法错误在"\“行1：\copy .： $query = "\copy tablename(col1, col2, col3) FROM 'path/to/the/

浏览 5提问于2017-06-12得票数 1

1回答

使用OOP的超市应用程序

、、

我一遍又一遍地试图用OOP编写一个“超市”应用程序。这个应用程序应该对超市的员工有用。该应用程序从CSV文件中读取数据，该文件如下所示： name,amount soap,4 rice,5 bread,10 超市里有收银员和经理。出纳员只能查看产品的数量。经理可以查看，但也可以更改金额。下面是我想出的代码： import pandas class Data: """Creates a pandas dataframe out of a text file""" def __init__(self, datafile = &#

浏览 0提问于2018-07-30得票数 4

回答已采纳

1回答

从多个csv文件中选择特定列，然后使用熊猫将这些列合并为单个文件

、、

我正在尝试从多个csv文件中选择一个带有头"Average"的特定列。然后从这些多个csv文件中提取"Average"列，并将它们合并到一个新的csv文件中。我留下这些评论是为了展示我试图做到这一点的其他方式： procdir = r"C:\Users\ChromePnP\Desktop\exchange\processed" collected = os.listdir(procdir) flist = list(collected) flist.sort() #exclude first files in list rest_of_fil

浏览 3提问于2022-04-13得票数 0

2回答

更快地对包含10k+文件的文件夹中的CSV列表进行排序

、、、、

您好，我是一个新手，在Python和一般的编码。这是我的第一篇文章。我正在尝试打开最后20个文件并将其连接到一个数据帧中。当我在一个只包含100个文件的测试文件夹中工作时，我成功地做到了这一点，但是当我在包含10k文件的真实文件夹中尝试我的代码时，我的代码非常慢，大约需要5分钟才能完成。这是我的尝试： import pandas as pd import glob from datetime import datetime import numpy as np import os path = r'K:/industriel/abc/03_LOG/PRODUCTION/CSV

浏览 17提问于2021-09-26得票数 0

回答已采纳

3回答

基于UiPath的自动搜索

、、

我有一个CSV的公司档案，我想在其中添加一个专栏“首席执行官的名字”。我正试图构建一个UiPath流程，如下所示：从CSV文件中读取搜索谷歌的“公司”+“首席执行官LinkedIn”字样提取它们的LinkedIn名称或配置文件URL 复制到Excel电子表格中我尝试过这样做，但是当我运行它时，搜索不会复制和粘贴。我在使用UiPath工作室。

浏览 0提问于2019-04-23得票数 0

1回答

Python读取器不能在

、、

我有一个简单的测试CSV文件： 1,2,3 4,5,6 7,8,9 10,11,12 我试着读前两行，找回一行，再读下一行： import csv with open('test.csv', 'r') as f: reader = csv.reader(f) pos = f.tell() print 'pos: {0}'.format(pos) print reader.next() pos = f.tell() print 'pos: {0}'.format(pos) p

浏览 2提问于2014-06-18得票数 0

回答已采纳

2回答

、

我想打开和读取许多csv文件一次，打开每一个作为一个dataframe，然后把它们放在一起在一个单一的数据帧。所有csv/DataFrame的列数都相同。我试着这样做： import os import pandas as pd df = pd.DataFrame() paths = "C:\\Users\\Host02\\Documents\\analise2\\archives\\ms" arr = os.scandir(paths) for file in arr: df2 = pd.read_csv(file.path, sep=";"

浏览 66提问于2020-07-23得票数 1

回答已采纳

1回答

将dataframe导出为dataframe格式，作为参数传递给下一个程序。

、、、

我在Dataset上执行了某些计算，需要将结果存储在外部文件中。如果是CSV，为了进一步处理它，我将不得不再次转换为Dataframe/SFrame，这再次增加了代码行数。下面是片段： train_data = graphlab.SFrame(ratings_base) 显然，它在SFrame中，可以使用 df_train = train_data.to_dataframe() 现在它在DFrame中，我需要将它导出到一个文件中，而不改变它的结构。因为导出的文件将用作另一个python代码的参数。该代码必须接受DFrame而不是CSV。我已经在，，，和结帐了 -我还在研究Python序列

浏览 4提问于2017-06-05得票数 1

回答已采纳

1回答

如何在Keras中自动微调网络？

、、、

如何自动调整网络，而不是每次手动调整隐藏层数和历元数？(使用Keras) from keras.models import Sequential from keras.layers import Dense import numpy seed = 9 numpy.random.seed(seed) from pandas import read_csv filename = 'BBCN.csv' dataframe = read_csv(filename) array = dataframe.values x = array[:,0 : 11] y = array[:,

浏览 1提问于2017-09-18得票数 2

1回答

向CSV或Dataframe添加列和值

、

全新的Python和编程。我有一个函数从.csv文件中提取文件创建日期(日期包括文件命名约定)： def get_filename_dates(self): """Extract date from filename and place it into a list""" for filename in self.file_list: try: date = re.search("([0-9]{2}[0-9]{2}[0-9]{2})",

浏览 2提问于2020-05-17得票数 0

回答已采纳

1回答

导出到csv并读取multiIndex数据帧pandas

、、

我需要导出到csv，然后再次导入如下所示的DataFrame： price ................................................................................................................... hold buy balance long_size short_size minute hour day week month close high low open CCI12 R

浏览 11提问于2019-01-21得票数 0

1回答

嵌套的for循环提前退出

我正在尝试比较两个csv文件，如果它们匹配，则写入第三个文件(比较/写入工作正常)。我的问题是迭代。在下面的示例中，我的程序将打印1的次数与s中的行数一样多。如果我将print上移一个级别，并删除for for s循环，它将打印与z中的行数相同的行数。实际上，我希望它将z中的每一行与s中的每一行进行比较，但它只对z中的第一行执行比较并退出 import csv if __name__ == "__main__": with open("z_file.csv", "r") as f: with open("s_fi

浏览 1提问于2019-10-28得票数 1

2回答

将文件发送到API端点时如何读取

、、、、

问题:如果将文件发送到端点，我想知道如何读取文件。在阅读了多篇文章并做了一些研究之后，我能够将一个文件发送到Amazon桶中。下面是working code，但我不明白如何通过Postman将文件发送到API，以及如何处理，如何在代码中读取该文件。有人能帮我破译这段代码吗。我已经在我想要理解的代码中添加了行号。 Line Number 1 [httppost] 2 public async Task<bool> Upload() { try { 3 var filesReadToProvider = await Request.Cont

浏览 0提问于2019-02-14得票数 1

回答已采纳

1回答

将pandas数据帧拆分为许多较小的帧(块)并保存它们

、

我有一个名为df的数据帧，它有1364行(包括标题)。第一行是列名，因此剩下1363行。我想将它拆分成n帧(每个帧也应该有列名)，并将它们保存为csv文件。假设n是30，1363/30 = 45.433。我创造了将45.433四舍五入到46的逻辑。然后计算剩余的帧中应该有多少行。基本上，它检查行数是否可以被n整除。如果是，它将执行else部分，否则它将通过向上舍入来计算余数。因此，在本例中，对于1363，将有29个帧，共46行，其余1个帧，共29个(1363-(29*46))行 length = len(df) #length is 1363 n = 30 if length %

浏览 27提问于2020-06-15得票数 0

1回答

通过具有不同工作表名的SSIS导入2个Excel文件

、、

因此，正如标题所示，我需要从本地计算机(c:\temp)将2个Excel (.xlsx)文件导入一个Server表。每个文件只包含一个工作表，但工作表名称将有所不同。每个文件上的列名和不列名称是相同的。如果我通过excel连接管理器通过SSIS选择一个特定的Excel文件，它将完美地提取数据并插入到我的目标SQL表中。当我添加一个ForEach循环容器并希望遍历c:\temp目录来读取这两个文件时，问题就出现了。在某个地方，我错过了一个设置，并不断得到各种“连接到Excel”错误。请协助下列事项：我不知道如何指定Excel文件路径。下面的内容正确吗？当只加载一个文件时，我常常在这里选择

浏览 7提问于2022-10-19得票数 0

1回答

如何使用python更快地读取文件中的几行？

、、

到目前为止，我使用了以下python代码： file = open(filePath, "r") lines=file.readlines() file.close() 假设我的文件有几行(10,000或更多)，如果我对多个文件这样做，我的程序就会变慢。有没有办法在Python中加速这一过程？通过阅读各种链接，我了解到readline将文件行存储在内存中，这就是代码变慢的原因。我也尝试了下面的代码，我得到的时间增益是17%。 lines=[line for line in open(filePath,"r")] 在python2.4中有没有其他的模块(我可能错

浏览 2提问于2011-02-04得票数 3

回答已采纳

2回答

使用dask合并csv文件

、

我是python的新手。我正在使用dask读取5个大的(>1 GB) csv文件，并将它们合并(类似SQL)到一个dask数据帧中。现在，我正在尝试将合并后的结果写入单个csv。我在dask dataframe上使用compute()将数据收集到单个df中，然后调用to_csv。但是，compute()在读取所有分区的数据时速度很慢。我尝试在dask df上直接调用to_csv，它创建了多个.part文件(我没有尝试将这些.part文件合并到一个csv中)。有没有其他方法可以将dask df放入单个csv或任何参数中来计算()以收集数据。我使用硬盘和i5处理器的6 6GB内存。谢谢

浏览 5提问于2017-03-23得票数 4

1回答

循环遍历目录中的文件，在熊猫中添加日期列。

、

我所有的文件都有下面的标题，它们可以追溯到几年前。我希望能够读取每个文件，然后将文件名中的日期作为列添加。文件类型截至2015-04-01.csv path = 'C:\\Users\\' filelist = os.listdir(path) #All of my .csv files I am working with file_count = len(filelist) #I thought I could do a for loop and use this as a the range df = Series(filelist)

浏览 3提问于2015-05-22得票数 3

1回答

如何保存numpy数组数据并在下一次快速读取？

、

以下是我的问题：我有一个三维numpy数组数据，其形状为(1000,100,100). 我想把它保存为一个.txt或.csv文件，如何实现呢？我的第一次尝试是将其重新构造为长度为1000*100*100的一维数组，并将其传输到pandas.Dataframe中，然后将其保存为.csv文件。当我想下一次调用它的时候，我会把它重塑回三维数组。我想一定有更简单的方法。

浏览 4提问于2016-01-03得票数 2

回答已采纳

1回答

如何将csv转换为json，并使用javascript编写特定的函数来生成图形？

、、、、

我正在尝试通过使用键线生成图形来可视化数据。它接受json格式的数据。我正在尝试将excel数据转换为json格式。我在excel表格中有两列。开始节点连接节点 A-B A-C A-D B-D D-F 由于有数千行数据，我应该编写什么样的函数才能在javascript中生成这种格式的项：我需要首先初始化节点和链接。 const data = { type: 'LinkChart', items: [ { type: 'node', id: 'ac1'}, { type: 'node', id: 'a

浏览 1提问于2020-01-24得票数 0

2回答

如何使用Spark从本地驱动程序节点读取csv文件？

、、

我不得不将文件从Amazon解压缩到我的驱动程序节点( S3集群)，我需要将所有这些csv文件作为加载，但是当我试图从驱动程序节点加载数据时，我发现了下一个问题： PySpark： df = self.spark.read.format("csv").option("header", True).load("file:/databricks/driver/*.csv") ‘路径不存在:文件:/文件夹/*..csv’ 我尝试使用dbutils.fs.mv()将所有这些文件移动到dbfs，但是我运行的是一个Python，我不能使用dbutils()

浏览 1提问于2019-10-24得票数 1

1回答

Python Pandas:正确重用存储的方法来替换nan

、、

在一些数据上，我按列计算了均值。假设数据如下所示 A B C ... Z 0.1 0.2 0.15 ... 0.17 . . . . . . . . . . . . 我使用了DataFrame的mean()函数，结果我得到了 A some_mean_A B some_mean_B ... Z some_mean_Z 为了替换NaN，我使用了fillna()。它适用于计算平均值并在同一执行过程中使用它的情况。但是，一旦我将这些方法保存到一个文件中，并读取它以在另一个.py文件中使用它，我就得到了垃圾

浏览 7提问于2016-09-24得票数 0

回答已采纳

3回答

从CSV读取选定行

、、、

我有一个很大的CSV文件，大约有1,000,000行，它需要大约500 MB的内存。我不需要看所有的文件。我想每百行从文件中读一遍。我试着用ReadLines来做它，但是它真的很慢，更快的是ReadAllLines。我的代码： for (int i = 0; i < 10000; i++) { tableOfString[i]=File.ReadLines("TestCSV.csv").Skip(i*100).Take(1).First(); //or tableOfString[i] = File.ReadLines("TestCSV.csv

浏览 6提问于2014-10-28得票数 0

回答已采纳