使用DataFrames合并(连接)4个具有不同ID和多个值的不同CSV文件_如何使用Python和Pandas将多个具有相似和不同列的CSV文件合并为1个文件？_如何合并具有公共Subject ID列和其他列中许多不同变量的多个CSV文件？在R中 - 腾讯云开发者社区

pyspark、mapreduce

我有两个巨大的CSV文件，我需要内部连接来自两个CSV的数据，然后对结果进行一些处理。我的问题是，怎样才是最有效的方法？我就是这样做的： df1 = spark.read.csv('df1.csv', sep=r'\t', header=True) df2 = spark.read.csv('df2.csv', sep=r'\t', header=True) df1.createOrReplaceTempView("d1") df2.createOrReplaceTempView("d2") q

浏览 2提问于2022-06-11得票数 0

2回答

将多个数据文件导出为power表，反之亦然

python-3.x、pandas、dataframe、csv、powerbi

我正在尝试编写一个python脚本，它将从一个输入文件夹中获取多个不同的csv文件，然后创建一个数据文件列表，并将它们显示为power bi中的power bi表。下面的脚本没有将任何表加载到power bi中： import os import pandas as pd path = r'C:\Users\admin\Downloads\Data analysis case study' csv_files = [os.path.join(path+"\\", file) for file in os.listdir(path) if file.endswi

浏览 20提问于2022-08-01得票数 0

1回答

将多个csv文件导入熊猫并连接到一个DataFrame中，其中所有csv中的第1列相同，没有数据头，只有文件名。

python、pandas、csv

将多个CSV文件导入熊猫并连接到一个DataFrame中，其中所有csv的第1列相同，没有数据头，只有文件名。在所有CSV中，只有文件名描述了其中数据的含义。在所有CSV文件中没有头文件。第一列在所有CSV文件中都很常见。如何将所有CSV文件合并到python中的一个数据集中。代码： import os import pandas as pd import glob path= "....\\data" os.chdir(path) results = pd.DataFrame() for counter, current_file in enumerate(glob.

浏览 4提问于2020-05-30得票数 0

回答已采纳

1回答

使用熊猫将多个csv文件连接到一个文件夹中[MemoryError:]

python、pandas

我在一个文件夹中有5个csv文件，在这里我想将每个csv文件中的所有列连接到一个dataframe中。当我只加入2个csv文件时，它工作得很好，但是当我想加入5个csv文件时，我遇到了一个错误。我的代码如下： In [7]: import pandas import os import numpy as np import glob path =r'D:/PreprocessingITRC/output/All/' allFiles = glob.glob(path + "/*.csv") dataframe = pandas.DataFrame() for

浏览 4提问于2015-04-20得票数 2

回答已采纳

1回答

python/pandas在加载csv文件时“内核已死，正在重新启动”

python、pandas、kernel

当尝试加载一个大的csv文件(150MB)时，我得到错误“内核死了，正在重新启动”。那么我使用的代码如下所示： import pandas as pd from pprint import pprint from pathlib import Path from datetime import date import numpy as np import matplotlib.pyplot as plt basedaily = pd.read_csv('combined_csv.csv') 以前它是有效的，但我不知道为什么它不再工作了。我尝试使用engine="pyt

浏览 0提问于2020-01-11得票数 1

1回答

python合并和不匹配的记录也需要存在

python、pandas、python-2.7、dataframe、merge

我有两个文件 input.csv 11/13/2020 07:41:09 TREE count1: id1 green001 11/13/2020 07:43:09 TREE count1: id1 black001 11/13/2020 07:45:09 TREE count1: id2 black001 11/13/2020 07:45:09 PLAN count1: id3 green002 11/13/2020 07:45:09 PLAN count1: id4 green004 lookup.csv ID,item,message id1,item1,message 1 id2,i

浏览 19提问于2020-11-30得票数 0

1回答

在python上连接多个.csv文件而不给出所需的结果

python、pandas、csv、operating-system、glob

我总共有24个.csv文件，每个文件都有3列和许多行(确切地说，是15677行，在这24个文件中被拆分)，其中包含我需要读取的数据。我想按时间顺序访问和阅读这些数据文件。起初，我试图连接这些文件，但出于某种原因，我获得了一个矩阵，它有15653行x72列，但实际上应该是。以下是我到现在为止所做的工作，使我得到了我提到的结果： import glob import os import pandas as pd df = pd.concat(map(pd.read_csv, glob.glob(os.path.join('', "media/BIWI/*.csv"

浏览 1提问于2021-02-24得票数 0

回答已采纳

2回答

在python3中解析csv文件并将其合并为另一个csv文件

python-3.x、pandas、csv

我在同一目录中有一个csv文件列表，试图合并这两个文件，并创建一个新的csv文件，其中包含两个输入文件的内容。以下是两个输入文件的示例： small_example1.csv CodeClass,Name,Accession,Count Endogenous,CCNO,NM_021147.4,18 Endogenous,MYC,NM_002467.3,1114 Endogenous,CD79A,NM_001783.3,178 Endogenous,FSTL3,NM_005860.2,529 small_example2.csv CodeClas

浏览 40提问于2019-06-26得票数 0

1回答

在迭代多个列后按顺序获取列

python、csv、pandas、ipython

您好，我已经迭代了多个列，并且它起作用了。但所有CSV文件中的列名顺序如下： Output: id title content tags 但是，我的代码按以下顺序输出列： Output : content id tags title 如何将其恢复为所有csv文件的顺序下面是我的代码： import glob import os import pandas as pd pd.set_option("display.max_rows", 999) pd.set_option('max_colwidth',100) import numpy as

浏览 9提问于2017-01-24得票数 0

回答已采纳

1回答

如何根据大熊猫蟒蛇的某些情况组合CSV文件？

python、pandas、csv

我有4个CSV文件：我想将这4个文件合并成一个数据框架。我必须使用Invoices.Customer_ID和Customers.ID。在组合时，我还必须确保结果集只包含有发票和发票项目的客户和物品。我有一个简单的代码来读取CSV文件并显示数据。 from datetime import date, datetime import os import pandas as pd article_csv = pd.read_csv('Input/Artikel.csv') Invoices_items_csv = pd.read_csv('Input/Rechnun

浏览 4提问于2022-02-12得票数 -1

1回答

如何在合并多个文件时修复pandas合并函数错误

python、pandas

我有几个用制表符分隔的文件，前2列相同。我正在尝试使用pandas合并功能合并这些文件。我用glob和read_csv函数把所有的文件做了一个数据帧。一切看起来都很好直到这里。pandas合并函数抛出错误如下。pd concat运行良好，但这不是我想要的，因为它在当前文件下添加新文件。请帮我找一下用法。 path = r'/data/tim/home/*' file = glob.glob(path + "/sale.txt") df = (pd.read_csv(i,delimiter='\t') for i in files)

浏览 0提问于2019-08-01得票数 0

1回答

将此数据集的数据输入到keras中进行培训。

machine-learning、classification、keras、preprocessing、numpy

假设我有3个csv文件，它构成了用于在Keras中训练机器学习模型的数据集。 file1.csv Name, X1, X2, X3 Joe, 1.16, 1.00, 1.11 Joe, 1.19, 1.11, 1.17 Joe, 1.17, 1.13, 1.16 file2.csv Name, X1, X2, X3 Jack,

浏览 0提问于2018-08-18得票数 1

1回答

使用python中的熊猫合并具有相同“列名”和“不同行”的两个文件的一种方法

python、csv、pandas、merge

我有两个数据文件a.csv和b.csv，它们可以从pastebin获得：第一个文件a.csv有4列和一些注释： # coating file for detector A/R # column 1 is the angle of incidence (degrees) # column 2 is the wavelength (microns) # column 3 is the transmission probability # column 4 is the reflection probability 14.2 531.0 0.0618 0.9382 14.2 5

浏览 2提问于2016-06-18得票数 0

回答已采纳

2回答

如果在组合两个csv文件时存在冲突，那么函数可以从指定的csv文件中选择数据吗？

python、pandas、csv

我有两个csv文件，我想将这两个csv文件合并成一个csv文件。假设这两个csv文件是A.csv和B.csv，我已经知道其中存在一些冲突。例如，有两个列，ID和name，在A.csv ID中"12345“有名称”B.csv“，在B.csv ID中"12345”有名称"Tom“。因此，存在相同ID具有不同名称的冲突。现在我想保留ID "12345"，我想从A.csv中选择名称，从B.csv中放弃名称。我怎么能这么做？下面是我尝试过的一些代码，但它只能组合两个csv文件，但不能处理冲突，或者更准确地说，它不能从A.csv中选择确定的值： import pa

浏览 4提问于2021-04-15得票数 0

回答已采纳

1回答

Pandas:读取具有不同分隔符的CSV文件-合并错误

python、csv、pandas、merge、delimiter

我有4个单独的CSV文件，我希望读入Pandas。我想将这些CSV文件合并到一个数据帧中。问题是CSV文件中的列包含以下内容：、；|和空格。因此，在读取不同的CSV文件时，我必须使用不同的分隔符，并进行一些转换以使其格式正确。每个CSV文件都包含一个“ID”列。当我合并我的数据帧时，它没有正确地完成，并且我在已经合并的列中得到了'NaN‘。您是否必须使用相同的分隔符才能正确合并数据帧？

浏览 10提问于2017-06-28得票数 0

回答已采纳

1回答

如何在没有索引的情况下将Python字典保存到csv文件？

python、csv、dictionary

我将3个DataFrame存储在一个名为dict的字典中，我想将所有的数据存储在这样的csv文件中， dict Key Type Size Value 001 DataFrame (3,4) Columns names: date, count, number, expiration 002 DateFrame (3,4) Columns names: date, count, number, expiration 003 DateFrame (3,4)

浏览 1提问于2017-03-19得票数 0

回答已采纳

2回答

熊猫的读写身份证

python、csv、pandas

我是Python新手，需要帮助解决以下问题：我有两个csv文件，名为bib.csv和id.csv。这些文件内有多达15,000份数据。 bib.csv如下所示： WKT A_ID length 10 5 200 11 6 201 id.csv看起来是这样的： Master_ID A_ID_1 A_ID_2 1 5 6 两天来，我试图找到一个解决方案，将bib.csv的信息通过A_ID写入id.csv 最后，我将有两个csv文件，其中length和WKT将代替id.csv中的A_ID。例如： Master_ID A_ID_1

浏览 3提问于2016-06-21得票数 2

回答已采纳

1回答

为什么dask使用from_pandas比直接使用Dask读取数据更快地计算数据？

python、python-3.x、pandas、dask、dask-distributed

我在dask中以不同的方式运行了相同的数据集。我发现一条路比另一条快10倍！我试着找出没有成功的原因。 1.完全是达斯克 import dask.dataframe as dd from multiprocessing import cpu_count #Count the number of cores cores = cpu_count() #read and part the dataframes by the number of cores english = dd.read_csv('/home/alberto/Escritorio/pycharm/NLP/ignore_

浏览 1提问于2019-12-06得票数 0

回答已采纳

2回答

合并/合并问题

python、csv、pandas

我有两个Dataframes，如下所示： DataFrame 1 ID VALUE DATE 1 google.com 12/28/2015 2 yahoo.com 12/28/2015 3 cnn.com 12/28/2015 4 facebook.com 12/28/2105 DataFrame 2 ID COMMENT 1 Bad Stuff 2 Good Stuff 3 Werid Stuff 4 Crazy Stuff 想要的结果就在这里 ID VALUE DATE COMME

浏览 2提问于2015-12-28得票数 3

回答已采纳

1回答

获取文件创建的日期-添加到read_csv上的dataframes列

python、csv、pandas、operating-system

我需要把许多(数百)的CSV拉进熊猫的数据仓库。我需要一个添加的日期，该文件是在一个列中读取到熊猫数据文件为每个CSV文件。我可以使用以下调用获得CSV文件的创建日期： time.strftime('%m/%d/%Y', time.gmtime(os.path.getmtime('/path/file.csv'))) 作为一个fyi，这是我在CSV中阅读的命令： path1 = r'/path/' all_files_standings = glob.glob(path1 + '/*.csv') standings = pd.co

浏览 3提问于2017-03-04得票数 0

1回答

当条件为False时如何返回到for-循环的顶部？

python、loops、for-loop、nested-loops

我已经和这个搏斗了好几天了，但是研究没有成功。我想写一个函数 directoryopens ('importer')copies 循环遍历与字符串模式匹配的excel文件，打开该文件并搜索特定工作表，然后将数据添加到csv中，并继续追加到csv中，直到所有文件完成为止。函数忽略不包括“导入程序”选项卡的文件，或者只需访问for循环中的下一个文件而不执行其余操作(“CSV文件CREATION').File创建”只应在文件名与模式匹配且“导入”工作表存在的情况下进行。我觉得我离得很近，但只需要一点方向。-- def append_all(input_directory):

浏览 2提问于2020-07-13得票数 1

回答已采纳

1回答

Python搜索和附加2个csv文件

python、csv、data-cleaning

我有两个CSV文件。第一个文件有美国所有州的列表，但在经度和纬度列中缺少值。我找到了另一个CSV文件，它包含美国所有州的所有经度和纬度值。我现在要做的是循环遍历第一个文件上的'Location‘列，将它与第二个文件上的'Location’列匹配，然后得到它的经度和纬度的相应值。之后，我需要将这些值附加到第一个文件中的经度和纬度列中现在，我要说的是： aviationdata = pd.read_csv('AviationData.csv', sep = ',', header = 0, encoding = 'iso-8859-1&#

浏览 1提问于2020-03-14得票数 0

回答已采纳

3回答

如何在不连接每个文件的情况下从文件夹读取多个csv

python、pandas

我有一个文件夹，在文件夹中，假设有1000个.csv文件被存储。现在，我必须创建一个基于50个这些文件的数据框架，所以没有逐行加载，有任何快速方法可用吗？我还想让file_name作为我的数据帧的名称？我尝试了下面的方法，但它不起作用。 # List of file that I want to load out of 1000 path = "..." file_names = ['a.csv', 'b.csv', 'c.csv', 'd.csv', 'e.csv'] for i in ra

浏览 6提问于2022-09-30得票数 -1

1回答

使用pandas读取和合并文件

python、pandas、merge

我有几个.txt文件，格式为/folder/blahblah_*K.txt，其中星号表示开尔文温度。每个文件包含3列(让我们称它们为'A'，'B‘和'C')。我想创建一个具有公共索引(第一列，称为'A')和来自每个文件的'B‘列的单个DataFrame。我已经得到了一个DataFrames列表，其中列表中的每个值都是一组完整的数据(即，列表中的每个值都包含每个*.txt文件的所有值)。在所需的DataFrame中，我想用文件名中的*表示的温度来指定'B‘数据的每一列。到目前为止，我的方法是： files = glob

浏览 1提问于2019-01-30得票数 0

1回答

熊猫:关于如何设计数据和附加多个csv文件的想法

pandas、dataframe、csv、append、glob

你好，我对熊猫很陌生，我有一组非常不方便的csv数据，如： PMSN01001_PFT0_20181212_Crop_AGE.jpg_OCR.csv PMSN01001_PFT0_20181212_Crop_GENDER.jpg_OCR.csv PMSN01001_PFT0_20181212_Crop_HEIGHT.jpg_OCR.csv PMSN01001_PFT0_20181212_Crop_WEIGHT.jpg_OCR.csv ... PMSN01002_PFT0_20181212_Crop_AGE.jpg_OCR.csv PMSN01002_PFT0_20181212_Crop_GE

浏览 2提问于2021-03-02得票数 0

回答已采纳

1回答

Python，从具有相应值的许多csv文件计算平均值/平均值

python、pandas、numpy、average

我有csv文件(假设= 30)，我想使用相应的值计算所有30个csv的平均值，并创建一个新的output.csv文件。示例csv文件：(我有13列和16行) | Dataset | VALUE1 | VALUE2 | |:---- |:------:| -----:| | Name1 | 2.4 | 4.2 | | Name2 | 3.5 | 9.3 | | Name3 | 4.6 | 11.5 | 现在我有30个这样的csv文件，其中第一行是标题，第一列也包含字符串名称。我想要做的是取30个csv文件(例如，添加value1，name1)的所有30个csv文件的

浏览 7提问于2020-12-29得票数 1

回答已采纳

1回答

字符串字段比较并打印差异

python

我在两个表中都有A和B以及St_name、L_city和R_city列。要求将两个表上的这三列连接起来并进行比较。检查1:如果完全匹配，则写入CSV文件，即： (A.StName + A.L_city + A.RCity) == (B.Stname + B.Lcity + B.RCity) 检查2:部分匹配写入CSV： (A.Stname + A.L_city) == (B.Stname + B.LCity) 检查3:部分匹配写入CSV： (A.Stname + A.R_city) == (B.Stname + B.Rcity) 检查4:剩余的不匹配-写入CSV：我尝试将字段创建为list

浏览 3提问于2019-08-12得票数 1

3回答

如何在两个csv文件之间提取类似的值，并在python中创建一个新的csv文件，并提供所需的输出？

python、csv

嗨，我有两个csv文件，它们是boom.csv和kaboom.csv，它们有这样的数据 boom.csv id;rollnumber;total;subjects;obtained;rank;standing 260406;260737;137;10;127;10;111 552592;260806;134;10;124;10;108 402788;260837;134;10;124;10;108 262744;260851;131;10;121;10;105 502870;260874;131;10;121;10;105 342541;260879;131;10;121;10;105 502

浏览 0提问于2019-05-06得票数 1

回答已采纳

2回答

使用Pandas中存储在DataFrame单元中的列表的值

python、pandas、list、dataframe

我有一个CSV文件，每个单元格值都有两个元素列表(对)。 | 0 | 1 | 2 | ---------------------------------------- 0 |[87, 1.03] | [30, 4.05] | NaN | 1 |[34, 2.01] | NaN | NaN | 2 |[83, 0.2] | [18, 3.4] | NaN | 如何分别访问这些元素？每对的第一个元素充当另一个CSV表的索引。我做过这样的事，但这件事一直困扰着我。 links = pd.re

浏览 2提问于2018-10-10得票数 1

回答已采纳

1回答

Python:以csv格式导出矩阵

python、pandas

我有一个用Python语言命名为correl的13行13列的2D矩阵(除第一列外都有标题)。这个correl矩阵是从一个DataFrame生成的，我希望用多个correl填充一个矩阵correlation。例如： correlation=[] correl=df.corr() correlation=correlation.append(correl) #correlation is not a DataFrame 我之所以使用correlation=[]，是因为我希望用多个相关表填充correlation。这就是我使用append的原因，因为这是一个循环。现在，我希望将此相关矩阵导出为cs

浏览 2提问于2014-03-15得票数 3

回答已采纳

2回答

如何从文件夹中读取每个文件并为每个文件创建单独的数据框？

python、pandas、file、directory

我正在尝试让我的代码读取包含各种文件的文件夹。我希望让Jupyter读取该文件夹中的每个文件，并通过将文件的名称作为数据帧名称来创建单独的数据帧。到目前为止，我已经有了代码： import glob path = r'C:\Users\SemR\Documents\Jupyter\Submissions' all_files = glob.glob(path + "/*.csv") li = [] for filename in all_files: df = pd.read_csv(filename, index_col=None, head

浏览 9提问于2019-07-09得票数 2

回答已采纳

1回答

Python将Dataframe写到CSV

python、csv、pandas、dataframe

我试图用熊猫为csv编写一个4表、3列和50行数据文件。我得到了下面的错误AttributeError: 'dict' object has no attribute 'to_csv'。我相信我写的语法是正确的，但是有谁能指出我的语法在尝试将dataframe写到csv时哪里不正确呢？ 'dict' object has no attribute 'to_csv' import pandas as pd import numpy as np df = pd.read_excel("filelocation.xlsx&#

浏览 2提问于2016-03-09得票数 2

1回答

运行ADF数据流后，以分隔文本形式存储的数据无效

azure-data-factory、azure-data-factory-2

我正在尝试通过ADF数据流将输入的数据存储到blob存储中的csv文件。管道已成功运行。但是，在检查csv文件时，我发现其中包含了一些无效数据。下面是分隔文本和接收器的设置。请让我知道我错过了什么？ ? ? ?

浏览 12提问于2020-07-24得票数 0

回答已采纳

1回答

Python/Panda -根据join表/ csv合并csv

python、pandas、csv、data-structures

我有一个关于合并两个csv文件的问题。我有两个文件，包含多列数据，包括唯一的id和另一个文件，它将文件1的id映射到文件2的id，所以我基本上有一个。现在，我想要创建一个新的csv文件，根据我的join csv中的id映射来连接来自文件1和2的数据。下面是我的数据的一个示例： CSV1 1-客户 ID, Name, Lastname 1, Peter, Pan 2, Hank, Tank CSV2 2-地址 ID, Street, State 5, Mainstr, US 7, H Blvd, DE 加入-CSV： CID, AID 1, 5 2, 7 我想要的： ID

浏览 3提问于2018-03-06得票数 1

回答已采纳

1回答

按指定列合并多个数据帧中的列

python、pandas

我正在处理时间序列，我在csv文件中有10个不同的股票价格。我想要做的只是将它们的收盘价转储到一个数据帧中，并用股票的名称命名列。我是手动完成的，但应该有更好的方法。我也有其他所有的专栏。以下是我到目前为止所做的工作。我需要他们按日期匹配。如果它们中的一个错过了另一个的日期，它应该有NaN的值，这样我就可以很容易地删除它们。这是我到目前为止所做的： sym1 = "AAPL" sym2 = "AMZN" s1 = "./stocks/{}.csv".format(sym1) s2 = "./stocks/{}.csv".for

浏览 0提问于2019-02-27得票数 3

1回答

从pandas中的字典和路径组合拉取数据时出错

pandas、path-combine

我试着从3个城市获取数据。我如何读取所有3个城市的数据，而不是逐个读取下面的数据？我是否有重复的代码来读取下面的数据？如何从字典中读取数据以避免错误？非常感谢。 import csv with open('C:\\Users\\jasch\\chicago.csv') as chicago_data: csvReader = csv.reader(chicago_data) import csv with open('C:\\Users\\jasch\\new_york_city.csv') as new_york_data: csvReade

浏览 33提问于2018-05-29得票数 0

回答已采纳

1回答

解析每个文件夹以提取python中的信息

python、pandas、opencsv

我有一个目录，每个客户都有一个文件夹。在每个客户文件夹中都有一个名为surveys.csv的csv文件。我想打开每个客户文件夹，然后从csv中提取数据并进行连接。我还想创建一个包含该客户id的列，该id是文件夹的名称。 import os rootdir = '../data/customer_data/' for subdir, dirs, files in os.walk(rootdir): for file in files: csvfiles = glob.glob(os.path.join(mycsvdir, 'surveys.csv

浏览 1提问于2020-09-09得票数 1

1回答

基于一列在R中合并多个不同长度的文件

我有100个文件，每个文件都是这样的： ID BYr Milk REL 183601 2010 -0.635262171151035 50 183603 2010 -1.15906865500681 50 183611 2010 -0.39135273818727 50 183616 2010 0.832853286113099 50 183619 2010 1.15141619232805 50 列1 ( ID )指的是动物ID，所有文件都有这一列。第三列是感兴趣的特征。在本例中，牛奶产量或泌乳长度等。我希望根据变量ID合并所有文件，排除第2列和第4列，并

浏览 4提问于2015-09-18得票数 2

2回答

附加到具有正确对象类型的数据文件列表中

python、pandas

我想这个问题并不是熊猫特有的。我试图在一个文件夹中找到所有的xls文件，用熊猫阅读它们，并将每个文件写到一个dataframe中。之后，我想把所有的数据连接到一个。在循环中，我用下面的命令重命名每个dataframe，并使用一个日期标记(以便为以后的连接保留它)： exec("%s = %s" % ('data_'+date,'data')) 然后将新的dataframe名称追加到列表中： dataframes = dataframes + 'data_'+date 当我试图通过以下方式连接此列表时： data_total =

浏览 3提问于2020-06-08得票数 0

回答已采纳

1回答

几年后又回到了Python。不确定读取/转换pandas数据帧/数组的最佳实践

python、pandas、csv

我正在尝试读取两个带有相应信息的csv文件，并使用这两个文件中的值创建一个新数组。第一个csv文件有许多列，但我感兴趣的是:产品名称、库存数量和ASIN列。第二个csv也有多个列，但我对ASIN和Stock列感兴趣。我想迭代第一个csv文件(这里加载到dataFeedNames中)的ASIN值，并在第二个csv文件(这里加载到dataFeedInventory中)中找到相应的ASIN值。在dataFeedInventory中找到相应的ASIN后，我想在dataFeedInventory中的“Stocks”列下检索相应的行值。在新的数组中，我将加载来自dataFeedNames的Inv

浏览 14提问于2021-11-10得票数 0

回答已采纳

2回答

使用Pandas与CSV读取器/写入器处理和保存大型CSV文件

python、pandas、csv

我是python和pandas的新手，但我正在努力更好地使用它来解析和处理大型数据文件。我目前正在从事一个项目，该项目要求我同时解析几十个大型CSV CAN文件。这些文件有9个感兴趣的列(1个ID和7个数据字段)，大约有100-200万行，并以十六进制编码。示例数据如下所示： id Flags DLC Data0 Data1 Data2 Data3 Data4 Data5 Data6 Data7 cf11505 4 1 ff cf11505 4 1 ff

浏览 7提问于2018-08-08得票数 3

1回答

对列多个文件的操作Pandas

python、file、csv、pandas、time-series

我试图在Pandas中执行一些算术操作，并将结果合并到其中一个文件中。 Path_1: File_1.csv, File_2.csv, .... 这个路径有几个文件，这些文件应该是在时间间隔内增加的。具有下列列 File_1.csv | File_2.csv Nos,12:00:00 | Nos,12:30:00 123,1451 485,5464 656,4544 456,4865 853,5484 658,4584 Path_2: Master_1.csv Nos,00:00:00 1

浏览 3提问于2015-06-26得票数 1

回答已采纳

2回答

Panda将多个csv合并为一个公共列

python、csv、pandas

我有13个csv文件要合并。我想尝试熊猫和蟒蛇，但我正在挣扎。有3种类型的文件关键字是a 1)具有列a b c d 2)具有列a b c d(其中a不包含任何来自1) 3)具有列a b c d e f g(其中a包含所有来自1和2的列) 我如何才能将所有这些合并到一个包含所有文件中所有信息的csv中？

浏览 1提问于2015-09-10得票数 0

1回答

将csv文件与不匹配的列组合起来

csv、apache-spark、pyspark、spark-dataframe、data-analysis

浏览 1提问于2018-02-27得票数 3

回答已采纳

11回答

熊猫三面连接多个数据栏

python、pandas、join、merge

我有三个CSV文件。每个列都有第一个列作为人员的(字符串)名称，而每个dataframe中的所有其他列都是该人的属性。我如何将所有三个CSV文档“连接”到一起创建一个CSV，其中每个行都具有每个人的字符串名的所有属性？熊猫中的join()函数指定我需要一个多索引，但我不知道分级索引方案与基于单个索引的连接有什么关系。

浏览 14提问于2014-05-15得票数 294

回答已采纳

3回答

Python中的MemoryError与pandas的大型合并

python、numpy、pandas、dataframe

我正在使用pandas对一组大约1000-2000个CSV文件进行outer合并。每个CSV文件具有在所有CSV文件之间共享的标识符列id，但是每个文件具有3-5列的唯一一组列。每个文件中大约有20,000个唯一的id行。我所要做的就是将这些列合并在一起，将所有新列合并在一起，并使用id列作为合并索引。我使用一个简单的merge调用来实现： merged_df = first_df # first csv file dataframe for next_filename in filenames: # load up the next df # ... merged_df

浏览 4提问于2013-06-20得票数 10

回答已采纳

1回答

如何使具有不同扩展名(xlsx、csv)的多个文件组合在一起？

python、pandas、jupyter-notebook

嘿，我在找能解决我问题的答案。 1.我在一个文件夹中有一个csv文件，在另一个文件夹中有一个2.Excel文件。我想将这两个文件夹文件合并为一个文件注意:两个文件夹文件中的数据在列方面是相同的。

浏览 9提问于2022-04-08得票数 0

4回答

熊猫concat失败了

python、pandas

我正在尝试基于foll连接数据帧。2个csv文件： df_a： df_b：这两者具有相同的列数和列名。然而，当我这样做的时候： pandas.concat([df_a, df_b]) 我得到了错误： AssertionError: Number of manager items must equal union of block items # manager items: 20, # tot_items: 21 如何解决这个问题？

浏览 0提问于2016-02-02得票数 33

1回答

当值完全匹配时，熊猫合并不起作用。

python、pandas

下面是我的代码和Dataframes。stats_df要大得多。不确定是否重要，但列值与实际文件中的值完全相同。即使两个DFs的PlayerID值都相同，都是'20000852‘，但我不能在不丢失'Alex’的情况下合并这两个DFs。 stats_df = pd.read_csv('stats_todate.csv') matchup_df = pd.read_csv('matchup.csv') new_df = pd.merge(stats_df, matchup_df[['PlayerID','Matchup

浏览 7提问于2022-04-01得票数 0

回答已采纳

1回答

Python:合并多个文本文件

python、csv、pandas、merge

我是Python的新手，也不是什么程序员。我有40+文本文件，我想要组合在一起(在一个‘宽’csv，而不是‘高’csv。也就是说，我不想附加文件)并产生一个新的csv。使用Pandas (合并)我可以实现我想要的，但我认为有一个更简单的方法。这里有七个文件：将熊猫作为pd导入 a = pd.read_csv("c:/pyTest/B01001.txt") b = pd.read_csv("c:/pyTest/B01002.txt") c = pd.read_csv("c:/pyTest/B01003.txt") d = pd.read_cs

浏览 3提问于2014-10-07得票数 0