pandas递归read_csv，同时向每个添加列_Pandas同时添加多列_递归地向Pandas Dataframe添加行 - 腾讯云开发者社区

python、pandas

我正在尝试创建一个新列，它来自两列的计算。通常，当我需要这样做时，但是只有一个列，我使用.apply()，但是现在有两个参数，我不知道如何做。使用一种方法，我将执行以下代码： from pandas import read_csv, DataFrame df = read_csv('results.csv') def myFunc(x): x = x + 5 return x df['new'] = df['colA'].apply(myFunc) df.head() 有两个，我以为是像下面这样，但不是。 from pandas

浏览 4提问于2020-11-15得票数 0

回答已采纳

3回答

尾随分隔符混淆熊猫read_csv

python、pandas、numpy、csv、delimiter

csv (逗号分隔)文件，其中的行有一个额外的尾随分隔符，似乎混淆了pandas.read_csv。(数据文件为1) 它将额外的分隔符视为有额外的列。因此，比标头所需的列还多一列。然后，pandas.read_csv将第一列作为行标签。总体效果是，列和标头不再对齐--第一列成为行标签，第二列由第一个标头命名，等等。这很烦人。知道怎么告诉pandas.read_csv做正确的事吗？我找不到一个。好书，BTW。 1: 2012年FEC选举数据库来自“数据分析Python”一书第9章

浏览 4提问于2012-12-05得票数 17

回答已采纳

1回答

指定从SQL server返回的数据帧中列的数据类型。

python、pandas、dataframe

我使用pandas从SQL Server数据库中检索数据，并使用下面的代码行。 df = pd.read_sql_query(query, cnxn) 所以返回一个我想要的数据帧。然而，我注意到列并不总是正确的数据类型，例如，有时数字将是一个字符串。我想知道解决这个问题的最好方法是什么？ 1)我应该用正确的列数据类型初始化一个空的dataframe，然后通过循环游标结果来填充dataframe吗 2)使用返回的dataframe (上例中的df)，并在需要转换的列上使用astype()和其他转换器 3)或者有没有办法在read_sql_query中为查询中的每一列指定您期望的数据类型

浏览 14提问于2019-02-13得票数 0

回答已采纳

1回答

列的和: Pandas .sum()返回0.0

python、pandas、dataframe、csv、sum

我正在尝试使用.sum()和pandas对数据帧中的列的值进行求和。但是，对于数据类型为“float64 64”的所有列，pandas将返回“0.00”。对于设置为整数的列，它似乎工作得很好。这是我到目前为止尝试过的： df = pd.read_csv(csv_file, delimiter=';') df = df.apply(pd.to_numeric, errors='coerce').fillna(0) *#I want to convert values to numeric* print(df['UE'].dtype) *#I p

浏览 6提问于2021-03-17得票数 0

1回答

无法安全地转换传递给列%1中的对象数据类型数据的float64的数据类型

pandas、csv

我正在尝试使用panda读取csv文件，这是数据在csv文件中的外观。 Freq Level 2412 -84 2412 -85 2412 -90 2412 -83 2412 -83 下面是我的代码： import pandas as pd x_data = pd.read_csv(data_path, encoding='utf7', dtype=float) print(x_data) 然后我得到了错误“不能安全地转换传递的使用float64的数据类型作为对象数据类型的数据” ~/anaconda3/lib/python3.7/site-packages

浏览 63提问于2020-02-22得票数 0

1回答

如何正确覆盖(或创建自己的) Pandas read_csv方法？

python、pandas、overriding

我正试图在pandas.read_csv之上编写我自己的read_csv方法。 # pandas_custom.py module import pandas as pd def read_csv(**kwargs): df = pd.read_csv(**kwargs) df = df.apply(my_function) return df # main_module.py module import pandas_custom as pdF df = pdF.read_csv(filepath_or_buffer='train.csv') #

浏览 32提问于2020-01-14得票数 0

回答已采纳

1回答

在Python中使用Pandas从csv生成简单的绘图

python、pandas、matplotlib

我正在尝试绘制csv文件的第一列('Time')与第二列('Bid')的关系图。这是我到目前为止所掌握的。 import pandas as pd import datetime import csv import matplotlib.pyplot as plt import matplotlib.dates as mdates headers = ['Time','Bid','Ask'] df = pd.read_csv('quotes_format.csv') x = df['T

浏览 1提问于2018-12-10得票数 0

1回答

KeyError: Jupyter Notebook中的“Message”

python、python-3.x、pandas、dataframe、keyerror

我是机器学习的新手，我正在面对这个问题。我已经上传了包含两列和标题“Message”和“Priority”的数据集。当我运行这个命令时，我得到的结果是： 'df.columns' 'Index(['Message\tPriority'], dtype='object')' 但是，当我运行这个命令时，我得到以下错误： X = df['Message'] ylabels = df['Priority'] KeyError Tra

浏览 36提问于2020-02-26得票数 0

6回答

如何在使用Pandas读取CSV时保持列中的前导零？

python、pandas、csv、types

我正在使用read_csv将研究数据导入到熊猫数据框中。我的主题代码是6个数字编码，其中包括生日。对于我的一些受试者，这会导致代码前导为零(例如"010816")。当我导入到Pandas中时，前导零被去掉，列的格式化为int64。有没有一种方法可以原封不动地导入这个列，比如作为一个字符串？我尝试对列使用自定义转换器，但它不起作用-似乎自定义转换发生在Pandas转换为int之前。

浏览 8提问于2012-11-06得票数 71

1回答

删除.csv中的所有行，但列中的重复单元格除外

python、python-3.x、pandas

由于一些regex错误，.csv文件中有许多行相同，但格式略有不同，所以URL始终是常见的变量。我需要找到列"tx“中的url的所有副本，并删除第一列以外的所有其他内容。 .csv为50K行。系统是Windows。我试过的是： # importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("dupes.csv") # dropping ALL duplicte values df = data.drop_duplica

浏览 1提问于2018-11-03得票数 1

回答已采纳

3回答

用Python垂直叠加.csv文件

python、pandas、csv

因此，我一直在尝试将.csv文件与Pandas合并，并尝试创建几个函数来实现它的自动化，但我一直有一个问题。我的问题是，我想一个接一个地堆叠一个.csv (相同的列数和不同的行数)，但不是用相同的列数获得一个更大的csv，而是获得一个更大的csv，其中有更多的列和行(正确的行数、不正确的列数(列的数量比应该的列多)。我使用的代码是： import os import pandas as pd def stackcsv(content_folder): global combined_csv combined_csv= [] entries = os.listdir(c

浏览 0提问于2020-03-02得票数 0

回答已采纳

1回答

当尝试使用pandas从我的数据集中删除列时，我得到错误"['churn'] not found in axis“

python、pandas、dataframe

我希望x是除“流失”列之外的所有列。但是当我执行下面的操作时，我得到了"'churn‘not found in axis“错误，尽管我在写"print(list(df.column))”时可以看到列名，但下面是我的代码： import pandas as pd import numpy as np df = pd.read_csv("/Users/utkusenel/Documents/Data Analyzing/data.csv", header=0) print(df.head()) print(df.columns) print(len(df

浏览 488提问于2020-07-25得票数 1

回答已采纳

4回答

使用Pandas库将历史元数据CSV数据导入Python (日期/时间解析)

python、parsing、csv、pandas、metatrader4

我有一些CSV数据 2011.12.08,22:45,1.33434,1.33465,1.33415,1.33419,265 2011.12.08,23:00,1.33419,1.33542,1.33419,1.33472,391 2011.12.08,23:15,1.33470,1.33483,1.33383,1.33411,420 2011.12.08,23:30,1.33413,1.33451,1.33389,1.33400,285 来自Metatrader 4的EURUSD15.csv文件我想用Python使用Pandas库和read_csv函数导入这个文件. 所以我做了这个： #!

浏览 2提问于2012-07-26得票数 2

回答已采纳

1回答

在pandas中将CSV转换为sqlite3表-“8位字节串”错误

python、pandas、csv、sqlite

我正在尝试将一个表加载到sqlite3中。我现在有一个csv格式。表格有多种格式-文本、数字、日期、NaN... 代码如下： import pandas as pd import sqlite3 df = pd.read_csv("filename.csv") conn = sqlite3.connect('test.db') df.to_sql('file', conn, flavor='sqlite', if_exists='replace', index=False) 我得到以下错误： str:除非您使用可以

浏览 0提问于2017-11-22得票数 0

1回答

熊猫在阅读CSV时重命名专栏

python、pandas、io

我在一个文件夹中有多个文本文件，而不是输出到一个表中。我成功地将表导出到一个.csv文件。问题是，我想要向每个列添加一个标题，并且我希望标题的名称是文本文件的名称。每个文件都是表中的一列数据。例如，列1来自textfile.1。我想在列1中添加一个标头，上面写着"textfile.1" 这是我的工作代码： import os path = r'C:/path/to/file' folders = os.listdir(path) #raw string import pandas as pd df = pd.DataFrame() df_interim =

浏览 1提问于2020-07-09得票数 3

回答已采纳

1回答

pandas将data文件读取为DataFrame，当一列只有一位数数据时会出现问题

python、pandas、dataframe、txt

我正在使用python pandas来分析txt数据。我试图用pd.read_fwf读取txt文件，但只有一列有？如下所示的字母 824334 4141.854 6100.175 11.040 -117.810 841013 2028.294 6221.566 10.913 -178.340 854890 4214.858 6322.255 10.645 -125.390 864353 4326.768 6389.329 10.815 -98.650 ? 864918 3187.398 6392.824 11.050 -91.2

浏览 35提问于2021-02-03得票数 0

1回答

ValueError:使用pandas.read_csv()类型对象的未知格式代码'd‘

python、pandas

我发现了产生这种奇怪行为的原因:在其中一个模块中，我引入了一个错误pd.options.display.float_format = '{:,.0d}'.format，该错误只有在打印DataFrame时才会显示出来。我将把我原来的问题留在这里，这样可能会对别人有所帮助。我正在我的代码中寻找一个bug，现在我发现在代码的一部分(一个模块)中，我可以将csv读入熊猫DataFrame中，没有任何问题(例如，我最终可以在调试控制台中执行df )，而在另一部分(另一个模块)，我可以将csv读入熊猫Dataframe，但是当我试图打印它时，我会得到以下错误：ValueError: U

浏览 10提问于2022-02-28得票数 0

1回答

带有nrows=1的Python Pandas read_csv

python、pandas

我让下面的代码读取一个带有头文件的文本文件。ANd向其追加另一个具有相同标头的文件。由于主文件非常大，我只想读入其中的一部分并获取列标题。如果只有一行是标题，我就会得到这个错误。我也不知道这个文件有多少行。我想要实现的是读取文件并获得文件的列标题。因为我想向它追加另一个文件，所以我试图确保列是正确的。 import pandas as pd main = pd.read_csv(main_input, nrows=1) data = pd.read_csv(file_input) data = data.reindex_axis(main.columns, ax

浏览 5提问于2014-08-27得票数 2

2回答

读取具有可变列数的CSV文件

python、pandas、csv

我有一个CSV文件，看起来 K1 ,Value M1,0 M2,10 M3,3 K2 ,Value,Value,Value M1,4,6,3 M2,7,3,4 M3,10,2,6 K1 ,Value,Value M1,0,4 M2,10,2 M3,3,7 该文件按5行分组。例如，第一个组的名称是K1，后面是一个具有固定3行和1列的dataframe。组中的行数是固定的，但列数是可变的。K1有1列，K2有3列，K3有2列。我想阅读它来形成一个字典，其中键是组的名称、K1、K2或K3，值是与组名相关联的dataframe。简单的类似于read_csv的df = pd.read_csv(

浏览 1提问于2021-11-26得票数 0

回答已采纳

1回答

dataframe python从年、月、日转换为周日

pandas、datetime

我正在尝试通过操作其他cols来添加新的Dataframe列。 import pandas as pd import numpy as np from pandas import DataFrame, read_csv from pandas import read_csv import datetime df = pd.read_csv('PRSA_data_2010.1.1-2014.12.31.csv') df.head() ? 当我试图操纵 df['weekday']= np.int(datetime.datetime(df.year, df.

浏览 28提问于2020-06-17得票数 0

2回答

当python pandas.read_csv在azure上时，编码不会改变。

python、pandas、azure、encoding

通过读取与python熊猫一起的csv文件，并试图更改编码，因为一些德国字母，seams Azure始终保持相同的编码(假设默认)。无论我做了什么，总是在Azure门户上得到相同的错误：'utf-8'编解码器无法解码0位置的字节0xc4 :无效的连续字节堆栈即使我设置、uft-16、latin1、cp1252等，也会出现相同的错误. with pysftp.Connection(host, username=username, password=password, cnopts=cnopts) as sftp: for i in sftp.listdir_attr():

浏览 2提问于2021-11-07得票数 0

回答已采纳

4回答

在python中向csv添加列标题

python、csv、pandas

我有一个csv，它只包含1列域名，大约300到1500行，看起来类似于以下内容： google.com abc.net yahoo.com cnn.com twitter.com 我所需要做的就是添加一个列标题"domain“，这样我的csv就会看起来像这样： domain google.com abc.net yahoo.com cnn.com twitter.com 我使用pandas尝试了以下操作： from pandas import read_csv x = read_csv('domains.csv') x.columns = ['domain&#

浏览 35提问于2016-08-09得票数 3

回答已采纳

3回答

如何使用for循环从dataframe中删除许多行，这些循环遍历需要删除的值？

python、pandas、loops、dataframe

我正在尝试通过它的名称删除超过数百万行，这是超过1000个唯一值。有一个主数据帧(df_summary)和另一个数据帧，其中包含必须从主数据帧中删除的行的名称。删除一些列不是问题，但是需要删除的唯一值的数量太多了，无法手动执行。因此，我尝试遍历它。 “两个数据帧的整体外观，列后面有许多列” 以下是我尝试过的方法： from pandas import read_csv import pandas as pd df_summary = read_csv ('path.csv', sep=',') rows_to_remove = read_csv ('

浏览 28提问于2019-10-25得票数 0

回答已采纳

1回答

Pandas中HDF文件帧中列的附加

python、csv、pandas、hdf5

我正在处理一个CSV格式的大型数据集。我正在尝试一列一列地处理数据，然后将数据附加到HDF文件中的框架中。所有这些都是用Pandas来完成的。我的动机是，虽然整个数据集比物理内存大得多，但列大小是可管理的。在稍后阶段，我将一个一个地将列加载回内存并对它们进行操作，从而执行按特性进行的逻辑回归。我能够创建一个新的HDF文件，并使用第一列创建一个新的框架： hdf_file = pandas.HDFStore('train_data.hdf') feature_column = pandas.read_csv('data.csv', usecols=[0]) hd

浏览 3提问于2013-12-06得票数 10

回答已采纳

1回答

获取CParserError:标记数据时出错。C错误:第1025974行应包含281个字段，请参见331

python-2.7、pandas

我有一个17 get的制表符分隔文件，在使用python/pandas时出现上述错误我正在做以下工作： data = pd.read_csv('/tmp/testdata.tsv',sep='\t') 我还尝试添加adding =‘utf8’，还尝试了read_table和各种标志，包括low_memory=True，但我总是在同一行得到相同的错误。我在文件上运行了以下命令： awk -F"\t" 'FNR==1025974 {print NF}' /tmp/testdata.tsv 对于字段的数量，它返回281，因此awk告

浏览 2提问于2016-04-20得票数 2

2回答

如何在pandas中读取带有分隔符的文件？

python、pandas、csv、fixed-width

我正在使用pandas库，如何根据逗号分隔将给定的数据帧拆分为行和列。因为如果我尝试，它会给出错误，它不能分离，并抛出以下错误。 6.1101,17.592 5.5277,9.1302 8.5186,13.662 7.0032,11.854 5.8598,6.8233 8.3829,11.886 上面给出的行组成了我的数据集。代码是： import pandas as pd from sklearn import linear_model import matplotlib.pyplot as plt dataframe = pd.read_fwf("challenge_dataset

浏览 1提问于2017-06-25得票数 0

回答已采纳

1回答

从起始行组合多个csv

python、pandas

我想知道是否可以组合多个CSV，但要从给定的行开始，并在第一列中添加文件名。目前，我一直在使用以下代码： import os import glob import pandas as pd os.chdir(Path) extension = 'csv' all_filenames = [i for i in glob.glob('*.{}'.format(extension))] #combine all files in the list combined_csv = pd.concat([pd.read_csv(f) for f in all_

浏览 0提问于2019-09-11得票数 0

回答已采纳

1回答

python、pandas、csv

我有一个csv文件，大多数时候以日期开始，但有时以文本开始。所以f.E： time user text 2019-01-01T00:09:59-05:00: user1: text1 2019-01-01T00:09:59-05:00: user1: text4 2019-01-01T00:10:10-05:00: operator: error \ ERRCODE: error 'operator' info. 2019-01-01T00:09:59-05:00: user2: text5 正如您所看到的，有时会有一个错误

浏览 10提问于2019-05-16得票数 0

1回答

Python软件开发(CSV到Pandas到SQL或CSV到SQL到Pandas)

python、sql、pandas

我有多个要操作的csv文件(计算平均值、和等)之后，我想将它们存储在SQLite数据库中。但我想知道什么是最合适的方法。 CSV到SQL并使用Pandas进行操作或 CSV，使用Pandas操作并存储在SQL中。例如，我希望将所有数据存储在这个表中。我将每年更新，并在我的SQL表中添加2013年、2014年等。我将创建一个列，在该列中，每一行的平均年份为10年，等等。致以敬意，

浏览 3提问于2013-08-08得票数 2

回答已采纳

1回答

如何告诉pandas将特定列解析为datetime对象，而不是将其作为索引？

python、parsing、datetime、pandas

我有一个csv文件，其中一列是日期/时间字符串。如何使用pandas正确解析它？我不想将该列作为索引。谢谢! Uri

浏览 2提问于2012-03-15得票数 6

回答已采纳

2回答

尝试从具有pandas的对象数据类型的csv导入所有列

python、pandas、csv、dataframe

我正在尝试使用pandas将csv读取到新的数据帧中。许多列可能只包含数值，但我仍然希望将它们作为字符串/对象导入，而不是具有浮点型的列。我正在尝试写一些用于数据转换/迁移的python脚本。我不是一个高级的Python程序员，主要是在遇到需要解决的问题时学习。我要导入的csvs具有不同数量的列，甚至有不同的列标题，并且以任何顺序，我无法控制这些列，因此我不能在read_csv中使用dtype参数显式指定数据类型。我只希望导入的任何列都被视为对象数据类型，以便我可以进一步分析它的数据质量。例如，我尝试过的一个CSV上的'Staff ID'和'License Nu

浏览 42提问于2019-07-04得票数 0

回答已采纳

1回答

为什么pandas read_csv只返回前1024列？

python、pandas、csv

我们在jupyter notebook上使用pandas加载csv文件，如下所示： import pandas as pd dat=pd.read_csv("data.csv") 多次运行上面的代码行只返回前1024列。我们已经尝试了如下选项： pd.read_csv("data.csv", na_values ='na', engine='python', delimiter=',', header=0, quoting=csv.QUOTE) to no avail. 以下是数据的快照：将csv

浏览 0提问于2018-11-13得票数 0

1回答

pandas、pyspark、databricks

来自Databricks https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html的这篇最近的博客文章说，在pyspark.pandas下运行熊猫程序所需的唯一更改是将from pandas import read_csv更改为from pyspark.pandas import read_csv。但这似乎并不正确。那么所有其他(非read_csv)对熊猫的引用呢？将import pandas as pd更改为import pyspark.pandas as pd不是正确的方法吗？

浏览 121提问于2021-10-26得票数 1

回答已采纳

1回答

在Python中使用两个数据帧上的公共匹配项创建一个新文件

python、import、match、extract

dataset2.csv需要在dataset1.csv的第一列上查找匹配项，output.csv只需要具有匹配项和一些属性。第一列是一个字符串。 Dataset1.csv Name age John 2 Peter 1 Sara 3 Dataset2.csv Name city Time John NY, NY 3:10AM Peter LA, CA 7:45PM Output.csv Name age city Time John 2 NY, NY 3:10AM Peter 1 LA, CA 7:45PM import pand

浏览 12提问于2019-07-03得票数 1

1回答

pandas.read_csv仅在一列中返回无法读取的文本

python-3.x、pandas、encoding

我使用的是Python3.7.3MSCv.1915 64位(AMD64)，我试图用pandas.read_csv创建一个数据帧，我有两个问题。一方面，列数(1而不是55)和行数(19.181而不是2.272)与.xlsm文件都不匹配。另一方面，标题和行只显示不可读文本的值，而不显示文本字符串和数字(整数、浮点数)。我已经尝试了几个编码选项：‘拉丁语-1’，'utf-8‘和'ISO-8859-1’。此外，我还使用了几个'sep‘选项：'\t'，';’。他们似乎都没有解决这个问题。 import pandas as pd import csv

浏览 19提问于2019-08-22得票数 0

2回答

Python Pandas Mixed Boolean Yes/True和NaN列

python、import、pandas

我正在上一门健康科学课程，推荐使用R或Stata。我正在尝试使用Python / Numpy / Pandas，因为我希望将来将其用于金融时间序列分析。数据是Stata格式的，所以我复制了字段并将它们保存为CSV。除了有一些Yes/No列之外，所有的字段导入都很好，其中一些字段是空白的。导入命令为 fhs = pd.io.parsers.read_csv('F:\\BioStatistics\\fds\\fhs_c2.csv', header=0, index_col=0) 如果存在空白字段，则数据类型为object (有意义) 如果没有空格，一些列将转换为TRUE/FAL

浏览 0提问于2012-10-18得票数 2

回答已采纳

1回答

如何将txt文件(从SQLCMD)读取到Pandas DataFrame中？

sql、sql-server、python-3.x、pandas、sqlcmd

我已经谷歌搜索，但还没有找到一种方法来解析SQL文件输出，并导入为熊猫DataFrame。在cmd行中，我有： sqlcmd -S server_name -E -Q "select top 10 * from table_name" -o "test.txt" 这会产生一个文本文件，这并不是最好的格式，因为它有虚线和注释(影响10行)，但不管怎样。现在，我做到了： import numpy as np import pandas as pd df_test = pd.read_csv('test.txt', sep = ' '

浏览 8提问于2021-02-21得票数 1

3回答

使用pandas.io.sql.read_frame，可以像在read_csv中一样使用parse_dates吗？

python、sql、datetime、pandas

我正在使用pandas.io.sql.read_frame直接从数据库读取data_frame cnx = pandas.io.sql.connect(host='srv',user='me',password='pw',database='db') df = pandas.io.sql.read_frame('sql_query',cnx) 它可以很好地检索数据。但我想将其中一列解析为datetime64，类似于从CSV文件读取时可以执行的操作，例如： df2 = pandas.io.read_csv(csv_f

浏览 2提问于2013-03-06得票数 7

1回答

阅读IIS日志到熊猫数据

iis、pandas

我有一个IIS日志文件，其中包含以下格式的行： 61.245.163.59 -16/2013:23:55:09 +0530 "GET /ehrm/Recruitment/Image/divider.gif HTTP/1.1“404 1245 "”(Windows 6.1；rv:20.0) Gecko/20100101 Firefox/20.0“GET /ehrm/Recruitment/Image/divider.gif- www.example.com /1.1 www.example.com” 我想从这里得到一些列并构建一个dataframe。在下面的方法中，它只构

浏览 3提问于2013-06-21得票数 2