关于合并pandas数据帧的问题_Pandas多索引数据帧合并问题_合并Pandas数据帧 - 腾讯云开发者社区

python、pandas、merge、conditional-statements、between

我在python pandas中有两个数据帧数据帧1 User_id zipcode 1 12345 2 23456 3 34567 数据帧2 ZipCodeLowerBound ZipCodeUpperBound Region 10000 19999 1 20000 29999 2 30000 39999 3 如何使用pandas merge将区域中的数据映射到条件为if(df1.zipcod

浏览 3提问于2016-10-29得票数 3

1回答

无法将合并的Dask dataframe转换为pandas dataframe -出现错误"Unalignable boolean Series provided as indexer“

python、dask、dask-dataframe

我正在尝试合并3个Dask数据帧并相应地查询它们。数据帧是从formula1数据的SQL表的.csv文件创建的。表格 laptimes: raceId, driverId, lap, position, time races: raceId, year, round drivers: driverId, forename, surname 下面的laptimes表与races和drivers表具有外键关系。我已经读入，合并了数据帧，并尝试查询数据帧： from dask import dataframe as df import pandas as pd pd.set_option("

浏览 82提问于2021-10-05得票数 2

1回答

需要帮助来构建特定的Dataframe (PYTHON PANDAS)

python、pandas、dataframe

我最近问了关于如何合并数据帧的问题，问题是除了我之前问的问题之外，我还需要这个问题。(上一个问题： ) 我需要解决这个问题。我需要从两个数据帧构建一个完整的数据帧，但如果需要的话，只包括来自第二个数据帧的某些信息。示例： DF1： MATERIAL_N° Description DATE DUE 0 123123300 Lightbulb X 01/05/2018 1 220466 Lightbulb Y 04/04/2018 2 220000 Lightbulb Z

浏览 0提问于2017-09-23得票数 1

2回答

追加在for循环中生成的pandas数据帧

python、pandas

我在for循环中访问一系列Excel文件。然后，我将excel文件中的数据读取到pandas数据帧中。我想不出如何将这些数据帧附加在一起，然后将数据帧(现在包含所有文件中的数据)保存为新的Excel文件。这是我尝试过的： for infile in glob.glob("*.xlsx"): data = pandas.read_excel(infile) appended_data = pandas.DataFrame.append(data) # requires at least two arguments appended_data.to_excel(&

浏览 2提问于2015-02-23得票数 111

回答已采纳

1回答

将数据从S3读取到pandas的最佳方法

python、pandas、amazon-web-services、amazon-s3、amazon-ec2

我有两个CSV文件，一个大约60 GB，另一个在S3中大约是70 GB。我需要将这两个CSV文件加载到pandas数据帧中，并对数据执行连接和合并等操作。我有一个EC2实例，它有足够的内存供两个数据帧一次加载到内存中。从S3到pandas数据帧读取这么大的文件的最佳方式是什么？另外，在我对数据帧执行了所需的操作之后，输出的数据帧应该被重新上传到S3。将巨大的csv文件上传到S3的最佳方式是什么？

浏览 5提问于2020-05-06得票数 0

2回答

合并两个具有不同列名的数据帧，并从结果中排除等效键。

python、pandas、merge

我有两个熊猫数据帧，它们共享相同的密钥，但每个对象的名称不同。 df = pd.DataFrame({"ID":[1,2,3], "Flag":[0,0,1]}) results = pd.DataFrame({"client_id":[1,2,3], "score":[600,700,800]}) df.columns Index(['ID', 'Flag']) results.columns Index(['client_id', 'score']) 我想将它们合

浏览 0提问于2019-08-28得票数 1

回答已采纳

1回答

Pandas:读取具有不同分隔符的CSV文件-合并错误

python、csv、pandas、merge、delimiter

我有4个单独的CSV文件，我希望读入Pandas。我想将这些CSV文件合并到一个数据帧中。问题是CSV文件中的列包含以下内容：、；|和空格。因此，在读取不同的CSV文件时，我必须使用不同的分隔符，并进行一些转换以使其格式正确。每个CSV文件都包含一个“ID”列。当我合并我的数据帧时，它没有正确地完成，并且我在已经合并的列中得到了'NaN‘。您是否必须使用相同的分隔符才能正确合并数据帧？

浏览 10提问于2017-06-28得票数 0

回答已采纳

1回答

Python :合并列表列上的两个Pandas Dataframe

python、pandas、dataframe、merge、jupyter

我需要根据一列名为"authors“的列表找到两个pandas数据帧之间的交集。但我得到的却是这个错误：

浏览 3提问于2017-06-23得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

在Pandas中合并索引上的数据帧效率更高

python、pandas、dataframe、merge

为什么在索引上合并Pandas中的数据帧比在列上合并数据帧更有效(更快)？ import pandas as pd # Dataframes share the ID column df = pd.DataFrame({'ID': [0, 1, 2, 3, 4], 'Job': ['teacher', 'scientist', 'manager', 'teacher', 'nurse']}) df2 = pd.DataFrame({'

浏览 1提问于2018-06-21得票数 18

1回答

在pandas中合并两个数据帧，给出“内核似乎已经死了，它将自动重启”。使用Jupyter notebook

python、pandas、dataframe、merge、jupyter-notebook

我想使用pandas中的合并功能合并两个数据帧。当我想在公共列上这样做时，jupyter notebook给我以下错误：“内核看起来已经死了。它将自动重新启动。”每个数据帧大约为50k行。但是，当我尝试同样的事情，每个数据帧只有50行时，它工作得很好。我想知道有没有人有建议。

浏览 18提问于2020-10-27得票数 0

1回答

如何将XMI文件导入pandas数据帧

pandas、dataframe、xmi

我希望它不是重复的，但我没有找到关于我的具体问题的任何东西。我想知道是否可以使用pd.read_xml()将xmi文件转换为pandas数据帧。read_xml功能从pandas 1.3.4开始可用。我不太了解xmi和xml之间的区别，但似乎xmi是一种特殊的xml类型，这两种类型并不总是相同的。那么，是否可以使用pandas.read_xml()将xmi文件转换为pandas数据帧呢？提前感谢

浏览 13提问于2021-11-22得票数 0

1回答

如何在我的dataframe中创建一个新变量，用dataframe名称填充值？

python、pandas、rename、columnname

我有一堆数据集，每个数据集都有相同的标题，每个数据集都指向不同的国家。我正在尝试在每个pandas数据帧中创建一个新列，其中填充了我的数据帧名称(这是国家的名称！) 我该怎么做呢？编辑：我没有提到我创建了数据集 us = pd.concat([coeff, pvalues], axis = 1).reset_index() us.columns = ['Factor',"Coeff","P-value"]

浏览 15提问于2019-01-10得票数 0

回答已采纳

1回答

python pandas数据帧合并

python、pandas、dataframe

我想在python中使用for循环合并csv文件中的一些数据帧。但是结果是空的。为什么会这样呢？这是我的代码。 result = pandas.DataFrame(columns = ['col_A', 'col_B']) for i in range(0, 5): #col_A is integer for numbering, col_B is float in range 0 to 1 temp = pandas.DataFrame([[0, 0.5132443], [1, 0.12436421], [2, 0.12341162]], co

浏览 1提问于2017-05-27得票数 0

1回答

使用modin.pandas合并两个pandas数据帧可以得到ValueError

pandas、dataframe、merge、modin

为了让我的pandas代码更快，我安装了modin并尝试使用它。之前工作过的两个数据帧的合并给出了以下错误： ValueError: can not merge DataFrame with instance of type <class 'pandas.core.frame.DataFrame'> 以下是两个数据帧的信息： printing event_df.info <class 'pandas.core.frame.DataFrame'> RangeIndex: 1980101 entries, 0 to 1980100 Data

浏览 9提问于2019-11-18得票数 0

2回答

将Pandas DataFrame转换为Spark DataFrame

python、pandas、dataframe、pyspark、spark-dataframe

我之前问了一个关于如何的问题，在阅读了提供的答案和之后，我取得了一些进展。我最终使用了以下代码将scipy.sparse.csc_matrix转换为pandas数据帧： df = pd.DataFrame(csc_mat.todense()).to_sparse(fill_value=0) df.columns = header 然后，我尝试使用建议的语法将pandas数据帧转换为spark数据帧： spark_df = sqlContext.createDataFrame(df) 但是，我得到了以下错误： ValueError: cannot create an RDD from type:

浏览 1提问于2016-11-04得票数 8

2回答

什么是key_0，为什么我会在合并的数据帧中看到它，有什么方法可以防止它吗？

python、python-3.x、pandas

根据我的juptyer笔记本查询，Python 3.6.5和Pandas 0.23.0。我正在合并两个数据帧： df_merged1=pd.merge(df_RL, df_BR, how='left',left_on=df_RL['Business Service Manual'], right_on=df_BR['Names']) 左边的数据帧df_RL.dtypes Server object Server Farm object Business Service Man

浏览 4提问于2018-08-30得票数 2

1回答

范畴序列上的Pandas DataFrames合并

python、join、pandas、merge

我试图了解熊猫是否支持在分类数据(即DataFrames“类别”)的列上合并dtype=。我大部分的数据都是用R做的，但是我想用Python/熊猫做更多的工作。在R中，合并因素(类似于范畴dtype)会导致类型强制，通常是对字符的强制。这允许一个数据帧将一个by变量(join列)指定为一个因子(分类)，而另一个数据帧的by变量是一个字符串。熊猫是否在合并/加入之前对分类数据进行类似的强制字符串？我是否应该期望合并在分类上是健壮的？我在哪里可以找到关于熊猫(自动)类型强制的文档？简单的例子： +++对非绝对/非标量向量进行相等测试是错误的： In [52]: import pandas as

浏览 3提问于2014-11-27得票数 1

回答已采纳

2回答

如何用Pandas合并两个数据帧？

python、pandas、dataframe、merge

我正在使用Pandas合并两个从Psychopy获得的数据帧。 y = ["key_resp_0.keys", "key_resp_0.rt"] #some columns I want in my final dataframe df = pd.DataFrame(myData) columns = df.columns.values.tolist() df2 = df.reindex(columns = y, fill_value='') df3 = pd.merge(df2,df) 这是我得到的错误： type object argume

浏览 0提问于2019-12-03得票数 0

2回答

如何在Pandas中展平groupby操作的结果？

python、pandas

使用Pandas数据帧，有没有一种方法可以扁平化groupby操作的结果，而不必使用临时数据帧，然后将其合并到原始数据帧中？假设我需要创建一个依赖于聚合操作的"result“列，就像这个场景： import pandas as pd df = pd.DataFrame({'box': [1,1,1,2,2,3,3,3,3], 'item': ['apple', 'durian', 'pear', 'orange', 'banana', 'apple',

浏览 82提问于2020-05-04得票数 2

回答已采纳

2回答

通过合并多个长度未知的数据帧来创建数据帧

python、pandas、dataframe、concat

我正在尝试对棒球场地的F/x数据进行一些分析。所有的俯仰数据都存储在一个pandas数据帧中，其中包含像“俯仰速度”和“X位置”这样的列。我有一个包装器函数(使用pandas.query)，对于给定的音高，它将找到具有类似速度和位置的其他音高。此函数返回未知大小的pandas数据帧。我想在大量的投球上使用这个函数；例如，查找与在一场比赛中投出的投球相似的所有投球。我有一个函数可以正确地做到这一点，但它相当慢(可能是因为它不断地调整resampled_pitches的大小)： def get_pitches_from_templates(template_pitches, all_pitches

浏览 1提问于2015-03-07得票数 0

1回答

Pandas多索引数据帧合并问题

python、pandas、dataframe、merge、multi-index

我想合并两个数据帧，df1和df2，它们有多个索引列： mi1 = pd.MultiIndex.from_tuples([('id', '0'), ('car', '2018')], names=['variable', 'year']) mi2 = pd.MultiIndex.from_tuples([('id', '0'), ('car', '2019')], names=['variable', 'yea

浏览 61提问于2020-12-15得票数 0

回答已采纳

1回答

连接多个数据帧，同时保留主数据帧的行数

python、pandas、dataframe、join、merge

我有一个pandas数据帧，我用它来创建另外两个数据帧。在创建两个数据帧之后，我希望将这两个数据帧与原始数据帧合并，保留原始数据帧的计数。有没有更简单的方法呢？原始数据帧示例： ? 第一个数据帧示例： ? 第二个数据帧示例： ? 最终输出应如下所示： ? 当我尝试这样做时，我得到的行数要么是原来的两倍，要么是行数的一半。

浏览 13提问于2021-06-24得票数 0

1回答

如何使用Python比较太大而无法放入内存的数据帧？

python、pandas、dataframe、python-xarray

我有可能很大的数据帧，大约有10列和1e6行，具有不同的维度。假设行在两个数据帧中都是唯一的。由于这些数据帧不能加载到内存中，我如何找到一个数据帧中存在于另一个数据帧中的所有行？我目前只处理较小的数据帧，但我很快就会弄清楚这一点。我非常喜欢使用pandas，但我愿意使用不同的包(xarray?)如果有显著的好处。如果您推荐一个不同的包，请提供一些代码来进行比较。下面是我如何与内存中适合的pandas数据帧进行比较： import pandas as pd def row_intersection(df1, df2): noNA = df2.fillna(0) retur

浏览 23提问于2021-09-02得票数 0

回答已采纳

1回答

Pandas:合并数据帧

python、pandas

我有两个数据帧，我想将它们合并到一个公共列上。第一个数据帧是一个名为dfLenders的单列数据帧。列名为lender_ids。第二个数据帧称为dfLoanLender，有两列。一个是" id“(贷款的id)，另一个是"lender_ids”，它包含贷款的贷款人列表。请注意，"lender_ids“是两个表中的列名。在lender表中，它是它们的id，每行出现一次。在loanLender表中，它表示进行贷款的所有贷款人的列表。这些in与第一个表中的贷方in相同。我使用pandas中的以下方法： dfMerged = pd.merge(dfLenders, dfL

浏览 2提问于2016-04-28得票数 1

2回答

读取多个文件，并将它们堆叠到单个多级数据帧中。每个文件都有相同的列名

python、database、pandas

我想问一下，是否有人知道如何使用多级索引将多个数据帧堆叠成一个单独的数据帧，而不是像我正在做的那样堆叠成一个数据帧列表。谢谢 import glob import pandas as pd glist=glob.glob("./path/*.csv") D=[] for file in glist: X=pd.read_csv(file,names=['name1','name2','name3'],index_col = 0, header=0) D.append(X)

浏览 3提问于2017-08-11得票数 0

1回答

熊猫在两列上合并使用日期和另一列

python、pandas、pandasql

你好，试图合并两个数据帧和和访问计数按日期和upc。事务数据(日期、upc、sales) 200 k行x3列访问计数(日期、upc、访问计数)2 million+行x3列我试过了 df3 = pandas.merge(df1,df2, on = ['upc','date'], how = 'left') 结果: merge执行，但不按日期或upc进行汇总。我也试过 df3 = pandas.merge(df1,df2, left_on = ['date'], right_on ['upc'

浏览 3提问于2017-12-30得票数 3

1回答

训练和测试数据集作为4个不同的数据集给出

dataframe、train-test-split

我是python的新手，非常希望能得到一些帮助。这是关于逻辑回归(机器学习)的，在训练算法之前我没有任何问题。数据集如下： cost_train数据帧包含目标变量、0和1二进制分类。 cost_train =.. (13900 observations) cost_test =... (5400 observations) invoices_train =.. (6000000 observations) invoices_test =... (105000 observations) 因此，简而言之，不需要应用train_test_split。我的第一个想法是将其他3个数据帧与cost

浏览 0提问于2019-10-15得票数 0

2回答

如何在满足条件的情况下更改dataframe中的单值？

python、pandas、dataframe

据我所知，我目前更改pandas数据框中的值的方法还远远不是最优的，并且确实损害了我的工作流程。示例:我想检查是否在另一个数据帧中找到了一个名称，如果是，使用第一个数据帧中搜索到的名称的iloc放入该数据帧中的值： for idx in id_list_of_names: name = df["name"].iloc[idx] if name in df_two["name"].values: df["value"].iloc[idx] = df_two["value"][d

浏览 13提问于2019-05-09得票数 1

2回答

即使密钥存在，KeyError也是如此

pandas、merge、keyerror

我正在尝试使用pd.merge合并两个数据帧。如果两个dataframe中都存在公司名称，我想从dataframe 2添加'Phone‘列。每次运行代码时，我都会得到KeyError='Company‘，即使这是我要合并的列名。我尝试过的东西： pd.merge(northstar,julie['Phone'], on='Company') northstar.merge(julie['Phone'], on 'Company') pd.merge('Company','Title'

浏览 0提问于2019-07-30得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

python、pandas、pyspark、databricks

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

4回答

检查数据帧值中是否出现字符/子串的最简单方法是什么？

pandas

考虑一个具有'a - b‘值的pandas数据帧。我想检查数据帧中所有值的任何位置是否出现'-‘，而不是循环遍历各个列。显然，像下面这样的检查是不会起作用的： df.values中的if '-‘ 关于如何检查这个问题有什么建议吗？谢谢。

浏览 56提问于2017-07-06得票数 1

回答已采纳

1回答

如何使用新版本的pandas读取从旧版本的pandas生成的泡菜文件？

python、pandas、pickle

我有一个用旧版本的pandas (0.19.2)保存的腌制数据帧。尝试用新版本的Pandas (0.20.3)读取它(pd.read_pickle())会抛出一个错误： ModuleNotFoundError:没有名为“pandas.indexes”的模块有没有什么办法，我可以用新的pandas版本检索这个经过腌制的数据帧，而不必返回并在旧版本中以不同的方式保存它？如果不是，那么存储数据帧的最安全和最简单的方法是什么，以便将来可以轻松地读取它们？我读过关于HDFStore的文章，它看起来相当笨拙……

浏览 0提问于2017-10-05得票数 4

1回答

如何合并两个数据帧，其中一列是另一个数据帧中所有列的名称？

python、excel、pandas、merge

所以问题很简单，我有两个数据帧，其中一个看起来像这样(第一个df) <code>A0</code> 然后我有另一个数据帧，看起来像这样(第二个df) <code>A1</code> 我的想法是我希望最终的结果是 <code>A2</code> 有没有什么简单的方法可以做到这一点，因为我有的数据帧看起来第二个df更大，第一个df更长，我不想做一个超大型的合并，因为我唯一的想法是合并，它包括第二个df中的每个名称，这将是永恒的。如果有人能帮我，那就太好了。我的想法是用python用pandas来做，但我也可以用excel来做，

浏览 6提问于2020-11-18得票数 0

1回答

从现有的常规索引数据帧创建多级索引数据帧

python、pandas、dataframe

我已经从Excel电子表格导入了一组数据，现在有了一个常规的DataFrame。下面是我的原始数据帧的样子： Meter Number Site Name Size 123 Site A 1 456 Site B 10 现在，我必须为每个米添加每月的能量输出值。这意味着我需要为我的数据帧中的每个现有行添加12行。为了简单起见，每个现有行的12行可以是相同的，但可以根据数组的大小进行缩放。所以，我需要我的新DataFrame看起来像下表。稍后，我将不得不将其与来自网站的测量数据进行比较。有没有人有关于如何使用Pan

浏览 14提问于2018-07-20得票数 1

2回答

基于另一列计算值的出现次数

python、pandas

我有一个关于根据other列的总和创建pandas数据帧的问题。例如，我有这样的数据帧 Country | Accident England Car England Car England Car USA Car USA Bike USA Plane Germany Car Thailand Plane 我想制作另一个基于国家/地区的所有事故总和的数据帧。我们将忽略事故的类型，而根据

浏览 0提问于2016-09-21得票数 3

回答已采纳

2回答

pandas等同于R的cbind (垂直连接/堆叠向量)

python-3.x、pandas、concat、cbind

假设我有两个数据帧： import pandas .... .... test1 = pandas.DataFrame([1,2,3,4,5]) .... .... test2 = pandas.DataFrame([4,2,1,3,7]) .... 我尝试过test1.append(test2)，但它相当于R的rbind。如何将这两列合并为数据帧的两列，类似于R中的cbind函数？

浏览 4提问于2015-02-19得票数 45

回答已采纳

2回答

如何根据字典键从嵌套的字典中创建多个新的数据框列

python、pandas、dataframe、dictionary

以this问题为基础，从以下数据帧开始： import pandas as pd data = {'key':[111, 112, 113, 114],'other_data':[1, 2, 5, 7]} df = pd.DataFrame(data) df key other_data 0 111 1 1 112 2 2 113 5 3 114 7 我希望根据字典键映射多个新列，并在数据帧中映射一个指定的列。 d = { "111": {

浏览 20提问于2021-07-13得票数 0

回答已采纳

1回答

Pandas外部合并列序列不固定

python-3.x、pandas

我正在尝试使用pandas合并两个数据帧。我正在进行数据帧的外部合并。我的数据框有以下列： DF1: (ID, X) DF2: (ID, Y, Z) 当我合并这些数据框时，输出数据框中列的顺序发生了变化。对于某些迭代，我得到了 DF_OUTPUT: (ID, X, Y, Z) 有时是这样的： DF_OUTPUT: (X, ID, Y, Z) 如何在输出数据框中保留列的顺序？

浏览 2提问于2018-11-27得票数 0

1回答

Pandas:数据帧联盟

python、pandas

考虑如下两个数据帧： import pandas as pd df = pd.DataFrame({'id_emp' : [1,2,3,4,5], 'name_emp': ['Cristiano', 'Gaúcho', 'Fenômeno','Angelin', 'Souza']}) df2 = pd.DataFrame({'id_emp': [1,2,3,6,7], 'name_e

浏览 2提问于2019-06-16得票数 0

1回答

是否可以在Pandas中构建自己的多变量数据集？

python、pandas、time-series、forecasting、multi-step

我正在努力学习更多关于多变量时间序列预测的知识。我想根据天气数据来预测难民抵达欧洲的情况。到达数据来自不同的来源，天气数据也是如此。有没有办法将这两者结合起来，以便有一个用于多变量时间序列预测的数据集?1个时间序列:每月到达数据2个时间序列:天气数据有没有可能用天气数据和到达数据制作一个数据帧，用于多变量时间序列预测？对于这项任务，我使用panda作为我的主要库，并使用其他一些库进行时间序列分析。通过pandas和numpy实现了该算法。

浏览 6提问于2021-07-05得票数 0

1回答

如何以尽可能小的格式存储熊猫数据帧？

python、pandas、save、disk

有很多关于存储pandas数据帧的最有效方法的文档(例如How to store a dataframe using Pandas)，但大多数资源都集中在i/o时间效率上。我希望将大熊猫数据帧保存为更轻量级的格式，而不会丢失任何信息。大熊猫数据帧通常使用csv格式的几Gb磁盘存储。 LightGBM Dataset看起来很有希望，但是我没有设法正确地重新加载我的数据。有什么建议吗？

浏览 9提问于2019-05-24得票数 2

2回答

对采样的熊猫DataFrame进行索引

python、pandas

我再次对Python上下文中的pandas数据帧索引感到困惑。我试图通过调用df[colname][0]来获取列的第一个元素。但是，它适用于直接从文件读取的数据帧，但不适用于采样/切片的数据帧，并报告错误` `KeyError 0‘。我能问一下这里发生了什么吗？有关于这个索引问题的博客/教程吗？非常感谢！

浏览 7提问于2018-08-13得票数 1

回答已采纳

3回答

将一行中的字符数计算为新列

python、pandas

我有一个pandas数据帧，它大约有100列，我想计算一行每列中的字符数。在Excel中，我会做类似(Len(Concat(A2:CA2))的事情 df['newcolumn'] = ? in Pandas Python

浏览 9提问于2019-07-10得票数 2

回答已采纳

1回答

表未被识别

python、pandas、tabula、python-camelot

import pandas as pd from tabula import read_pdf FileName="Filepath" DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True) print DF3 import pandas as pd import camelot FileName="Filepath" tables = camelot.read_pdf(FileName,pages='1-en

浏览 10提问于2019-02-28得票数 0

2回答

Cumsum作为现有Pandas数据中的新列

python、pandas、dataframe、cumsum

我有一个pandas数据帧定义为： A B SUM_C 1 1 10 1 2 20 我想计算SUM_C的累积和，并将其作为新列添加到相同的数据帧中。换句话说，我的最终目标是拥有一个如下所示的数据帧： A B SUM_C CUMSUM_C 1 1 10 10 1 2 20 30 显示了生成新数据帧的可能性，其中列名SUM_C将替换为累积和。但是，我的要求是将累积总和作为新列添加到现有数据帧中。谢谢

浏览 11提问于2017-01-26得票数 31

回答已采纳

2回答

从多个子文件夹加载未知数量的文件

python、pandas、loading

我在多个子文件夹中获取了不同数量的检测器数据，基本上我需要将它们组合到一个pandas数据帧中。我想知道有没有什么聪明的方法来做这个？使用查找。-name *.cvs | wc -l 给出:例如，1464个文件然后，我必须将其加载到数据帧中。目录结构可能类似于： sub-sub-sub-data / main folder-sub-sub-sub-data \ sub-sub-sub-data tldr:如何将未知数量的数据从多个不同的子文件夹加载到单个pandas数据帧中

浏览 0提问于2020-06-26得票数 0

1回答

如何根据两列中的值查找和引入另一个数据帧中的值

python、pandas、dataframe、mapping、vlookup

我有两个数据帧。我需要从右侧(第二个)数据库中提取一个值，并基于两个数据帧中存在的另外两个列，将其作为列添加到左侧(第一个)数据帧中。这样做时，我需要在左边的dataframe中为这个列指定一个不同于在右边的dataframe中调用的名称。我排除了merge和join，因为dataframes有成百上千的列，我只需要带出一列，并且在这样做的时候还需要更改列名。相反，我正在尝试map它。例如： import pandas as pd emp_data = { 'Name':['Tom', 'Tom', 'Ste

浏览 6提问于2019-05-01得票数 1

1回答

熊猫数据合并问题

python-2.7、pandas

我正在通过韦斯·麦金尼的python学习蟒蛇和熊猫的数据分析。第2章中的一个例子是MovieLens数据在movie_id上的合并不起作用。我认为问题在于，在评级方面，movie_id是一个int64，而在电影中，它是一个对象。合并返回一个空数据帧。我以前读过一些关于熊猫和自动数据类型分配的文章，并在pandas.io.parsers.read_table文档中找到了dtype，但是无法改变类型。原始代码： mnames = ['movie_id', 'title', 'genres'] movies = pd.read_table('

浏览 1提问于2013-04-04得票数 2

1回答

使用合并的Excel列中的元组列名选择pandas列失败

python、excel、pandas、multi-index

我有一个数据帧，其中的列名是元组。这样做的原因是，数据帧是基于复杂的Excel电子表格，其中列标题由不同大小的合并单元格组成，因此在MultiIndex中，几乎每一列都有一个或多个级别的nan条目，这使得选择和写入数据变得困难。我在过去多次使用相同的解决方案，没有出现问题，例如，MultiIndex头('SCN', nan, nan, nan, nan)将被转换为元组('SCN',)，然后我们将MultiIndex更改为正常的元组索引。然而，由于奇怪的KeyErrors和TypeErrors，这一次我似乎不能对数据帧做太多事情： test.columns Out

浏览 3提问于2021-02-24得票数 1