如何连接两个数据帧并保留pandas中的所有键列？_如何倍增pandas数据帧并保留行键_如何选择保留引用列pandas数据帧的列 - 腾讯云开发者社区

python、pandas

我有两个pandas数据帧，每个都有不规则的时间序列数据。我想按时间合并/加入这两个帧。我还想为通过连接过程添加的任何“新”行向前填充frame2的其他列。我该怎么做呢？我试过了： df = pd.merge(df1, df2, on="DateTime") 但这只会留下一个具有匹配时间戳行的帧。如果您有任何想法，我将不胜感激！

浏览 1提问于2014-11-14得票数 7

回答已采纳

1回答

Pandas:如何将DataFrame groupby的结果放入具有新列名的数据帧中？

python、pandas

我有一个有两个列'id‘和'time’的数据框架。需要计算ids的平均时间，并使用新的列名将结果放入新的数据框架中。输入数据框架： id time 0 1 1 1 1 1 2 1 1 3 1 1 4 1 2 5 1 2 6 2 1 7 2 1 8 2 2 9 2 2 10 2 2 11 2 2 我的代码： import pandas as pd my_dict = { 'id

浏览 3提问于2016-12-18得票数 1

回答已采纳

2回答

从Dataframe - Pandas中所有列的列名中删除最后两个字符

python、string、pandas、dataframe

我使用用户ID键连接具有相同列/列名的两个数据帧(a，b)，并且在连接时，我必须提供后缀字符，以便创建它。下面是我使用的命令： a.join(b,how='inner', on='userId',lsuffix="_1") 如果我不使用这个后缀，我会得到错误。但我不希望列名发生变化，因为这会在运行其他分析时导致问题。因此，我想从结果数据帧的所有列名中删除这个"_1“字符。有没有人能给我一个有效的方法来删除Pandas数据帧中所有列名称的最后两个字符？谢谢

浏览 3提问于2016-05-06得票数 5

回答已采纳

2回答

合并两个具有不同列名的数据帧，并从结果中排除等效键。

python、pandas、merge

我有两个熊猫数据帧，它们共享相同的密钥，但每个对象的名称不同。 df = pd.DataFrame({"ID":[1,2,3], "Flag":[0,0,1]}) results = pd.DataFrame({"client_id":[1,2,3], "score":[600,700,800]}) df.columns Index(['ID', 'Flag']) results.columns Index(['client_id', 'score']) 我想将它们合

浏览 0提问于2019-08-28得票数 1

回答已采纳

1回答

Pandas如何在不丢失列标题的情况下连接两个数据帧

python、pandas

我有以下玩具代码： import pandas as pd df = pd.DataFrame() df["foo"] = [1,2,3,4] df2 = pd.DataFrame() df2["bar"]=[4,5,6,7] df = pd.concat([df,df2], ignore_index=True,axis=1) print(list(df)) 输出：[0,1] 预期输出：[foo,bar] (顺序并不重要) 如果我能保证两个数据帧的标题是唯一的，有没有办法在不丢失原始列标题的情况下连接两个数据帧呢？我想到了遍历这些列，然后

浏览 1提问于2017-04-14得票数 16

回答已采纳

1回答

使用Pandas读取和合并多个Excel文件中的数据

python、pandas

我想从一个目录中读取几个excel文件到pandas中，并将它们连接成一个大的数据帧。不过，我还没能弄明白。所有文件都有5列，它们是： C N S R Q 除了一个包含7列的文件，这些列是 D I C N QI P L 如何才能获得一个包含这些列的大型数据帧 C N S R Q 代码： import pandas as pd import glob path = #path all_files = glob.glob(path + "/*.csv") li = [] for filename in all

浏览 18提问于2021-08-04得票数 0

2回答

在pandas中连接两个数据帧的行

python、pandas、dataframe

我需要一个接一个地连接两个具有相等行数(nRow)的数据帧df_a和df_b，而不考虑任何键。此函数类似于R programming language中的cbind。每个数据帧中的列数可能不同。所得到的数据帧将具有相同的行数nRow和等于两个数据帧中的列数之和的列数。换句话说，这是两个数据帧的盲列连接。 import pandas as pd dict_data = {'Treatment': ['C', 'C', 'C'], 'Biorep': ['A', 'A', 'A

浏览 0提问于2015-01-25得票数 79

回答已采纳

2回答

在Pandas中以不同的时间间隔合并和填充两个数据帧

python、pandas、merge

我有两个数据帧我想在Pandas中合并。它们都有一个我正在合并的日期时间列，但是，一个每分钟和5分钟有行(取决于年份)，而另一个dataframe每15分钟有行。如果我执行一个外连接，我可以合并它们，但是每15分钟才会有来自两个数据帧的数据。我想复制15分钟的数据，并用这些数据填充每1或5分钟的行。因此，12:00AM的数据将填充12:14之前的所有行(包括12:14然后，12:15 to会被复制，并填写到12:29 to等。这有意义吗？我如何才能做到这一点？看起来很相似，但我不确定如何为我的确切场景实现，特别是考虑到我的一个数据帧在不同的年份从5分钟到1分钟的间隔。

浏览 0提问于2014-12-19得票数 4

1回答

如何使用正则表达式删除python pandas DataFrame中的行？

python、regex、pandas

我有一个模式： patternDel = "( \\((MoM|QoQ)\\))"; 我想删除pandas dataframe中列df['Event Name']与此模式匹配的所有行。哪种方法是最好的？数据帧中有超过100k行。

浏览 8提问于2016-10-10得票数 26

回答已采纳

3回答

在数据帧连接时保留分类数据类型

python、pandas、dataframe

我有两个数据帧，它们具有相同的列名和数据类型，如下所示： A object B category C category 每个数据帧中的类别并不相同。当正常连接时，pandas输出： A object B object C object 这是根据的预期行为。但是，我希望保持分类，并希望联合类别，因此我尝试了跨数据帧中的列的union_categoricals，这两列都是分类的。cdf和df是我的两个数据帧。 for column in df:

浏览 48提问于2017-08-12得票数 17

回答已采纳

1回答

DataFrame联接中的列不明确-无法别名或调用

pyspark、apache-spark-sql、databricks

从SQL后台进入databricks并使用一些用于连接基本转换的数据帧样本，我在连接之后为其他转换隔离正确的dataframe.column时遇到了问题。对于DF1，我有3列: user_id，user_ts，email。对于DF2，我有两列:电子邮件、已转换。下面是我如何获得连接的逻辑。这将有效并返回5列；但是，方案中有两个电子邮件列 df3 = (df1 .join(df2, df1.email == df2.email, "outer") ) 我尝试对作为数据帧字符串一部分的df2电子邮件执行一些基本转换，但收到错误：无法解析(user_i

浏览 26提问于2021-08-30得票数 1

回答已采纳

2回答

如何从Pandas dataframe中删除行，如果相同的行存在于另一个dataframe中，但以来自两个df的所有列结束

python、pandas

我有两个不同的Pandas数据帧，它们有一个共同的列。我在Stack overflow上看到过类似的问题，但似乎没有一个问题以两个数据帧中的列结尾，所以请在标记为重复之前阅读下面的内容。示例：数据帧1 ID col1 col2 ... 1 9 5 2 8 4 3 7 3 4 6 2 数据帧2 ID col3 col4 ... 3 11 15 4 12 16 7 13 17 我想要实现的是一个数据帧，其中包含来自两个数据帧的列，但没有在dataframe2中找到的ID。即：期望的结果：

浏览 17提问于2019-01-16得票数 5

回答已采纳

2回答

为什么在连接两个数据帧时，连接会将时间添加到日期

python、pandas

我使用pandas从sql查询和json中获取数据。我检查了两个数据帧，都只有日期，没有时间。当我连接它们时，它会将00:00:00添加到新数据帧中的一个数据帧的日期上。它为什么要这样做。有没有办法。我正在尝试连接2个dataframes和drop_duplicates，但是除非我在drop_duplicates中指定其他列，否则这会阻止它在date之前正常工作。

浏览 1提问于2020-07-31得票数 0

3回答

在R结果数据帧中合并数据帧太大

r、dataframe、merge、inner-join

我正在尝试合并R中的两个数据帧，通过它们共享的一列来连接它们。下面是两个数据帧的屏幕截图，我在"INC_KEY“列上合并。这是我用来合并两个数据帧的代码: dp <- inner_join(d，p，by="INC_KEY") D有177156个观测值，p有1641137个观测值，但最终合并的数据帧有8416113个观测值，这对我来说没有意义。我还尝试将上面的inner_join函数更改为merge函数，但仍然得到相同的结果。我想知道如何修复这段代码，以便合并后的数据帧具有真实的观察值--非常感谢您的帮助！

浏览 0提问于2021-01-11得票数 0

1回答

pandas数据帧之间的内部联接不适用于比较DenseVector类型

python、pandas、dataframe、inner-join

我正在处理熊猫数据帧，我想得到2个数据帧，df1和df2之间的重合度。 df1： +------------+-------+ | features | col2 | +------------+-------+ | [1.0, 2.0] | 2 | +------------+-------+ | [1.0, 3.0] | 1 | +------------+-------+ df2： +------------+-------+ | features | col2 | +------------+-------+ | [1.0, 2.0] | 2 | +

浏览 0提问于2018-04-16得票数 0

1回答

Dataframe.update()中的‘'join’参数

python-3.x、dataframe

我正在尝试用另一个更新数据帧。我注意到'update‘只更新匹配列处的值，而不会从另一个框架添加新列。如何执行这两个功能:更新值和添加新列？ import pandas as pd df = pd.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}) new_df = pd.DataFrame({'B': [4, 5, 6],'C': [7, 8, 9]}) df.update(new_df, join='left') 更新的df没有'C‘列。为什么会这

浏览 0提问于2018-10-20得票数 1

1回答

具有特定索引列的pandas combine_first？

python、pandas

我正在尝试连接pandas中的两个数据帧，以实现以下行为:我想在指定的列上连接，但要让它不会将多余的列添加到数据帧中。这类似于combine_first，不同之处在于combine_first似乎不接受索引列可选参数。示例： # combine df1 and df2 based on "id" column df1 = pandas.merge(df2, how="outer", on=["id"]) 上面的问题是，除了"id“之外，df1/df2共有的列将被添加两次(带有_x,_y前缀)到df1。我如何做一些事情，比如： # Do o

浏览 0提问于2013-03-28得票数 2

回答已采纳

4回答

pandas:合并(连接)多列上的两个数据框

python、python-3.x、pandas、join

我正在尝试使用两个列连接两个pandas数据帧： new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]') 但得到以下错误： pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)() pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4028)()

浏览 2提问于2017-01-24得票数 265

回答已采纳

1回答

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

python、parquet、pyarrow、apache-arrow

我有一堆parquet文件，每个文件都包含我的数据集的一个子集。假设文件名为data-N.parquet，其中N是一个整数。我可以全部读取它们，然后将其转换为pandas数据帧： files = glob.glob("data-**.parquet") ds = pq.ParquetDataset( files, metadata_nthreads=64, ).read_table(use_threads=True) df = ds.to_pandas() 这个很好用。它希望在最终数据帧中有一个额外的列，指示数据来自哪个文件。据我所知，ds数据是分区的，每

浏览 48提问于2021-09-29得票数 1

回答已采纳

2回答

Python:将列表写入Pandas中的列

python、list、csv、pandas

我有两个列表，这两个列表都包含要写入csv文件的值。所以我做的第一件事就是将我的csv文件导入到pandas数据帧中。然后，我想写两个新列，并将这两个列表添加到新列中。我的代码如下。请注意，原始csv文件已经存在一些列。 import pandas as pd df = pd.read_csv('1.csv') ## 1.csv is the csv file I want to import. a = [0.001, 5, 38, 70, 101, 140, 190] b= [35, 65, 100, 160, 170, 200] df['Start

浏览 59提问于2017-06-27得票数 3

回答已采纳

2回答

从单个pyspark dataframe返回多列

python、pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试解析单个列的columns.My数据帧，并获取具有多个pyspark数据帧的数据帧，如下所示： a b dic 0 1 2 {'d': 1, 'e': 2} 1 3 4 {'d': 7, 'e': 0} 2 5 6 {'d': 5, 'e': 4} 我想要解析dic列并获得数据帧，如下所示。如果可能的话，我期待着使用pandas UDF。我的预期输出如下： a b c d 0 1 2 1 2 1 3 4 7

浏览 40提问于2020-03-01得票数 0

回答已采纳

2回答

在pandas中合并两个数据帧时如何“模糊”匹配字符串

python、pandas

我有两个数据帧df1和df2。 df1 = pd.DataFrame ({'Name': ['Adam Smith', 'Anne Kim', 'John Weber', 'Ian Ford'], 'Age': [43, 21, 55, 24]}) df2 = pd.DataFrame ({'Name': ['adam Smith', 'Annie Kim', 'John Weber', &#

浏览 63提问于2018-03-06得票数 5

回答已采纳

2回答

仅使用公共列的多个数据帧的pandas.concat

python、pandas、dataframe

我有多个pandas数据帧对象cost1，cost2，cost3 . 它们有不同的列名(列数)，但有一些共同之处。每个数据帧中的列数相当多，因此手动选择公共列将是痛苦的。如何将所有这些数据帧中的行附加到一个数据帧中，同时只保留公共列名中的元素？到现在为止 frames=[cost1,cost2,cost3] new_combined = pd.concat(frames, ignore_index=True) 这显然包含并非在所有数据帧中常见的列。

浏览 5提问于2016-10-04得票数 17

回答已采纳

2回答

检查两个数据文件的相等性

python-3.x、pandas、dataframe

检查两个数据格式是否相等的Pythonic方法是什么？我现在所做的是：用pandas.DataFrame.sort_values()对具有唯一值的列对数据帧进行排序使用pandas.DataFrame.reset_index()重新设置数据帧排序后的索引使用pandas.DataFrame.sort_index()按行和列对数据帧索引进行排序然后使用pandas.DataFrame.all()对两个数据帧进行比较。示例代码： (df1.sort_values(['Symbol']).reset_index(drop=True).sort_in

浏览 2提问于2017-02-13得票数 2

2回答

使用特定列连接两个pandas数据帧

python、join、pandas、dataframe

我是pandas的新手，我正在尝试基于一个特定列的相等性来连接两个数据帧。例如，假设我有以下内容： df1 A B C 1 2 3 2 2 2 df2 A B C 5 6 7 2 8 9 两个数据帧具有相同的列，并且只有一列(例如A)的值可能相等。我想要的输出是： df3 A B C B C 2 8 9 2 2 列'A‘的值在两个数据帧中都是唯一的。谢谢

浏览 0提问于2015-06-02得票数 20

回答已采纳

1回答

熊猫似乎将同一数据帧合并了两次

pandas、join、merge

我在pandas中有两个数据帧，一个是“datapanel”，有多年的国家数据，另一个是“data”，只有一年的国家数据，但也包括每个国家的“区域指标”列。我只想在datapanel框架中创建一个新列，给出每个国家的“区域指标”。由于某些原因，数据帧的行数在合并后几乎是原来的两倍，而它们应该保持不变。我做错了什么？ ?

浏览 16提问于2021-03-27得票数 1

回答已采纳

3回答

Pandas:在一个数据帧中使用来自另一个数据帧的匹配键创建新列

python、pandas

我有两个pandas数据帧，第一个数据帧有两列，假设它们是键和值，第二个数据帧只包含键，我想在第二个数据帧中添加一个新列。此列的值应该是第一个数据帧中匹配的键的值 df = pd.DataFrame({'vi' : ['a','b','c','d','e'],'s':[2,5,7,0,1]}) tf = pd.DataFrame({'vi' : ['b','d','c','a','e'

浏览 0提问于2015-12-22得票数 0

1回答

将数据从S3读取到pandas的最佳方法

python、pandas、amazon-web-services、amazon-s3、amazon-ec2

我有两个CSV文件，一个大约60 GB，另一个在S3中大约是70 GB。我需要将这两个CSV文件加载到pandas数据帧中，并对数据执行连接和合并等操作。我有一个EC2实例，它有足够的内存供两个数据帧一次加载到内存中。从S3到pandas数据帧读取这么大的文件的最佳方式是什么？另外，在我对数据帧执行了所需的操作之后，输出的数据帧应该被重新上传到S3。将巨大的csv文件上传到S3的最佳方式是什么？

浏览 5提问于2020-05-06得票数 0

2回答

pandas等同于R的cbind (垂直连接/堆叠向量)

python-3.x、pandas、concat、cbind

假设我有两个数据帧： import pandas .... .... test1 = pandas.DataFrame([1,2,3,4,5]) .... .... test2 = pandas.DataFrame([4,2,1,3,7]) .... 我尝试过test1.append(test2)，但它相当于R的rbind。如何将这两列合并为数据帧的两列，类似于R中的cbind函数？

浏览 4提问于2015-02-19得票数 45

回答已采纳

1回答

从具有相同索引和列的两个pandas数据帧执行计算的最快方法

python、python-3.x、pandas

我有两个pandas数据帧，每个都有相同的索引和列。我想创建第三个pandas数据帧，其中包含其他两个细胞的乘积。这是我目前的解决方案，但它太慢了。 import pandas as pd new_df = pd.DataFrame(columns=df1.columns, index=df1.index, data=[]) for col, values in new_df.iteritems(): for idx, value in values.iteritems(): foo = df1.loc[idx][col] bar = df2.l

浏览 10提问于2019-05-11得票数 1

回答已采纳

2回答

Pandas:连接数据帧并保留重复索引

python、pandas、concat

我有两个数据帧，我想将它们按列(axis=1)与一个内部联接连接起来。其中一个数据帧有一些重复的索引，但行不是重复的，我不想丢失其中的数据： df1 = pd.DataFrame([{'a':1,'b':2},{'a':1,'b':3},{'a':2,'b':4}], columns = ['a','b']).set_index('a') df2 = pd.DataFrame([{'a':1,&#

浏览 0提问于2014-07-11得票数 13

回答已采纳

2回答

字典列表和字典中的字典

python、pandas

我想从字典列表中创建一个干净的pandas数据帧，其中字典中的键的值也可以是字典列表。以下是我的初始列表： [ {'product_id':1, 'categories': [{'toy_id':'x1', 'sales':50}, {'toy_id':'x2', 'sales':50}], 'buyers': [{'buyer_id':'y1' , 'buyer_age':22}, {

浏览 25提问于2020-05-06得票数 1

回答已采纳

1回答

在两个pandas数据帧中查找匹配值，并从匹配行中返回一个值

python、pandas、indexing、concatenation

很难用一种清晰准确的方式来表达这个问题，所以希望下面的内容能帮助我更好地理解我的问题。我有两个pandas数据帧，在这个例子中简化了，它们是： df1 = 'CENSUS_ID' 60014001001 60014002001 df2 = 'GEO_ID' 'MED_INCOME' 60014001001 177417 60014002001 166313 60014002002 132400 60014003001 161964 我想在df1中添加一个名为'MED_INCOME‘的列，方法是在df2中

浏览 17提问于2019-01-22得票数 1

回答已采纳

3回答

Pandas Dataframe追加额外列

python、pandas、dataframe

我有一个包含以下列的pandas.DataFrame：['agent', 'agentid', 'agentname', 'agentaddress']。当我将这个数据帧与另一个具有相同基数的数据帧连接起来时，它会在末尾附加一个同名的额外列。 >>> print(df1) agent agentid agentname agentaddress 0 1 1001 test delhi >>> print(df2) agent agen

浏览 5提问于2020-03-19得票数 0

回答已采纳

2回答

在Pandas中按特定列名对数据帧进行排序

python、pandas

浏览 17提问于2020-08-31得票数 2

2回答

Pandas dict to dataframe -列无序？

python、pandas

我进行了搜索，但没有看到与这个特定问题有关的任何结果。我有一个Python字典，正在将我的字典转换为pandas数据帧： pandas.DataFrame(data_dict) 它可以工作，但有一个问题-我的pandas dataframe的列与我的Python字典的列的顺序不同。我不确定熊猫是如何重新排序的。如何保留排序？

浏览 2提问于2015-04-15得票数 1

3回答

如何将两个Pandas Dataframe列堆叠在一起？

python、pandas、dataframe、data-analysis

是否有一个库函数或正确的方法来堆叠两个Pandas数据帧列在彼此的顶部？例如，将4列变为2列： a1 b1 a2 b2 1 2 3 4 5 6 7 8 至 c d 1 2 5 6 3 4 7 8 我读过的大多数关于Pandas数据帧的文档只涉及连接行和执行行操作，但我确信必须有一种方法来完成我所描述的操作，而且我确信它非常简单。任何帮助都是最好的。

浏览 5提问于2014-12-17得票数 2

回答已采纳

2回答

Python连接满足条件的列上的两个数据帧

python、join、pandas

假设我有两个数据帧A和B，每个数据帧包含两个名为x和y的列。我希望连接这两个数据帧，但不是连接在两个数据帧中x和y列相等的行上，而是连接在A的x列是B的x列的子字符串且y列相同的行上。 if A[x][1]='mpla' and B[x][1]='mplampla' 我希望它能被捕获。在sql上，它可能类似于： select * from A join B on A.x<=B.x and A.y<=B.y. 这样的事情能在python上完成吗？

浏览 2提问于2015-01-21得票数 0

2回答

Pandas如何查找列值与两个数据帧不同的行

python、pandas、dataframe、join、concatenation

我正在尝试获取列中值与两个数据帧不同的行。例如，假设下面有这两个数据： import pandas as pd data1 = {'date' : [20210701, 20210704, 20210703, 20210705, 20210705], 'name': ['Dave', 'Dave', 'Sue', 'Sue', 'Ann'], 'a' : [1,0,1,1,0]} data2 = {'date' : [20

浏览 1提问于2021-08-03得票数 0

4回答

合并数据帧、删除列和设置索引

python、pandas、merge

我有两个这样的数据帧： import pandas as pd left = pd.DataFrame({'id1': ['a', 'b', 'c'], 'val1': [1, 2, 3]}) right = pd.DataFrame({'ID2': ['a', 'c', 'd'], 'val2': [4, 5, 6]}) id1 val1 0 a 1 1 b 2 2 c 3 ID2

浏览 77提问于2017-01-16得票数 3

回答已采纳

1回答

将pandas列交换为另一列中的值

python、pandas、dataframe

我有一个pandas数据帧-从API得到的，所以对它的结构没有太多的控制-类似于这样： ? 我想让datetime作为列，值作为另一列。有什么提示吗？

浏览 15提问于2021-09-20得票数 0

回答已采纳

2回答

从csv中读取特定列而没有Pandas推断标头

python、pandas、csv

我正在尝试读取木星笔记本中带有pandas.read_csv的csv文件中的特定列。我知道我感兴趣的数据从哪一行开始，并使用skiprows关键字转到该行，该行包含列标签。但是，即使我指定了我希望使用usecols的列，但Pandas只是从列中删除值，而不是从列本身删除值。因此，如果我的test.csv如下所示： *first 6 rows to be skipped* 1,2,3,4,5,6 a,b,c,d,e,f A,B,C,D,E,F 片段(导入正确的模块后) df = pandas.read_csv('test.csv', skiprows = 5, usecols

浏览 4提问于2020-01-30得票数 0

1回答

将两个pandas数据帧连接在一起(在python中)

python、pandas、dataframe、concatenation、stock

我也是一个简单的交易工作，需要一些帮助连接到数据帧在一起。直到我的now我的方法都不起作用。我的代码如下：连接到quantle API quandl.ApiConfig.api_key = 'xxxxxxxxxxxxxxx' 报价器符号 ticker = ['FSE/ZO1_X',"FSE/WAC_X"] 使用pandas中的引号创建->对象创建pandas DataFrame df = quandl.get(ticker, start_date='2017-01-01', end_date='2017-11

浏览 0提问于2017-11-06得票数 3

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

pandas合并2个数据帧并在合并数据中添加新列

python、pandas

你能帮我解决这个问题吗?我不能在python pandas中走动，基本上我有两个数据帧，如下: df1 df2 我从上面的两个数据帧创建了一个连接的数据帧，并得到了这个结果: df3=pd.concat(df1，df2，sort=False) 现在我在上面的df3中有两列，即"a“和"az”，我想合并它们，因为它们是相同的，但在第二个dataframe中没有数据的地方有零。那么，有没有一种方法可以让这两个列的合并列表示相同的数字，即在列"a“中有零的地方，它应该将其填充为列"az”中的值，反之亦然。如果你能帮上忙，我将不胜感激。谢谢。

浏览 7提问于2020-06-06得票数 0

3回答

如何使用key连接两个dataframe并复制匹配值进行填写

python、pandas、dataframe、join

如何通过"ID“列连接两个数据框，并用匹配值填充空格。由于它很难解释，下面是我的代码，以显示我想要的结果。 import pandas as pd df = pd.DataFrame({'id': [1, 1, 1, 2, 2, 3, 4, 4, 4], 'col1': [3, 0, -1, 3.4, 4, 5, 6, 7, 8]}) df2 = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'col2': ['A', 'B', &

浏览 2提问于2018-11-13得票数 0

4回答

在pandas dataframe python中使用pii匿名特定列

python、pandas、privacy、anonymize、pii

我已经加载了一个包含json文件的s3存储桶，并将其解析/平整成一个pandas数据帧。现在我有了一个175列的数据帧，其中有4列包含个人身份信息。我正在寻找一个快速解决方案匿名这些列(名称和地址)。我需要保持信息的倍数，以便如果同一个人的姓名或地址出现多次具有相同的哈希。 pandas或其他包中是否有我可以利用的现有功能？

浏览 4提问于2017-12-28得票数 7

1回答

在Python中合并具有数百万行的两个表

python、join、merge、pandas、pytables

我正在使用Python进行一些数据分析。我有两个表，第一个(让我们称它为'A')有1000万行和10列，第二个('B')有7300万行和2列。它们有一个具有公共ids的列，我想基于该列使这两个表相交。特别是，我想要表的内部连接。我无法将表B作为pandas数据帧加载到内存中，以便在pandas上使用正常的合并功能。我尝试在块上读取表B的文件，将每个块与A相交，并将这些交集连接起来(从内部连接输出)。这在速度上是可以的，但有时这会给我带来问题，并导致分段错误……不，太棒了。这个错误很难重现，但它发生在两台不同的机器上(Mac、OS、X、v10.6(雪豹)和UNI

浏览 0提问于2013-01-31得票数 13

回答已采纳

1回答

Dask dataframe concat将列类型从“int”更改为“float”

python、dataframe、dask

我处理大数据时间序列数据集。数据存储在拼花文件中。随着时间的推移，将添加新的列。我使用concat连接不同文件中的数据，这非常好，但是我遇到了一个小问题，当连接dask数据帧时，数据类型不稳定。示例：我有两个数据帧，具有不同的列集，同时具有浮点数和整数数据类型： import pandas as pd import dask.dataframe as dd x = pd.DataFrame( [[1., 2.],[3., 4.]], columns=["a", "b"], index=[1,3]) y = pd.DataFrame( [[5., 6., 7

浏览 2提问于2020-01-13得票数 0

回答已采纳

1回答

如何根据Python列表中的列号过滤数据帧中的行？

python、arrays、pandas、dataframe、machine-learning

我有一个Pandas数据帧，它有两列，x和y，分别对应于一个大信号。它的大小约为300万行。 Wavelength from dataframe 我在试着从信号中分离出峰值。在使用scipy之后，我得到了一个1D Python列表，对应于峰值的索引。但是，它们不是信号的实际x值，而只是其对应行的索引： from scipy.signal import find_peaks peaks, _ = find_peaks(y, height=(None, peakline)) 因此，我决定通过将y列中的所有值设置为NaN来过滤原始数据帧，除非它们位于峰值列表中的索引上。我迭代地做了这件事，但是，因

浏览 22提问于2020-02-01得票数 2