使用2个Pandas DF's插入与列值出现情况相关联的值_使用str.contains创建新列Pandas df给出:值的长度与索引的长度不匹配 - 腾讯云开发者社区

python、pandas、dataframe、indexing

我有一个包含键-值对的pandas Series，其中键是我的pandas DataFrame中列的名称，值是DataFrame中该列的索引。例如：系列：然后在我的DataFrame中：因此，从我的DataFrame中，我希望从'A‘的DataFrame中提取索引12处的值，即435.81。我想将所有这些值放入另一个序列中，所以类似于{ 'A'：435.81，'AAP'：468.97，...} 我的声誉很低，所以我不能将我的图片作为图片发布，而不是链接(有人能帮我解决这个问题吗？谢谢！)

浏览 30提问于2017-08-15得票数 0

2回答

默认情况下将pandas.DataFrame列分配给Series

python、pandas

假设我有一个DataFrame df = pandas.DataFrame({'a': [1,2], 'b': [3,4]}, ['foo', 'bar']) a b foo 1 3 bar 2 4 我想添加一个基于另一个Series的列 s = pandas.Series({'foo': 10, 'baz': 20}) foo 10 baz 20 dtype: int64 如何将该系列分配给DataFrame的一个列，并在DataFrame索引中没有DataFr

浏览 0提问于2018-07-02得票数 2

回答已采纳

1回答

使用Insert方法在熊猫数据中插入多个列

pandas、python-3.6

我想在pandas dataframe中的选定位置插入多个列 import pandas as pd df = pd.DataFrame({'product name': ['laptop', 'printer', 'printer',], 'price': [1200, 150, 1200], 'price1': [1200, 150, 1200]}) df.insert(0, 'AAA', -1) df.insert(1, 'BBB', -2) df 但是，我想

浏览 10提问于2022-05-15得票数 0

2回答

从列中删除NaN值时会发生什么？

python、nan

在Pandas中，从列中删除NaN值后，在删除NaN值的索引处存储的值是什么？我能够成功地从列中删除NaN值，但是df的形状是完好无损的，但是该特定列的大小发生了变化。 1445 70.0 **1446 NaN** 1447 80.0 1448 70.0 1449 21.0 1450 60.0 1451 78.0 1452 35.0 1453 90.0 1454 62.0 1455 62.0 1456 85.0 1457 66.0 1458 68.0 1459 75.0 Name: LotFronta

浏览 16提问于2020-07-11得票数 0

回答已采纳

2回答

CSV中的Pandas插入列向下舍入

python、pandas、dataframe

我想插入一个新列并在此列中写入我的计算，但Pandas不断向下舍入新插入的列的值 fileName = 'File.dat' colnames=['junk', 'X', 'Y', 'P'] pd.options.display.precision = 10 df = pd.read_csv(fileName, sep = ' ', names=colnames, header=None) df.drop(df.columns[0],axis = 1, inplace = True) df.

浏览 15提问于2020-12-20得票数 0

回答已采纳

1回答

每个属性的分割

python、pandas、dataframe

我正试着读一个大的CSV。然后根据列team中的唯一值将大CSV拆分为更小的CSV文件。首先，我为每个team创建了新的数据格式。生成的新txt文件，每个team列中的唯一值都有一个。码 import pandas as pd df = pd.read_csv('combined.csv') df = df[df.team == 'RED'] df.to_csv('RED.csv') 但是，我想从一个数据each开始，读取所有唯一的“team”，并为每个团队创建一个带有头文件的.txt文件。有可能吗？

浏览 0提问于2021-02-02得票数 1

回答已采纳

2回答

如何在其他几列的基础上填充一列？

python、pandas、dataframe

我有两个这样的数据： import pandas as pd import numpy as np df1 = pd.DataFrame( { 'A': list('aaabdcde'), 'B': list('smnipiuy'), 'C': list('zzzqqwll') } ) df2 = pd.DataFrame( { 'mapcol': list('abpppozl'

浏览 7提问于2020-07-28得票数 5

回答已采纳

1回答

使用熊猫从文本文件中提取字符串

python-3.x、pandas

import pandas as pd s = pd.read_csv("DIM.txt") print(s) 它工作得很好，我得到了如下不同行的输出 abc,fgc,vvb.... sdc,trl,bgv... 我喜欢在下面逐行显示 abc:fgc sdc:trl

浏览 3提问于2020-01-15得票数 0

2回答

无法使用序列设置pandas列值，而是将所有内容设置为np.nan

python、pandas、dataframe、indexing、nan

我有以下pandas (pd)数据帧： > df = pd.DataFrame({'x':[1,2,3], 'y':[4,5,6], 'z':[7,8,9]}, index=['one', 'two', 'three']) > df x y z one 1 4 7 two 2 5 8 three 3 6 9 和一系列： s = pd.Series([99,99,99]) 当我尝试将b中的这些值分配给df中的某个列时，我没有得到任何错误，但该列中

浏览 0提问于2020-05-08得票数 0

1回答

不能使用另一列的值作为系列键为DataFrame中的列赋值

python、pandas、dataframe、series

考虑一个使用Dataframe df和Series s的简单示例 import pandas as pd matching_vals = range(20,30) df = pd.DataFrame(columns=['a'], index=range(0,10)) df['a'] = matching_vals s = pd.Series(list("ABCDEFGHIJ"), index=matching_vals) df['b'] = s[df['a']] 在这一点上，我希望df['b'

浏览 7提问于2014-01-28得票数 5

回答已采纳

1回答

熊猫read_excel作为带有空格值和字符串的字符串

python、pandas

我有一个excel表，需要在Tel#列中使用混合数据类型列来读取。我将Tel#列设置为excel中的文本字段。样本数据 df = pandas.DataFrame.from_dict({'SFDC ID': ['001','002', '003'], 'Name': ['company1', 'company2', 'company3'], 'Tel#': [pandas.np.NaN, '123-456-789',12345678.

浏览 1提问于2020-06-22得票数 0

回答已采纳

1回答

计算Pandas Dataframe中多列的日平均值，然后插入一行

python、python-3.x、pandas、dataframe、csv

我使用Pandas向数据帧输入了一个CSV文件，并希望计算其中列的日平均值。有两个列不会被平均化，时间和日期(日期是数据分组的日期)。然后，我希望在该日期的最后一行下面插入一行，在date列中插入“Average”( time列中没有任何内容)，然后在正确的列中插入相应的平均值。我只使用了Pandas一段时间，所以我不知道最简单的方法是什么。任何帮助都将不胜感激。

浏览 12提问于2022-06-17得票数 0

1回答

Pandas数据帧记录过滤符号是如何实现的？

python、pandas、dataframe

我正在学习一个Pandas教程，我看到的代码如下： from pandas import read_csv dataset = read_csv('customers.csv') # remove customers older than 95 dataset = dataset[dataset.age < 95] 我想知道这个操作是什么，它是如何在Python中实现的？看起来数据帧可以接受字典表示法(dataset['age'])，以及这种表示法。

浏览 0提问于2017-08-10得票数 1

回答已采纳

3回答

保留在列中出现最多项的熊猫数据行

python、pandas、dataframe

我有一只熊猫 import pandas as pd df =pd.DataFrame({'name':['john','joe','bill','richard','sam'], 'cluster':['1','2','3','1','2']}) df['cluster'].value_counts()将根据列cluster给出项目出现的次数。是否

浏览 7提问于2022-05-29得票数 2

回答已采纳

3回答

高效地从pandas字典列中提取数据

python、pandas

我有一个pandas dataframe，它有一个包含字典的列，其中只有一些关键字是感兴趣的。我可以将dict列转换为另一个df，然后获取感兴趣的元素： df = pd.DataFrame({'a':[{'x':1,'y':2},{'x':3,'y':4,'z':10}],'b':[5,6]}) cols_of_interest = ['x','z'] df_dicts = pd.DataFrame(df.a.tolist()) df_dicts =

浏览 32提问于2020-07-08得票数 2

1回答

使用另一列作为查找表创建新列时提高性能

python、python-2.7、pandas、dataframe

我有一个主数据帧，其中4列表示4种颜色，3行表示3种材料类型。此帧中的值为1或0，其中1表示正，0表示负。我有另一个非常长的数据框架，有多列，包括一列颜色和另一列材料。对于此帧中的每一行，值将不同。主表指示哪种颜色和材质的组合被认为是正数。现在，我想在这个框架中创建一个名为‘0’的新列，这样对于在主表中表示为正(值为1)的颜色和材质的组合，如果在这个长数据帧中出现相同的组合，则该值应为1，否则为0。我做了一些类似的事情： for i in pairs: main_frame['FAVOR'].loc[(main_frame['Color']==i[0]

浏览 2提问于2018-06-26得票数 1

4回答

在pandas dataframe python中使用pii匿名特定列

python、pandas、privacy、anonymize、pii

我已经加载了一个包含json文件的s3存储桶，并将其解析/平整成一个pandas数据帧。现在我有了一个175列的数据帧，其中有4列包含个人身份信息。我正在寻找一个快速解决方案匿名这些列(名称和地址)。我需要保持信息的倍数，以便如果同一个人的姓名或地址出现多次具有相同的哈希。 pandas或其他包中是否有我可以利用的现有功能？

浏览 4提问于2017-12-28得票数 7

1回答

按中的列分组。

python、dataframe

我有一个简单的df。它有两列。我想按a列的值分组。下面是一个简单的例子:任何输入都会非常感谢！ import pandas as pd import numpy as np df = pd.DataFrame() df['a'] = [1, 2, 3, 4, 1, 2] df['b'] = [10, 20, 30,40, 50,60] 期望的产出是： df = pd.DataFrame() df['a'] = [1, 2, 3, 4] df['b'] = [10, 20, 30,40 ] df['b1']

浏览 1提问于2022-08-09得票数 0

回答已采纳

1回答

使用枢轴转换数据帧

python-3.x、pandas、dataframe、pivot、pandas-groupby

我正在尝试使用pivot来转换数据格式。由于该列包含重复的条目，所以我尝试在建议的count列之后添加一个列(问题10张贴在这个答案中)。 import pandas as pd from pprint import pprint if __name__ == '__main__': d = { 't': [0, 1, 2, 0, 1, 2, 0, 2, 0, 1], 'input': [2, 2, 2, 2, 2, 2, 4, 4, 4, 4], 'type': [&#

浏览 1提问于2022-05-04得票数 0

回答已采纳

1回答

在Pandas DataFrame中条件连接两列的最佳/简明方法

python、pandas、dataframe、concatenation

我尝试在Pandas DataFrame中有条件地连接两列。我找到了一个相关的，我在下面改编了它--但似乎应该有一种更简洁的方法来做到这一点。在带有dplyr或data.table的R中，这是一行相对简单的代码。 import pandas as pd import numpy as np data = {"Product": ["Shorts", "T-Shirt", "Jacket", "Cap"], "Color": ["Red", "Blue

浏览 2提问于2021-11-25得票数 0

2回答

将行追加到Pandas DataFrame添加0列

python、pandas、append、dataframe

我正在创建一个Pandas DataFrame来存储数据。不幸的是，我无法提前知道我将拥有的数据行数。因此，我的方法如下。首先，我声明一个空的DataFrame。 df = DataFrame(columns=['col1', 'col2']) 然后，我附加了一行缺失的值。 df = df.append([None] * 2, ignore_index=True) 最后，我可以每次向这个DataFrame中插入一个单元格中的值。(我为什么要一次做一个细胞，这是一个很长的故事。) df['col1'][0] = 3.28 这种方法非常好，但附加语

浏览 3提问于2014-04-07得票数 3

回答已采纳

1回答

创建仅包含来自亚马逊S3的文件名的列

python、pandas、amazon-web-services、amazon-s3

我正在尝试创建一个包含不带扩展名的文件名的列Fname，我正在使用此代码，但它返回* import boto3 import pandas as pd import os s3 = boto3.resource('s3') bg = s3.Bucket("mybucket") objects = bg.objects.filter(Prefix="myprefix") file_list = [] for obj in objects: df = pd.read_excel('s3://mybucket/myp

浏览 5提问于2021-02-17得票数 0

回答已采纳

1回答

python:在FOR循环中获取的多列pandas数据文件

python、pandas

我正在编写一个Python脚本，它循环遍历N个.SDF填充，使用glob创建它们的列表，为每个文件执行一些计算，然后以pandas数据文件格式存储这些信息。假设我计算每个文件的4个不同属性，对于1000个填充，预期输出应该以5列1000行的数据文件格式汇总。以下是代码的示例： # make a list of all .sdf filles present in data folder: dirlist = [os.path.basename(p) for p in glob.glob('data' + '/*.sdf')] # create empty

浏览 43提问于2020-12-01得票数 0

回答已采纳

1回答

如何在不缺失值的列中返回值

python-3.x、pandas

我仍在尝试删除(删除)包含缺失值的每一列，但输出结果仅为出现的索引列 import pandas as pd df = pd.util.testing.makeMissingDataframe().reset_index() df.head() df = df.dropna(axis='columns',how='all') df.head()

浏览 0提问于2021-09-06得票数 0

3回答

Python & Pandas:比较两个不同csvs上的实例

python、pandas、csv

对于Python和Pandas来说，任何帮助都是非常感谢的。我有两个csv's，control.csv和replies.csv，它们都包含user_id和text列(见下文)。 control.csv user_id, text 4102, text0 5109, text1 5349, text2 replies.csv user_id, text 4102, texta 4102, textb 5109, textc 我想计算一下user_id中的值在control.csv中出现在replies.csv中的次数。然后，我想在control.cs

浏览 4提问于2021-08-21得票数 0

回答已采纳

3回答

如何在pandas dataframe中添加新列的值？

python、pandas、dataframe

我想在Pandas数据帧中创建一个新的命名列，在其中插入第一个值，然后向同一列中添加另一个值：类似于： import pandas df = pandas.DataFrame() df['New column'].append('a') df['New column'].append('b') df['New column'].append('c') etc. 我该怎么做？

浏览 1提问于2018-07-24得票数 3

回答已采纳

1回答

查看数据帧的行，如果行上的大多数项也是x，则返回result(x

python、pandas、numpy、dataframe

首先复制/粘贴并运行下面的代码，然后阅读以下内容：我正在试图找出一种方法来制作一个新的列(即df['F'])，如果BHD在同一行5次中出现3次或更多，则返回BHD，并且对于SHD也需要在与BHD相同的列上返回(所有结果都应该在1列上) 我已经添加了F栏作为我需要的答案的模板 import pandas as pd df = pd.DataFrame() df['A'] = ('S', 'SCL', 'SHD', 'SHD', 'SL', 'S', 'S

浏览 17提问于2019-09-28得票数 1

回答已采纳

2回答

基于其他列修改部分dataframe列值

python、pandas、dataframe

我试图根据另一列的值更新/修改数据帧的某些部分。如果列['a']为空，则使用列['b']的值填充列['b']，如下所示 list_position = [[4, 35]] df.iloc[list_position[0][0]:list_position[0][1] + 1,:]['a'] = df.iloc[list_position[0][0]:list_position[0][1] + 1,:].apply(lambda row: row['a'] * row['b'] if np.isna

浏览 1提问于2019-01-29得票数 1

回答已采纳

1回答

熊猫:删除基于子字符串的重复

python、pandas、duplicates

我有来自Pandas DataFrame的以下2列： antecedents consequents apple orange orange apple apple water apple pineapple water lemon lemon water 我想删除作为bot的前因和结果出现的副本，只保留第一次出现，从而获得： antecedents consequents

浏览 1提问于2022-04-21得票数 1

回答已采纳

1回答

熊猫一个热编码列到虚拟人，包括“其他”编码。

python、pandas、categorical-data、dummy-variable

我的最终目标是在Pandas列上一个热编码。在这种情况下，我想要一个热编码列"b“如下:保存苹果，香蕉和橘子，并将任何其他水果编码为”其他“。例句:在下面的代码中，“葡萄柚”将被改写为“其他”，如果它们出现在我的数据中，“猕猴桃”和“鳄梨”也会被重写。下面的代码起作用： df = pd.DataFrame({ "a": [1,2,3,4,5], "b": ["apple", "banana", "banana", "orange", "grapefruit"

浏览 1提问于2021-07-31得票数 1

回答已采纳

2回答

如何在熊猫数据中添加复选框

python-3.x、pandas、dataframe、checkbox

我创建了一个dataframe，作为： import pandas as pd data = [['Ankit'], ['Akshat' ]] df = pd.DataFrame(data, columns = ['Name']) 现在，我想插入一个列PPA，其中包含复选框按钮作为值。所以，我把代码写成： import ipywidgets checkbox_button=widgets.Checkbox(description="", value=False,indent=False) df.insert(loc = 0

浏览 2提问于2021-10-28得票数 3

回答已采纳

1回答

如何向python dataframe插入多个包含空值的连续列

python、pandas

我有一个有四个列"1990“、"2000”、"2006“和"2012”的dataframe stations和区域数据。若要在间隔期间插入年份，我希望在空白中插入带有空值的列。我确实使用pandas.DataFrame.insert在特定位置插入列，但无法找到如何使用多个列(如pandas.DataFrame.insert[1, ["1991":"1999"], np.nan] )来实现这一点。是否有方法插入具有连续编号/名称的多列以填补空白？我很感激每一个人的帮助！

浏览 0提问于2019-08-15得票数 3

回答已采纳

4回答

使用多列的pandas数据帧列表理解的内存高效方法

python、dataframe、list-comprehension

我想在列表理解中对熊猫数据帧的行运行一个函数。Dataframe可以有不同数量的列。如何利用这些数据帧的列？ import pandas as pd df = {'chrom': ['chr1', 'chr1','chr1'], 'start': [10000, 10100, 12000], 'end':[10150,10120,12250], 'S1':[1, 1, 1],'S2':[2, 2, 2],'S3':[3, 3, 3] } df =

浏览 0提问于2019-10-26得票数 1

1回答

如何根据Pandas中三种不同条件的另一列中的单词来检查一个列是否有一个单词？

python、pandas、string、dataframe、nlp

输入： import pandas as pd df_input = pd.DataFrame({'Keyword': {0: 'apple banana, orange', 1: 'apple orange ?banana "', 2: 'potato, piercing pot hole', 3: 'armor hard known'}, 'Returns': {0: 'Fruit; Banana Vendor', 1: 'Blend

浏览 1提问于2022-09-23得票数 0

回答已采纳

2回答

比较两种数据

python、pandas、dataframe、numpy、nan

我有2个数据，其中包含3个帐户指示符，每个帐户号码。帐户号码与“帐户”栏中的类似。我试图修改dataframe 2，以便它与dataframe 1匹配，因为每个列都具有相同的NaN值。 Dataframe 1: import pandas as pd import numpy as np df = pd.DataFrame([[1234567890,1,np.nan,'G'], [7854567890,np.nan,100,np.nan], [7854567899,np.nan,np.nan,np.

浏览 6提问于2022-07-05得票数 0

2回答

将日期列与NAT(null)从pandas保存到parquet

python-3.x、pandas、parquet、amazon-athena、pyarrow

我需要将可为空的整型日期值('YYYYMMDD')读取到pandas，然后将此pandas数据帧保存为Date32Day格式，以便Athena Glue Crawler分类器将该列识别为日期。下面的代码不允许我将列保存到pandas中的parquet： import pandas as pd dates = [None, "20200710", "20200711", "20200712"] data_df = pd.DataFrame(dates, columns=['date']) data_df['

浏览 32提问于2020-07-14得票数 3

1回答

Python基于另一个列值创建带有乘法器的新列。

python、pandas、dataframe、numpy

我是python的新手，我正在尝试为现有的dataframe派生一个额外的列。该列的值将基于另一列值乘以乘数，下面是一些例子:我有这个数据，它指示每个国家的锻炼时间。我想要生成一个额外的列，称为预期锻炼时间，它将有一个基于时间列的乘数因子。美国预期时间=时间* 2，英国预期时间=时间* 1.5，DE预期时间=时间*1。理想情况下，我希望对这个问题有一个自定义的函数，以便更灵活地调整乘法因子或计算方法(现在是乘法，但将来可能变成加/减/模)。提前感谢！ import pandas as pd import numpy as np import random df = pd.DataFram

浏览 9提问于2022-11-17得票数 0

2回答

为什么从具有不同索引的系列中在Dataframe中设置列会产生带有NaNs的列？

python、pandas

在下面的代码中，我有一个包含两行的DataFrame和一个包含两个值的系列。我想在我的DataFrame列中设置Series值。 import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(2, 1), index=["one", "two"]) print(df) s = pd.Series(np.random.randn(2), index=["four", "five"]) df.loc[:, 0] = s print(df) 但是，S

浏览 5提问于2022-10-11得票数 0

回答已采纳

2回答

将Int64类型的Pandas数据帧发送到GCP扳手INT64列

python、pandas、google-cloud-platform、google-cloud-spanner

我正在使用Pandas Dataframes。我有一个来自CSV的列，它是混合了空值的整数。我试图转换它并将其以尽可能通用的方式插入到Spanner中(这样我就可以在将来的工作中使用相同的代码)，这降低了我使用标记变量的能力。但是，DFs不能处理纯int列中的NaN，因此您必须使用Int64。当我尝试将它插入到扳手中时，我得到一个错误，它不是一个int64类型，而纯Python int可以工作。有没有一种在插入过程中自动将Int64 Panda值转换为int值的方法？同样，由于空值的原因，在插入之前转换列不起作用。有没有别的办法绕过这一步？尝试从序列转换如下所示： >>>

浏览 14提问于2019-03-22得票数 2

回答已采纳

1回答

在python中用用户输入值填充空白单元格后，DataFrame列类型发生变化

python、pandas、spyder

我有一个大型excel文件上传到spyder，只是为了一个例子。我说得很简单- Date Name Project Age Pin_code Remarks Gender 0 2020-01-01 a proj_a 34 123456 grade_a M 1 2019-12-04 b proj_b 48 789012 2 c

浏览 2提问于2022-03-04得票数 0

回答已采纳

1回答

使用字符串匹配并基于if-else条件创建新列

python、pandas、if-statement、conditional-statements

我有一个数据帧，其中列“url_text”包含来自OCR的文本输出。我正在尝试创建一个新的列“阻塞”，如果满足条件，行等于1，否则等于0。 df[df['url_text'].str.contains('blocked you')] # detect all rows in 'url_text' column # that contain 'blocked you'. Code works. 我尝试在以下函数中插入上述代码。但是，当我将该函数应用于数据帧时，会出现以下错误： def f(row): if row[&#

浏览 1提问于2021-12-30得票数 0

回答已采纳

2回答

Pandas:根据一列中字符串的特定组合选择行对

python、pandas、dataframe、numpy

我是python/pandas的新手，一直在努力寻找一个足够具体的示例供我使用。假设我有以下pandas数据帧，由一列事件标记和一列显示每个标记出现的时间组成： df = pd.DataFrame({'Marker': ['S200', 'S4', 'S44', 'Tone', 'S200', 'S1', 'S44', 'Tone'], 'Time': [0, 100, 150, 230,

浏览 7提问于2021-07-10得票数 2

1回答

批处理只在PostgreSQL中插入唯一的记录(每天有数百万条记录)

python、pandas、postgresql、sqlalchemy

我每天都有10M+记录要插入到Postgres数据库中。 90%是重复的，应该只插入唯一的记录(可以对特定的列值进行检查)。由于批量很大，批量插入似乎是唯一明智的选择。我在努力想办法让这件事成功。我试过的： SQLAlchemy，但是它引发了一个错误。所以我想这是不可能的。 s = Session(bind=engine) s.bulk_insert_mappings(Model, rows) s.commit() 抛出： IntegrityError: (psycopg2.errors.UniqueViolation) duplicate key value violates uniq

浏览 4提问于2020-07-10得票数 1

回答已采纳

1回答

Python使用lambda来代替嵌套循环的pd.DataFrame，这是可能的吗？

python、performance、nested、pandas

为了避免python中的嵌套循环，我在这里使用lambda apply创建了一个新列，参数如下： from pandas import * import pandas as pd df = pd.DataFrame((np.random.rand(100, 4)*100), columns=list('ABCD')) df['C'] = df.apply(lambda A,B: A+B) TypeError：('()恰好接受2个参数(给定1个)‘，u’出现在索引A') 显然这不起作用，有什么建议吗？

浏览 3提问于2013-10-04得票数 6

回答已采纳

2回答

如何从熊猫数据帧中减去熊猫系列？

pandas、dataframe

从DataFrame second_df import pandas as pd second_df = pd.DataFrame([[1, 1], [2, 2], [3, 3]], columns=['a', 'c']) second_df a c 0 1 1 1 2 2 2 3 3 我构建了一系列的second_s。 second_s = second_df.iloc[0] second_s a 1 c 1 Name: 0, dtype: int64 当我从DataFrame first_df中减去这个序

浏览 11提问于2019-08-19得票数 1

回答已采纳

2回答

REGEX使用Pandas

python、regex、pandas

使用熊猫和python:我正在尝试创建一个新列，如果正则表达式出现在其他指定列中，它将显示'1‘。例如，我想创建一个新列，名为‘醛酸’，如果表达式'391.1‘出现在相应的列'ICD’中，它的值为'1‘。在ICD列的某些行中，有一些单元格具有“424.1、391.1、420.2等”形式的各种表达式。到目前为止，我已经： import pandas as pd df = pd.read_csv('example_worksheet.csv') def ICD(c): if c[df['ICD9'].apply(st

浏览 1提问于2015-12-19得票数 1

回答已采纳

4回答

标识列中出现频率最高的值(字符串)

python、pandas、group-by、pandas-groupby、data-science

我有一个csv格式的非常大的数据集(10 GB)，其中包含各种列和行。其中一列是某类个人的is (表示为字符串)。ID在数据中都是加扰的，并且每个单独的ID可能会多次出现。我想要找到数据中出现频率最高的个人的ID。理想情况下，我希望计算每个ID在数据集中出现的次数。最后，我还想对各个‘d进行统计分析。完成这项任务的最快方法是什么？我确实尝试过groupby，但不知道如何找到与组相对应的ID以及它们的大小。 import pandas as pd df = pd.read_csv('file') user_groups = df.groupby(['IDs'])

浏览 1提问于2019-02-22得票数 0

1回答

提取字符串并根据原始索引作为多行插入

python、json、pandas、indexing、insert

到目前为止，我已经将示例数据集(df)、预期输出(df2)和代码放在下面。我有一个df，其中列i2中的一些行包含一个列表-- json格式，需要从提取它们的行中爆炸并重新插入到df中。但是需要输入到另一列(i1)中。我需要从字符串中提取唯一的标识符( ' id_2‘值)，并将其插入到id_2列中。到目前为止，在我的代码中，我使用pd.normalize解析类似于json的数据，然后将原始字符串从列i1插入到提取的字符串的顶部(如果您看下面的话，应该会更加清楚)，然后根据索引重新插入它们。但我必须指定指数，这是不好的。我希望它不那么依赖于人工输入索引，以防将来会有更多的嵌套单元格发生变

浏览 1提问于2021-05-25得票数 3

回答已采纳

2回答

在字典列表中查找值

python、pandas、dataframe

我用我的数据导入了一个.json列表，将其转化为字典列表。键是列标题。对于给定的某个键的值，我想在同一字典中得到另一个键的值。 data = [ { "Nr.": 2, "Table data": "S - Sulfur", "Ref.": 571, "Formula": "S", "Name": "Sulfur", }, { "Nr.": 3, "Table data":

浏览 2提问于2021-02-23得票数 0

回答已采纳

3回答

通过输入在熊猫中找到一排

python、pandas

我制作了一个小脚本，通过给定的名称遍历某个列并打印它的所有行。我想让它通过用户输入在行中搜索，但不必给它全名。最后三封信就足够了。如果我给它取全名，例如- H516G067U，它会找到那个内存。如果给出67U这样的东西，它就找不到了，这正是我想要做的。到目前为止我尝试过的 import pandas as pd file = "path" df = pd.read_excel(f"{file}", "DDR5 UDIMM") pd.set_option('display.max_columns', None)

浏览 4提问于2022-05-01得票数 0

回答已采纳