pandas应用并分配给多个列_pandas将函数应用于多个列，并创建多个列来存储结果_Pandas -根据多个条件将值分配给空列 - 腾讯云开发者社区

python、pandas

我正在使用Pandas从excel表格的列中提取一个子字符串，regex已经以多种方式进行了测试，工作错误如下： ? 说它找到了一个匹配项，但一次又一次得到相同的错误 ? 发生了什么？

浏览 30提问于2021-07-30得票数 0

1回答

函数将迭代目标读取为局部参数字符串，而不是for循环中的迭代值

python-3.x、pandas、for-loop、crosstab

尝试使用pandas交叉表函数运行这个简单的for循环。迭代目标是交叉表函数中的参数。它应该读取列的列表，并为每个列组合生成一个交叉表。但是相反，它将我的'i‘可迭代解释为列的文字标题，而不是它在迭代中应该是什么变量。我得到的错误是：'DataFrame‘对象没有'i’属性，因为它将'i‘读取为属性的文字名称，而不是从循环中读取应该存储在i中的值。 import pandas DF = pandas.read_excel('example.xlsx') Categories = list(DF.columns.values) for

浏览 1提问于2019-04-18得票数 1

1回答

用空间和潘达斯

python、pandas、spacy、text-classification

我正在尝试使用Spacy构建一个多类文本分类器，我已经构建了这个模型，但是在将它应用到我的完整数据集时遇到了问题。到目前为止，我建立的模型都在截图中：下面是我使用Pandas应用于我的完整数据集的代码： Messages = pd.read_csv('Messages.csv', encoding='cp1252') Messages['Body'] = Messages['Body'].astype(str) Messages['NLP_Result'] = nlp(Messages['B

浏览 29提问于2022-12-02得票数 1

2回答

SettingWithCopyWarning问题-如何在for循环中创建df的副本？

python、pandas、loops、geocoding

我正在尝试运行以下代码： for x in range(len(df10)): try: time.sleep(1) #to add delay in case of large DFs geocode_result = gmaps.geocode(df10['Address'][x]) df10['lat'][x] = geocode_result[0]['geometry']['location'] ['lat'] df10['lo

浏览 10提问于2021-05-21得票数 0

3回答

将"，“改为”。“用字符串Python

python、pandas、replace、dataset

我使用的数据集包含一个列"Streams“dtype: object，我只需要替换"，”by“。”以后使用pandas.to_numeric()并通过float64转换字符串。有办法只替换字符并保留数字吗？例子: 48,633,449至48.633.449 代码： import pandas as pd import numpy as np dados = pd.read_csv("spotify_dataset.csv") dados.dropna() dados['Streams'].replace(",", "

浏览 4提问于2022-06-02得票数 2

回答已采纳

2回答

对从Pandas value_counts()提取的值进行计数

python、pandas

这看起来很简单，但我在其他答案中并没有完全找到它。如何将pandas中某些条件的计数赋值给某个变量，示例如下：命令(计算pandas dataframe中某列的类别)： print(data.isBald.value_counts()) 输出： Bald 2345 notBald 5432 Name: isBald, dtype: int64 问题是： isBaldCount = ? #2345 结果是打印，但是如何将其赋值给变量呢？

浏览 3提问于2018-01-10得票数 3

回答已采纳

1回答

熊猫UDF不比星火UDF快吗？

apache-spark、pyspark

我把下面的UDF从派克的网站，因为我试图了解，如果有一个性能改善。我做了大量的数字，但两者的时间几乎相同，我做错了什么？谢谢! import pandas as pd from pyspark.sql.functions import col, udf from pyspark.sql.types import LongType import time start = time.time() # Declare the function and create the UDF def multiply_func(a, b): return a * b multiply = udf(

浏览 1提问于2020-05-12得票数 3

回答已采纳

1回答

对pandas中的多个列执行关联

python、pandas

在pandas中，可以在多个列之间对一个列进行关联吗？像这样： DF[['A']['B']].corr(DF['C'])

浏览 39提问于2019-02-22得票数 4

1回答

Python Pandas Dataframe条件If，Elif，否则

python、if-statement、pandas、dataframe

在Python DataFrame中，如果'Search‘列包含连接的、管道分隔的列表中的任何字符串，我将尝试向行应用特定的标签。我如何使用Pandas做条件if，elif，Pandas语句？例如： df = pd.DataFrame({'Search term': pd.Series(['awesomebrand inc', 'guy boots', 'ectoplasm'])}) brand_terms = ['awesomebrand', 'awesome brand'] foot

浏览 2提问于2015-06-04得票数 2

回答已采纳

2回答

pandas.to_numeric -找出它无法解析的字符串

python、pandas、data-science、data-cleaning

将pandas.to_numeric应用于包含表示数字的字符串(可能还有其他无法解析的字符串)的dataframe列将导致如下错误消息： --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-66-07383316d7b6> in <module>() 1 for column in

浏览 2提问于2016-11-24得票数 16

回答已采纳

1回答

关于OneHotEncoding - Python的问题

python、scikit-learn、one-hot-encoding

我正在进行一个项目，将One热编码技术应用到.binetflow文件的分类列中。代码： import pandas as pd from sklearn.preprocessing import LabelEncoder,OneHotEncoder mydataset = pd.read_csv('originalfiletest.binetflow') le = LabelEncoder() dfle = mydataset dfle.State = le.fit_transform(dfle.State) X = dfle[['State']].val

浏览 1提问于2019-02-27得票数 0

回答已采纳

1回答

pandas中的二维时间序列groupby

pandas、group-by

我有一个事务表，其中包含： timestamp, user_id, val 我需要按user_id分组，并在val上应用复杂的操作，比如 len(val[by_user_id].unique()) 但是，每一列都是不同的... 哪种方法是最有效的？ 1)使用循环进行拆分 for x in user_id_list : 或者2)使用Pandas groupby，但这并不清楚如何对每个列应用不同的函数... 谢谢

浏览 10提问于2017-01-27得票数 2

5回答

在python大熊猫中，如何应用循环为多列创建行？

python、pandas、dataframe

import pandas as pd import numpy as np column_names = [str(x) for x in range(1,4)] df= pd.DataFrame ( columns = column_names ) new_row = [] for i in range(3): new_row.append(i) df = df.append(new_row , ignore_index = True) print(df) 产出： 1 2 3 0 0 NaN NaN NaN 0.0 1 N

浏览 6提问于2021-09-05得票数 1

回答已采纳

2回答

pandas中删除的列重新出现

python、python-3.x、pandas

在删除一列后，我正在尝试将一个pandas数据帧转换为recarray。原始数据有33列，删除'a‘列后，我只剩下32列。但是，在dataframe上调用to_records()之后，原始列被重新插入为空值。有没有办法防止这种情况发生？ dat = pd.read_csv("testing.csv") dat = dat.astype("float32") dat.drop(['a'], axis=1, inplace=True) temp = dat.to_records() >>> dat.shape (500,

浏览 12提问于2017-01-14得票数 2

1回答

如何剥离可能出现在字符串列值开头或结尾的货币字符？

python、dataframe、special-characters

我有一个名为Cost的pandas数据帧列，它的值可能是or 2394.21或2435.68 or或$1753.32或$ 7854$。我想提取货币符号，它可能在开头或结尾，并将其存储在一个新列中。我怎样才能做到这一点呢？更复杂的是，我不知道用什么编码来存储这些符号。我试图找到货币符号在列中的位置，并将其存储在一个名为“索引”的新列中。下面的代码将索引返回为-1，因为我可能没有使用正确的编码检查or或$。 sub = '£' df['indexes'] = df['Cost'].str.find(sub) sub = '$' d

浏览 12提问于2019-02-02得票数 1

1回答

在pandas中创建一系列不整齐的列表时避免使用VisibleDeprecationWarning

python、pandas、dataframe、numpy

我有一个方法，我将其应用于pandas系列，以生成两个列，如下所示。其中一个返回的列包含不同大小的列表。这会产生VisibleDeprecationWarning。我怎样才能避免这种情况？我尝试了中显示的内容。但不能真正适应我在这里的情况。 import pandas as pd import numpy as np def some_method(i): return i, np.random.randint(10, size=i) df = pd.DataFrame(np.random.randint(10, size=100), columns=["a"])

浏览 23提问于2021-03-04得票数 1

回答已采纳

1回答

使用另一列中的值为列切片赋值不会引发形状不匹配错误

python、pandas

我有一个关于Pandas中形状广播是如何工作的问题。假设我有一个数据帧： df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [11, 22, 33, 44, 55]}) 我尝试将列'A‘的前两行替换为列'B’中的相应值。当我尝试将列B中的值显式指定为列表时： df.loc[[0,1], 'A'] = list(df['B']) 我得到了一个明显的形状广播错误： ValueError: shape mismatch: value array of shape (5,) c

浏览 11提问于2020-01-07得票数 3

回答已采纳

2回答

将计算过的列添加到没有for-循环的面板中的每个DataFrame中。

python、pandas

我有大约300个.csv文件，所有这些文件的行数和列数都是相同的。由于每个.csv文件代表一天，而且结构是相同的，所以我认为最好将每个.csv拉到Pandas DataFrame中，然后将它们扔到Panel中以执行更快的计算。我想在面板中的每个DataFrame中添加额外的计算列，最好没有for-循环。我正在尝试对面板使用apply函数，并根据原来的列名命名新列，该列的后缀为'p‘(以便以后更容易进行索引)。下面是我目前正在使用的代码。 import pandas as pd import numpy as np import os.path dir = "data/tes

浏览 2提问于2013-09-22得票数 2

1回答

Get_loc中的自我回溯(最近一次调用) ~\anaconda3\lib\site-packages\pandas\core\indexes\base.py (自身、关键字、方法、容差) KeyError Traceback (最近一次调用上次调用)get_loc中的自身

python、python-3.x、pandas

我在尝试kaggle的房价数据集。我试图从名为‘NaN’的列中清除Alle值 for column in missing_data.columns.values.tolist(): print(column) print(missing_data[column].value_counts()) print("") Id False 1460 Name: Id, dtype: int64 MSSubClass False 1460 Name: MSSubClass, dtype: int64 MSZoning False 1460

浏览 169提问于2020-10-05得票数 0

2回答

如何在python dataframe的单个列中划分元素？

python、pandas、division

我需要将Pandas DataFrame中特定列中的每个元素除以100。默认情况下，Pandas中的.div()函数将所有元素划分为所有列，并且试图指定要划分的列只剩下这些列。 d = { 'SYMBOL':['AAAAA','BBBBB','CCCCC'], 'ASSETS':[5, 21, 74]} data = pd.DataFrame(d,columns=['SYMBOL','ASSETS']) data = data['ASSETS']

浏览 0提问于2019-07-02得票数 1

回答已采纳

2回答

如何过滤大熊猫的特定栏？

python-3.x、pandas、dataframe

我有一个excel文件，其中有2列：“Name”和“size”。'Name'列有多个文件类型，即".apk, .dat, .vdex, .ttc"等，但我只想填充以.apk结尾的文件扩展名。我不希望在新的excel文件中输入任何其他文件类型。我编写了以下代码： import pandas as pd import json def json_to_excel(): with open('installed-files.json') as jf: data = json.load(jf) df = pd.

浏览 12提问于2021-12-27得票数 0

回答已采纳

1回答

如何使用二级索引列表对Pandas数据帧进行索引？

python、pandas

我尝试使用列brand作为索引，并从列表中添加一个二级索引，我该如何做呢？ import pandas as pd cars = {'brand': ['Honda Civic','Toyota Corolla'], 'price': [22000,25000]} df = pd.DataFrame(cars, columns = ['brand', 'price']) print (df) brand price 0 Honda Civic 220

浏览 12提问于2020-10-25得票数 1

回答已采纳

1回答

基于外部对象索引的聚合组

python、pandas、pandas-groupby

我有一个带有分类栏和其他内容的数据文件： >>> np.random.seed(0xFEE7) >>> df = pd.DataFrame({'A': np.random.randint(10, size=10), 'B': np.random.randint(10, size=10), 'C': np.random.choice(['A', 'B'], size=10)}) >&

浏览 3提问于2021-04-21得票数 2

回答已采纳

1回答

迭代pandas数据框以创建一个总和为100%的图表

pandas、dataframe

我有以下数据帧我想添加两列“季度期间的统计总数”( "stat“的总值，没有应用参数分解)和”季度总数的百分比“--这将显示比例是如何随着时间的推移而变化的，并构建一个总和为100%的堆叠图不幸的是，我在用"pandas方式“计算”季度统计总数“时遇到了麻烦。我最终逐个单元格地迭代数据帧，这感觉像是一个次优解，然后将一列除以另一列，得到% for elements in df.index: df.ix[elements,3] = df[df['period']==df.ix[elements,0]]['stat'].su

浏览 2提问于2016-08-16得票数 2

回答已采纳

1回答

使用pandas重命名列

python、pandas、dataframe

我正在尝试使用以下代码更改列名： import pandas as pd jeopardy = pd.read_csv('/Users/adamshaw/Desktop/Coding/jeopardy_starting/jeopardy.csv') jeopardy = jeopardy.rename(columns={' Air Date': 'Air_Date', ' Round': 'Round'}, inplace=True)

浏览 13提问于2019-12-31得票数 0

1回答

为数据帧创建多-Column索引

pandas、dataframe、multiple-columns、multi-index

是否可以将单级列数据帧更改为多列数据帧？如果我们有这样的数据帧， import pandas as pd df = pd.DataFrame({ 'a': [0, 1, 2, 3], 'b': [4, 5, 6, 7], 'c': [3, 5, 6, 2], 'd': [1, 5, 7, 0], }) 我们可以像下面这样更改它的列名吗？所以，简单地说，我尝试做的是在不改变数据帧的值的情况下拥有2级的列索引。 A B a b c d 0 0

浏览 10提问于2021-02-03得票数 0

回答已采纳

1回答

inplace=False如何不给出数据文件中的密钥错误

pandas、dataframe

所以我有点怀疑。当我呈现交互式下拉列表的最后输出时，我试图删除3列，这将过滤数据帧。请注意，此下拉列表使用这3列中的2列(年份、月份)进行过滤。因此，我编写了df_filter = df_reviews，如果在第二次使用交互时再次调用该函数，它将返回这3列(过滤所需的)。然而，当我使用inplace = True时，它给了我一个 KeyError Traceback (most recent call last) ~\anaconda3\lib\site-packages\pandas\core\indexes\base.py

浏览 2提问于2020-08-02得票数 0

1回答

消除特征的Featurizer

python、pandas、scikit-learn、feature-selection

我正在尝试设置一个特征化器，它会删除我的数据库中除前10列之外的所有列。数据库总共由76列组成。这个想法是对我想要保留的10列应用一个PolynomialFeatures(1))，但是我看不到一种方法来巧妙地删除剩下的66列(我在想类似于PolynomialFeatures(0))的东西，但它似乎不起作用。这个想法是将它们乘以常量0)。问题基本上是2: 1)如何告诉DataFrameMapper在一系列列(即A_11到A_76)上应用相同的特性；2)如何告诉DataFrameMapper应用aa特性来消除这些列。到目前为止，我尝试的(不完整)代码如下所示。我表示A_11-A_76问题1) (

浏览 0提问于2021-02-02得票数 1

1回答

如何使不同的列在holoviews / hvplot中呈现为不同的颜色？

pandas、holoviews

我有一个包含两列时间序列数据的pandas数据帧。在我的实际数据中，这些列足够大，如果没有数据着色器，渲染就会很笨拙。我正在尝试比较这两个时间序列中的事件。但是，我需要能够分辨出哪个数据点来自哪个列。下面是一个简单的函数示例。如何让A列和B列使用不同的颜色映射？ import numpy as np import hvplot.pandas import pandas as pd A = np.random.randint(10, size=10000) B = np.random.randint(30, size=10000) d = {'A':A,'B'

浏览 19提问于2019-01-12得票数 0

回答已采纳

3回答

在DataFrame上应用函数后更改其上的级数位置

python、pandas

我正在尝试使用pandas，以便使用简单的函数就地更改我的一个列。在阅读完整个Dataframe之后，我尝试在一个系列上应用函数： wanted_data.age.apply(lambda x: x+1) 它工作得很好。当我试图把它放回我的DataFrame中时，唯一的问题出现了： wanted_data.age = wanted_data.age.apply(lambda x: x+1) 或者： wanted_data['age'] = wanted_data.age.apply(lambda x: x+1) 抛出以下警告： > C:\Anaconda\lib\sit

浏览 0提问于2015-05-16得票数 28

回答已采纳

2回答

在Pandas中使用方法链接赋值给列的子集

python、pandas、indexing、method-chaining

我想使用Pandas方法链接的现代方式来为列的子集赋值。假设我有以下数据帧 df = pd.DataFrame({'a': [1, 0, 0, 1]}) a 0 1 1 0 2 0 3 1 我想实现等同于 df.loc[df.a == 1, 'a'] = 2 使用类似于 df.query('a == 1').assign(a=2) 但是，上面创建了一个子集dataframe，并且不会修改整个dataframe。这有可能以某种方式实现吗？

浏览 1提问于2018-11-09得票数 4

1回答

使用Pandas拉取excel文档信息并将选定的列保存到新文件中

python、excel、pandas

嘿，伙计们，真的很困惑如何处理这个问题，试着到处寻找。我要将选定的列保存到新的excel文件中。如有任何帮助，我们不胜感激！ import pandas as pd import numpy as np data = pd.read_excel('C:\\Users\\me\\Downloads\\Reconcile.xlsx') data[['batched_at', 'batch_id', 'total', 'customer_firstname', 'customer_lastname']]

浏览 23提问于2020-09-03得票数 0

回答已采纳

2回答

Pandas:基于单独列的值更新多个列和行

python、pandas

我正在尝试创建一个代码，它可以尽可能快地根据ID列的值同时更新大量的pandas值。我使用的代码是基于ID_column同时插入多行，但不能同时插入多列+行。下面的代码是一个简单的示例，它根据列名ID的值更新2列(value1和value2)。 id_list = [24,26,28] value1_list =[100,200,300] value2_list =[125,175,165] df.loc[df['id'].isin(id_list), 'value1'] = value1_list df.loc[df['id'].

浏览 20提问于2019-01-13得票数 1

回答已采纳

2回答

在pandas中堆叠与Pandas / SFrame等效的列表数组

pandas、sframe

在pandas数据帧中是否有SFrame堆栈的等价物？Pandas自己的堆栈只适用于级别，而我正在寻找在包含列表的其他列的同一级别上扩展单个列。 Input Dataframe:在实际数据框中还有一些像user这样的列 +-------+------------------+ | user | friends | +-------+------------------+ | 1 | [2, 3, 4] | | 2 | [5, 6] | | 3 | [4, 5, 10, None] | +----- -+-------

浏览 5提问于2017-08-19得票数 1

回答已采纳

1回答

为pa.Table.from_pandas()分配pyarrow模式

python、pandas、schema、parquet、pyarrow

我的熊猫数据中有一个列表列，还有int、string等列。我能够转换字符串，日期，int和时间戳列。我想知道如何将array()应用到list列。 fields = [ pa.field('id', pa.int64()), pa.field('secondaryid', pa.int64()), pa.field('date', pa.timestamp('ms')), pa.field('emails', pa.array()) ] my_schema = pa.schema(

浏览 1提问于2018-08-07得票数 3

回答已采纳

2回答

pandas.DataFrame.assign:如何引用新创建的列？

python、python-3.x、pandas、dataframe

我试图在Pandas 1.5.2中使用pandas.DataFrame.assign。让我们考虑一下下面的代码，例如： df = pd.DataFrame({"col1":[1,2,3], "col2": [4,5,6]}) df.assign( test1="hello", test2=df.test1 + " world" ) 我正面临这个错误： AttributeError: DataFrame对象没有属性“test1” 但是，它明确指出：可以在同一个assign中分配多个列。**kwargs中的

浏览 1提问于2022-11-28得票数 1

回答已采纳

2回答

如何使用python根据Snowflake中的列的数据类型来屏蔽特定模式中所有表的所有PII列？

python-3.x、snowflake-cloud-data-platform

用例-我想根据列的数据类型应用不同的掩码策略。例如，如果列的数据类型是名称，那么我想要应用mask_name策略，如果数据类型是字符串，那么我应该这样做吗？

浏览 15提问于2021-03-17得票数 0

2回答

在python中，使用lambda向dataframe列添加空列表将引发valueError

python、pandas

我能够重现合成数据上的错误： import pandas as pd from datetime import datetime df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': [datetime.now(), da

浏览 0提问于2018-07-26得票数 2

回答已采纳

2回答

如何找到文件中最大的小数位数？

python、pandas、numpy、matplotlib、decimal

我想找出文件中最大的十进制数 0 data = pd.read_csv("data.csv") 1 2 dec = abs(decimal.Decimal('20.122').as_tuple().exponent) 3 print(dec) 所以这里的第一行读取文件，第三行计算小数，第四行打印小数，现在它打印3 ('20.122‘有3个小数)，所以现在我想搜索data.csv并找到小数最多的数字(例如2.0345)，然后用第三行计算小数这正是我想要的，但它在excel中我在这里使用pandas，并且只有一个名为"data“

浏览 2提问于2020-11-17得票数 0

1回答

如何将SymPy矩阵中的行和列归零

python、sympy

我正在实现一个简单的FEA代码，我需要将特定的行和列归零来应用边界条件。示例矩阵：我试过使用my_matrix[:,1] = 0，但它返回一个错误：ValueError: unexpected value: 0 有人能指导我如何使列和行为零吗？

浏览 1提问于2018-03-31得票数 0

回答已采纳

3回答

“KeyError：”当迭代熊猫数据帧时？

python、pandas、dataframe、scikit-learn

我有两个列表Y_train和Y_test。目前，他们持有明确的数据。每个元素都是Blue或Green。它们将成为随机森林分类器的目标。我需要它们被编码为1.0和0.0s。下面是一个print(Y_train)，向您展示数据框架的样子。下面的随机数字是因为数据已经被洗牌了。(Y_test是相同的，只是更小)： 183 Blue 126 Blue 1 Blue 409 Blue 575 Green ... 396 Blue 192 Blue 578 Green 838 Green 222

浏览 5提问于2019-12-10得票数 0

回答已采纳

1回答

Streamlit自动填充多选择小部件以过滤数据

python、pandas、loops、streamlit

我有一个流光应用程序，用户可以上传一个csv文件。我希望能检测对象/维度列，并为每个列创建一个具有唯一值的多选择筛选器。例如，如果用户上传具有3个对象/维度的文件，则将创建3个单独的多选择筛选器。我已经给出了下面的代码，但是它似乎不起作用。我的结果是下面的错误。我假设这个问题是通过创建每个多选择过滤器来循环的，但我不确定是否有另一种方法可以动态地做到这一点。我也尝试过用data[y].unique()代替ucolumns，但这仍然不起作用。任何帮助都会很好。 for y in data.columns: if (data[y].dtype == np.

浏览 3提问于2021-02-04得票数 0

回答已采纳

1回答

默认情况下对Pandas数据帧使用.loc

python、pandas、dataframe

我知道访问Pandas中的索引/列的常用方法(还请参阅索引)：整数定位的df.iloc[..., ...] 基于标签的位置的df.loc[..., ...] df.ix (不推荐) 用于列访问的df['C1']或df.C1 df['mylabel1':'mylabel10']或df[2:7]用于行片访问，但df['mylabel1']和df[2]显然不起作用我一直觉得最后两个要点令人困惑，因为对于列访问或行访问，我们都使用相同的符号df[...]。 DataFrame**)问题:是否有一种配置Pan

浏览 4提问于2022-06-24得票数 2

2回答

如何在Python pandas dataframe中拆分这些数据？

python、python-3.x、pandas

这是我的pandas数据框，在索引列中，我只想保留双下划线(__)之后的值，并删除其余的值。 ?

浏览 19提问于2019-01-18得票数 1

回答已采纳

2回答

Python Pandas dataFrame -列选择

python、pandas、dataframe

我有一个Pandas dataFrame对象train_df，它有一个名为"ColA“的列和一个"ColB”列。它是使用read_csv从带有列标题的csv文件中加载的当我编码时，我得到了相同的结果： pd.crosstab(train_df['ColA'], train_df['ColB']) 或 pd.crosstab(train_df.ColA, train_df.ColB) 这两种选择列的方式有什么区别吗？当我请求打印类型时，它是相同的：pandas.core.series.Series

浏览 22提问于2019-11-05得票数 0

1回答

如何使用Pandas为基于多个列的搜索建立索引

python、excel、pandas、tkinter

我在索引用户输入以搜索多列时遇到了问题。以下是我的代码 Searched_Multicast_Row_Location = excel_data_df_Sheet_1[excel_data_df_Sheet_1['Zixi Multicast'] == Group.get()].index print(Searched_Multicast_Row_Location) 这很有效，但问题是，用户可能会输入不同列中的值，我也想对其进行索引。我尝试了以下几种方法 Searched_Multicast_Row_Location = excel_data_df_Sheet_1[excel

浏览 35提问于2020-08-22得票数 1

回答已采纳

2回答

将2D列表分配给2个Dataframe列Pandas

python、python-3.x、pandas

我尝试了以下方法，但遇到错误： >>> import pandas as pd >>> df = pd.DataFrame([[0,0],[2,2]]) >>> df 0 1 0 0 0 1 2 2 >>> y = [[0,0],[2,2],[3,3]] >>> df["s","d"] = y Traceback (most recent call last): File "<stdin>", line 1, in <

浏览 27提问于2019-02-08得票数 1

回答已采纳

1回答

电火花PandasUDF分配

apache-spark、pyspark

我正试图通过PandasUDF将工作负载均匀地并行化。这个函数相当昂贵，我希望每个工作人员同时运行该函数最多n次。有什么办法可以控制PandasUDF是如何在工人之间分布的吗？例如，假设我的DataFrame中有20个组，我的集群由5个工作人员组成，我希望每个工作人员同时在4个组上执行udf： df.groupBy('GROUP_IX').applyInPandas(my_pandas_udf, some_output_schema) 我事先尝试过按df范围进行重新分区，但这并没有给出我所针对的确切的统一工作负载分布(有时超过4个分区最终在同一个工作人员中完成)： df.r

浏览 3提问于2021-08-24得票数 3

1回答

操纵大熊猫名单一栏

python、pandas

我有一个像这样的数据文件： import pandas as pd score = [[0,1,0,3],[0,2,6,4,0,0],[0,0,0],[0,4,4,2,1,0,0,0]] group = ["A", "B", "C", "D"] df = pd.DataFrame([group, score]).T df.columns = ['Group', 'Score'] 您会注意到，得分列包含不同长度的数组。我想创建两个新列。希望第一个新列是该行的Score列中的零总数。我希望第二个新列是该

浏览 2提问于2022-09-21得票数 1

回答已采纳

1回答

如何在包含分类变量的Pandas数据帧中仅降低数值列的值？

python、pandas

我有一个Pandas数据框架，并希望降低每个数字列的级别，保持分类变量列条目不变。通过"demean"，我只是希望从每个列条目中减去相应列中所有条目的平均值。数据框来自Wisconsin Breast Cancer目录中的569名患者，为每个患者列出了10种不同的数字测量，以及M(恶性)或B(良性)的诊断。 import pandas as pd df = pd.read_csv('data/UWbcd.csv') %load_ext google.colab.data_table. #just for purposes of browsing the d

浏览 35提问于2020-10-22得票数 0

回答已采纳