我正在研究如何将函数应用于熊猫数据栏中的一个列。但是我只想在满足条件的情况下应用这个函数。
import pandas as pd
def example_function(a, b):
return a + b
data = dict(
A = [1, 2],
B = [4, 5],
C = ["A", "B"],
)
example_df = pd.DataFrame(data=data)
因此,我想使用来自A和B的值应用example_function,只有在C列中有"B"的情况下。
有什么想法吗?
当我试图将熊猫导入Python时,我会得到以下错误:
>>> import pandas
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/robertdefilippi/miniconda2/lib/python2.7/site-packages/pandas/__init__.py", line 44, in <module>
from pandas.core.api im
我正在尝试使用zscore从我的数据集中删除异常值。只有一列,'Amount‘是数字,所以如果'Amount’包含一个被归类为异常值的数字,我想要删除整个行。这是我的代码,我将整个数据集称为' data‘
“”“
#Change 'Amount' data to numeric
Data['Amount'] = pd.to_numeric(Data['Amount'])
#Calculating and printing zscore
z = np.abs(stats.zscore(Data['Amount
我试图根据pandas数据中的条目执行计算。dataframe看起来如下所示:
它包含1466行。我将不得不在其他df上运行类似的计算,稍后会有更多的行。
我要做的是计算类似于mag='(U-V)/('R-I)' (但忽略了任何值为-999)的值,将其放在新列中,然后将z_pred=10**((mag-c)m)放在新列中(mag、c和m只是硬编码变量)。我还需要添加其他列,但我认为这只是同一个方法的扩展。
我一开始就尝试
for i in range(1):
current = qso[:]
mag = (U-V)/(R-I)
name = c
所以我有一个带有y行的x列的Pandas DataFrame。DataFrame中的数据是float64值。我试图计算两列之间的斜率相关性,但是对于单个列的范围(例如,列有25000行,我只想要介于5-10之间的值,这些值恰好在2000-4000行中)。为了做到这一点,我将以下面的psuedocode演示的方式进行迭代:
for i in range(i, len(df['Column 1']))
if df.loc[i, 'Column 1'] <= 10.0 & df.loc[i, 'Column 1'] >= 5
我编写了以下代码,在其中创建了pandas数据帧字典:
import pandas as pd
import numpy as np
classification = pd.read_csv('classification.csv')
thresholdRange = np.arange(0, 70, 0.5).tolist()
classificationDict = {}
for t in thresholdRange:
classificationDict[t] = classification
for k, v in classificationDic
我有以下代码:
import pandas as pd
import datetime
import pandas as pd
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from alpha_vantage.foreignexchange import ForeignExchange
import os
from os import path
from alpha_vantage.timeseries import TimeSeries
import matplotlib.pyplot
我想知道如何根据几个不同的类别找到估计值。其中两列是分类的,另一列包含两个感兴趣的字符串,最后一列包含数值我有一个名为sports.csv的csv文件
import pandas as pd
import numpy as np
#loading the data into data frame
df = pd.read_csv('sports.csv')
我正在尝试为同时拥有棒球和篮球以及从240到260的enrollment的Gym找到建议的price,因为它们来自region 4和type 1
Region Type enroll estimates pr
在使用以下代码时遇到一些问题:
import requests_cache
import datetime
import pandas as pd
from datetime import timedelta
import pandas as pd
from pandas.io.common import ZipFile
from pandas.compat import BytesIO, StringIO, PY2
我得到以下错误:
---------------------------------------------------------------------------
Im
我需要从pandas.DataFrame中删除满足不寻常条件的所有行。
如果有一个完全相同的行,除了它在列"C“中有Nan值之外,我想删除此行。
给定一个表:
A B C D
1 2 NaN 3
1 2 50 3
10 20 NaN 30
5 6 7 8
我需要删除第一行,因为它在列C中有Nan,但在列C中有绝对相同的行(第二行)和实数值。
但是,第三行必须保留,因为不存在具有相同A、B和D值的行。
你如何使用pandas来实现这一点?谢谢!