我想对我的DataFrame进行分组,然后应用一个由几个列组成的函数,该函数返回一个结果。
In [25]: length = 100
In [26]: rnd = np.random.random
In [27]: df = pd.DataFrame(dict(group=np.random.choice(['a','b','c'], length), foo=rnd(length), bar=rnd(length)))
In [28]: df.head()
Out[28]:
bar foo group
0 0.
假设我有以下DataFrame:
df = pd.DataFrame({"my_col": ["one","two","two","one","two","one","one"]})
my_col
0 one
1 two
2 two
3 one
4 two
5 one
6 one
我想在被复制的值上附加一个字符串和它们的重复计数。我的意思是:
my_col
0 one_0
1 two_0
2 two_1
3
我有一个DataFrame
输入
A B C D
0 one 50 35 1.5
1 two 30 40 2.0
2 one 50 35 3.0
3 three 40 35 3.5
4 one 40 35 2.5
我需要在D列上应用一个数学函数,并填充一个新的列E,但是在我需要对B和C列进行分组之前,数学函数将应用于值1.5和3.0上(50,35)。
B C A D
50 35 one 1.5
one
我在熊猫数据中发现了奇怪的价值分配限制。下面是一个简单的例子
from __future__ import print_function
from pandas import DataFrame
import numpy as np
data=DataFrame({'one':[1,2],'two':[3.0,4]})
data.values[1,1]=data.values[1,1]*6 # these are type<numpyfloat64>
print(data.values[1,1])
#st
我正在尝试向Pandas GroupBy DataFrame中添加一个列。新列(E)是列(C)上具有相同关键字(A,B)的值的总和,.This关键字由数据帧(A,B)的另外两列形成。
This is my Dataframe
A B C D
0 foo one 1 15
1 bar one 2 10
2 foo two 4 20
3 bar three 4 5
4 foo two 5 6
5 bar two 6 9
6 foo one 7 8
7
df=pd.DataFrame[columns='one','two','three']
for home in city:
adres= home
for a in abc: #abc is pd.Series od names
#here i want to add values - adress and a , but my dataframe have 3 columns, i will use only 2 here
df.loc[len(df)]= [adres, a, np.nan
dataframe包含这种格式的信息:
Type Value
-------------------
catA one
catB two
catA three
我的目标是将dataframe转换成这种格式(Type的值作为列):
catA catB
-----------------
one -
- two
three -
我一直在研究“虚拟变量”,但这不是我所需要的。谁能给我点主意吗?
我用Python编写了一个简单的oop代码,并使用了熊猫。我有两个类,在第一类中,我创建了一个对象,在第二个类中,我将该对象放在dataframe中。我有一个函数set_name(self, name),它可以更改对象的名称。
我的问题是,为什么对象名称在dataframe中保持不变(当我打印dataframe时),而当我只想打印对象时更改?如果我改变了对象的名称,它应该在任何地方都会改变,不管我把对象放在哪里,对吗?
有办法解决这个问题吗?
import pandas as pd
class A:
def __init__(self, name , age):
当从父数据帧中选择子数据帧时,我注意到一些程序员使用.copy()方法复制数据帧。例如,
X = my_dataframe[features_list].copy()
...instead of just
X = my_dataframe[features_list]
他们为什么要复制数据帧?如果我不复制一份会发生什么?
我不得不记录一些包含敏感信息的熊猫数据帧输出。我不希望这些信息记录在日志中,也不想打印在终端上。 我通常编写一个小函数,它可以接受字符串并使用正则表达式对其进行掩码,但我在使用数据帧执行此操作时遇到了问题。有没有什么办法屏蔽数据框中的一列敏感信息,仅仅是为了记录?我在下面尝试的方法更改了数据帧,使列在整个过程中不可用。 def hide_by_pd_df_columns(dataframe,columns,replacement=None):
'''hides/replaces a pandas dataframe column with a replacem
在GitHub for Windows应用程序中,我需要做什么才能跟上对托管在GitHub上的项目或存储库所做的更改?
我很可能不会编辑,但我想知道并合并对项目所做的更改。
当我在桌面上克隆时,使用GitHub for Windows,我拥有的选项之一是“同步分支”,它被定义为“在服务器上共享本地提交并从其他服务器中提取更改”。我要和谁分享我的本地承诺?这是源头吗?还有,谁的变化我是“拉下来”?
GUI中的“同步分支”选项似乎两者兼备(不管我是否愿意)。