只是一个简单的问题,伙计们,我有一个熊猫数据框架:
In [11]: df = pd.DataFrame([['A', 'B'], ['C', E], ['D', 'C']],columns=['X', 'Y', 'Z'])
In [12]: df
Out[12]:
X Y Z
0 A B D
1 C E C
如何转换为降低df的所有元素
Out[12]:
X Y Z
0 a b d
1 c e c
我查看了,并
我有一个这样的数据帧:
df = pd.DataFrame({'c1': list('aba'), 'c2': list('aaa'), 'ignore_me': list('bbb'), 'c3': list('baa')})
c1 c2 ignore_me c3
0 a a b b
1 b a b a
2 a a b a
和一本字典,看起来像这样
d = {'a': "
如果我想使用熊猫更改数据帧中的变量名,可以不使用pandas.df.rename()函数,而是使用applymap()来更改名称吗?
Registrar Enrolment Agency State District Sub District Pin Code Gender
Allahabad Bank Tera Software Ltd Jharkhand Ranchi Namkum 834003 M
Allahabad Bank Tera Software Ltd Jharkhand Ranchi Ranchi 834004
我有一个由单元格组成的数据帧。当我explode它的时候,我遇到了问题。我知道列表是作为str类型而不是object类型存储在单元格中的。我的代码: xdf = pd.DataFrame({'A':[str([1,2])],'B':[str([10,20])]})
xdf
A B
0 [1, 2] [10, 20]
xdf.apply(pd.Series.explode)
A B
0 [1, 2] [10, 20] 所需输出: xdf =
A B
0 1 10
0
我正在尝试使用pandas dataframe和Python将数据填充到Excel工作表中,使用下面的代码片段,但单元格没有获得适当的背景色。
dfList = []
def color_cells(val):
print(val,type(val))
if val < 0:
return ['background-color: red']
else:
return ['background-color: green']
for index in args.indices:
indexDF
如何在基于ID的数据帧中忽略null和None值,并对数据进行帧设置。
id A B C
A [] [] []
A [aaaa] None []
A [] [bbbb] None
A [] [] [ccccc]
A None [] []
B [] [] [zzzz]
B [] None []
B [xxxx] None None
B [] [] []
B none [yyyy] No
我有以下使用Pandas生成空DataFrame的脚本:
import pandas as pd
import datetime
#Creating a list of row headers with dates.
start=datetime.date(2017,3,27)
end=datetime.date.today() - datetime.timedelta(days=1)
row_dates=[x.strftime('%m/%d/%Y') for x in pd.bdate_range(start,end).tolist()]
identifiers=['
我目前正在清理一个数据帧,并且遇到了问题,因为它们都是int和str的混合,但我正在尝试将它们全部转换为浮点数。数据帧都是数字,以及一些带有'?‘的条目。我试图用'0‘浮点数替换的字符串。我该怎么做呢? # Load the data from the file
df = pd.read_csv('processed.state.csv')
df.apply(pd.to_numeric) 生成错误: Unable to parse string "?“在位置165
我有一个用True和False值填充的数据帧,我想从其中获得一个数据帧,其中True替换为1,False替换为np.NaN。我尝试过使用dataframe.replace,但它给出了一个全为True的数据帧。有没有一种不使用for循环和if循环的方法?
例如,这是我的dataframe,T代表True,F代表False (不是字符串'T‘和'F';对不起,我不知道如何在wiki中格式化一个间隔良好的表):
2008-01-02 16:00:00 T T F
2008-01-03 16:00:00 T T T
2008-01-04 16:00:00T T T F
2008
我将此表作为输入,并希望在将其转换为数据帧之前将标题的名称添加到其相应的单元格中 ? 在将表转换为数据帧之后,我正在生成关联规则,每个规则都不清楚它是否属于哪个前件/后件。 我想要的表的第一列的示例: Age
Age = 45
Age = 30
Age = 45
Age = 80 。。对于其余列,依此类推。访问和重写每一列的最佳方式是什么?在生成关联规则后引用我的值,除了在每个单元格中添加标题名称之外,还有更好的解决方案吗?
假设我有两个数据帧:pd1和pd2
pd1 =
A B C
1 hello foo hello
2 foo bar hello
3 world bar world
4 world bar world
和
pd2 =
A B C
1 8 0 3
2 8 5 2
3 4 7 0
4 4 1 3
假设我想做一些事情,比如用下面的结果创建第三个dataframe
A B C
1 hello;8 foo;0 hello;3
2 fo
我想将方法pd.Series.str.join()应用于我的整个数据帧
A B
[foo,bar] [1,2]
[bar,foo] [3,4]
所需输出:
A B
foobar 12
barfoo 34
现在,我使用了一个相当慢的方法:a = [df[x].str.join('') for x in df.columns]
我试过了
df.apply(pd.Series.str.join)
和
df.agg(pd.Series.str.join)
和
df.applymap(str.join)
但它们似乎都不起作用。对于这个问题的扩展,我如何有效地将级
给定数据为
In [403]: data=pd.DataFrame(
...: {
...: 'A':['hello there', 1],
...: 'B':['something', 44],
...: })
In [404]: data
Out[404]:
A B
0 hello there something
1 1 44
我希望能够做一些类似以下的事情
pd.set_output_width(4
我定义了以下函数:
def clearString(myString):
forbidden = r'/\:*?"<>|'
for character in forbidden:
if character in myString:
myString = myString.replace(character,'')
return myString
若要删除文件名中不需要的字符,请执行以下操作。我有一个列中有书名的数据框架,我试图将函数应用到所有的字符串中,清除它们,但是一直无法,我一
我有一个包含许多列的dataframe,特别是包含数组值的列,如下所示:
Name City Details
Nicolas Paris [1 5 3 2]
Adam Rome [5 3 45 0]
我尝试将Details列与标量相乘,如
df_results.loc[:,'Values'] = df_results.loc[:,'Values'].mul(5)
# or like that
df_results.loc[:,'Values'] = df_results['Values'] * 5
但是我得到