下面是组成一个包含两列的pandas数据帧的代码,一列名为data,另一列名为hours。data列是从-150到250的随机整数。hours列是从.5到15.5.的随机浮点数。
import random
import numpy as np
import pandas as pd
data = np.random.randint(-150,250,size=200)
df = pd.DataFrame(data, columns=['Data'])
#generate random floats for df2
randomFloatList = []
# Set a
来自R,我试着让我的头为熊猫数据切片整数。令我困惑的是,使用相同的整数/切片表达式对行和列进行不同的切片行为。
import pandas as pd
x = pd.DataFrame({'a': range(0,6),
'b': range(7,13),
'c': range(14, 20)})
x.ix[0:2, 0:2] # Why 3 x 2 and not 3 x 3 or 2 x 2?
a b
0 0 7
1 1 8
2 2 9
我
我想根据一个DataFrame检查从Pandas DataFrame中删除一个行子集。
初级DataFrame
>>> df
name day fruit foobar
0 Tim 1 Apple 0
1 Tim 1 Apple 1
2 Tim 2 Apple 2
3 Anna 1 Banana 3
4 Anna 1 Strawberry 4
5 Bob 1 Strawberry
在清理时间序列的Pandas Dataframe之前,我想删除顶部某些列中包含NaN的行。
我想遍历数据帧的开头,删除满足条件where column为NaN的行。我下面的数据框叫做“列车”,包含两列-“日期”和“最高温度(摄氏度)”。我将日期设置为索引。最初的20个奇数行包含‘最高温度(摄氏度)’中的NaN。
#Drop NaN values at start of dataframe
for date,row in train.iterrows():
print(date)
if train.loc[date,'Maximum temperature (Degree C)
我正在尝试将所有原始数据(csv文件)导入到一个DataFrame中,由于原始数据文件有一些无用的行,我喜欢通过"drop“删除它们,但是第一列的行是一个空白单元格。我无法删除它,而且dataframe无法识别该列。
下面是我的代码:
import pandas as pd
import numpy as np
import glob
import os
#Determine file path for index weighting files
pathwgt=r'//10.27.36.181/etf/Bill/Quant/AxJ_Weight'
filena
假设有一个形状为(4000,13)的数据帧。假设数据帧“str_labels”中可能有"|“值。如何通过删除所有包含字符串值"|“的行(全部13列)来对pandas数据帧进行排序。示例: list(dataframe["str_labels"])=["abcd","aaa","op|gg","iku | gv"]
filtered_out = ["abcd", "aaa"] ## example code
dataframe["|" not in d
假设我想在DataFrame中设置一个列值。
当我有标准整数索引:时,它可以工作。
df.loc[14:, 'avg_gain'] = 5
但是当我有一个DatetimeIndex
df.set_index(keys=['ts'], inplace=True)
(或另一个索引,即非整数),它将产生
TypeError: cannot do slice indexing on <class 'pandas.core.indexes.datetimes.DatetimeIndex'> with these indexers [14] of
我想根据列的选择从现有的dataframe创建视图或数据格式。
例如,我希望从dataframe df2创建一个dataframe df1,该df1保存除其中两个列之外的所有列。我试着做了以下几件事,但都没成功:
import numpy as np
import pandas as pd
# Create a dataframe with columns A,B,C and D
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))
# Try to create a second datafram
for file in all_files:
df = pd.read_excel(file,sheet_name='Application')
new_df=df.iloc[2:4,] 在上面的代码行之后,我希望将数据帧"new_df“转换为工作表,以取消合并excel工作表中的列。我尝试的是:根据https://openpyxl.readthedocs.io/en/stable/api/openpyxl.utils.dataframe.html的数据框,但我得到了一个错误消息:“属性错误:模块'openpyxl.utils‘没有'd
我正在尝试使用Pandas解决以下问题:
DataFrame 1:
Apple Banana Orange
Orange Banana Apple
Kiwi Lime Apple
Banana Apple Orange
DataFrame 2:
Orange Banana Apple
Apple Banana Orange
Apple Orange Apple
Kiwi Apple Apple
功能:
DataFrame 1 - DataFrame 2
输出:
Kiwi Lime Apple
Banana Apple Orange
本质上,我在处理多列中的分类变量