假设有一个形状为(4000,13)的数据帧。假设数据帧“str_labels”中可能有"|“值。如何通过删除所有包含字符串值"|“的行(全部13列)来对pandas数据帧进行排序。示例: list(dataframe["str_labels"])=["abcd","aaa","op|gg","iku | gv"]
filtered_out = ["abcd", "aaa"] ## example code
dataframe["|" not in d
我有一个带有“动态”列的Pandas数据框架(这意味着,在从各种数据库检索数据之前,我不知道列名是什么)。
数据帧是一个单行,如下所示:
Make Date Red Blue Green Black Yellow Pink Silver
89 BMW 2016-10-28 300.0 240.0 2.0 500.0 1.0 1.0 750.0
请注意,'89‘是数据帧中的特定行。
我有以下代码:
cars_bar_plot = df_cars.loc
我想从pandas dataframe中删除行,该数据帧包含长度大于所需长度的特定列中的字符串。 例如: 输入帧: X Y
0 Hi how are you.
1 An apple
2 glass of water
3 I like to watch movie 现在,假设我想从dataframe中删除包含长度大于或等于4的单词字符串的行。 所需的输出帧必须为: X Y
1 An apple
2 glass of water 当列0中的字数为4和列3中的字数分别为5时,删除列'X‘中值为0、3的行。
我有一个包含许多空值的稀疏Pandas数据帧,我希望对其进行过滤,以便在最终数据集中只保留具有超过10个浮点型条目的行和列。我尝试使用现有的代码片段,但似乎不起作用: df.drop([col for col, val = df.count(axis=1, numeric_only='float') if val < 10], axis=1, inplace=True) 谁能告诉我在我的数据帧中删除稀疏列的最好方法是什么?
我想使用pandas数据帧中的第一列作为行索引,所以我尝试使用来实现,但这样做的副作用是添加了额外的列索引。
(运行选项InteractiveShell.ast_node_interactivity = "all"的jupyter notebook代码):
import pandas as pd
df = pd.DataFrame([[l+r*10 for l in range(1, 5)] for r in range(1, 5)])
df # before
df.set_index(0, inplace=True)
df # after
set_index()之前的
我正在尝试获取'game‘和'sample’数据帧之间的交集,如果这三行匹配的话。数据帧的大小不相等,我不希望一行为了交集而被计算两次。
例如,示例数据帧具有行[0,1,1],[1,1,0],[1,0,1],[0,1,1]
游戏数据帧有行[1,1,0],[1,1,0],[1,0,1],[1,1,1],[1,0,1]。
现在,交叉点数据帧应该具有行[1,1,0],[1,0,1]。
import pandas as pd
import numpy as np
import random
trials = 1000
games = 3
data = pd.DataFrame()
有没有办法在不遍历每一行的情况下从数据帧中执行SQL update-where?我有一个postgresql数据库,要从数据帧更新数据库中的表,我将使用psycopg2并执行以下操作:
con = psycopg2.connect(database='mydb', user='abc', password='xyz')
cur = con.cursor()
for index, row in df.iterrows():
sql = 'update table set column = %s where column = %s&
我正在运行一个模型,该模型将数据输出到多个Pandas框架中,然后将这些帧保存到HDF5文件中。该模型运行数百次,每次在现有HDF5文件的框架中添加新列(多索引)。这是用Pandas merge完成的。由于每次运行的帧都有不同的长度,因此在帧中最终会出现大量的NaN值。
完成足够的模型运行后,如果行或列与出现错误的模型运行相关联,则从框架中删除数据。在这个过程中,新的数据帧被放入一个新的HDF5文件中。下面的伪python演示了这个过程:
with pandas.HDFStore(filename) as store:
# figure out which indices should
我有一个包含多个ID的pandas系列对象。我想通过检查它们的ID是否出现在我的pandas系列对象中来过滤掉其他数据帧的行:
DATA['y'] = DATA['ID'].apply(lambda x: 1 if x in IDs else 0)
我注意到数据中的ID 279779在列'y‘中有'1’,尽管该ID不存在于我的ID系列对象中。我运行了以下代码行:279779 in IDs,它返回True,但以下代码没有打印任何内容:
for id in IDs:
if id == 279779:
print('fo