在pandas数据帧中,我需要找到任意行中包含零的列,并删除整个列。 例如,如果我的数据帧看起来像这样: A B C D E F G H
0 1 0 1 0 1 1 1 1
1 0 1 1 1 1 0 1 1 我需要删除列A、B、D和F。我知道如何删除这些列,但是以编程方式识别带有零的一列让我摸不着头脑。
我有一个包含许多空值的稀疏Pandas数据帧,我希望对其进行过滤,以便在最终数据集中只保留具有超过10个浮点型条目的行和列。我尝试使用现有的代码片段,但似乎不起作用: df.drop([col for col, val = df.count(axis=1, numeric_only='float') if val < 10], axis=1, inplace=True) 谁能告诉我在我的数据帧中删除稀疏列的最好方法是什么?
我有一个带有“动态”列的Pandas数据框架(这意味着,在从各种数据库检索数据之前,我不知道列名是什么)。
数据帧是一个单行,如下所示:
Make Date Red Blue Green Black Yellow Pink Silver
89 BMW 2016-10-28 300.0 240.0 2.0 500.0 1.0 1.0 750.0
请注意,'89‘是数据帧中的特定行。
我有以下代码:
cars_bar_plot = df_cars.loc
我正在使用2列参数来锁定一个数据帧:如果我这样做了,paises_cpm = df.loc[a]正在工作,但是如果我这样做了,paises_cpm = df.loc[a,b]就会收到一个错误:IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match
import pandas as pd
import time
fecha = time.strftime(str((int(time.strf
因此,我正在尝试创建一个python脚本,该脚本允许我在使用pandas创建的数据帧(masterfile)上执行SQL操作。数据帧从特定文件夹中找到的csv文件中提取其内容。 我能够成功地创建其他所有内容,但我在SQL操作部分遇到了麻烦。我正在尝试使用数据帧作为“数据库”,在这里我将使用我的SQL查询来拉取数据,但是我得到了一个"AttributeError:' dataframe‘object has no attribute 'cursor’“错误。 我没有看到很多pandas.read_sql_query()的例子,所以我很难理解我将如何在其中使用我的数据帧。
我正在尝试做一个简单的调度程序与熊猫的数据。当为数据帧中的特定元素调用pandas.loc函数时,它会输出带有索引的元素。
df.loc[df['days'] == 'tuesday','task']
这是输出
'0 Go for a run'
当我想将输出作为字符串使用时,有没有方法可以删除索引。或者使用不同的函数。我想要的输出只是-
'Go for a run'
这是我试图转换为Pandas的代码:
select
geo,
region,
sum(case when year(txn_date)>=2020 then revenue else 0 end) as ytd_rev,
sum(case when year(txn_date)=2019 then revenue else 0 end) as py_ytd_rev,
sum(profit) as total_profit
from table
group by 1,2
假设输入数据框架的列如下: geo _
输出数据帧中的列: geo \ ytd_rev \##.‘> py_yt
我有一个带有MultiIndex的pandas Series,我想要获得属于MultiIndex的一个级别的整数行号。
例如,如果我有示例数据s
s = pandas.Series([10, 23, 2, 19],
index=pandas.MultiIndex.from_product([['a', 'b'], ['c', 'd']]))
它看起来像这样:
a c 10
d 23
b c 2
d 19
我想要获取与level b对应的行号。因此,在这里,我将获
假设我在Pandas中有一个数据帧:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
'B': 'one one two three two two one three'.split(),
'C': np.arange(8), 'D': np.arange(8)
我正在尝试处理用html(或xml )编写的xls数据。IDK)我试过这样做
df = pandas.read_html(r"filename.xls", skiprows=0)
它不是数据帧,而只是列表。所以我就这么做了
df = df[0]
在这之后,我可以做,
print(df)
结果如下所示
0 1 2
0 name age gender
1 john 18 male
2 ryan 20 male
以前,我用其他xlsx文件做过类似的工作,它们工作得很好,但不能用这个文件。
例如,
for index, row in d
我正在从Pandas切换到Dask,并希望在数据帧上执行条件选择。我想提供一个条件列表,最好是布尔数组/序列,然后得到一个应用了所有这些条件的数据帧。 在Pandas中,我只是做了np.all(BoolSeries1,BoolSeries2,...)并将结果应用于数据帧。 import dask.array as da
import dask.dataframe as dd
import numpy as np
import pandas as pd
df = pd.DataFrame({'A' : np.random.rand(1000) , 'B':
所以我有一个带有y行的x列的Pandas DataFrame。DataFrame中的数据是float64值。我试图计算两列之间的斜率相关性,但是对于单个列的范围(例如,列有25000行,我只想要介于5-10之间的值,这些值恰好在2000-4000行中)。为了做到这一点,我将以下面的psuedocode演示的方式进行迭代:
for i in range(i, len(df['Column 1']))
if df.loc[i, 'Column 1'] <= 10.0 & df.loc[i, 'Column 1'] >= 5
我正在将CSV导入到pandas数据帧中。当我这样做时,我将索引列设置为0,这是列出的索引(0到10)。我收到错误键错误:标签%1不在索引中。
我已经多次检查数据,以确保第一列是数字列表。有什么关于我如何解决这个问题的提示吗?
from __future__ import division
import pandas as pd
import random
import math
#USER VARIABLES
#GAME VARIABLES
Passengers = 500
data = pd.read_csv("Problem2/data.csv", index_