想知道当列类型是分类的(特别是h2o enum类型)时,在h2o dataframe GroupBy对象中求和列时会发生什么。
将pandas数据帧转换为H2o数据帧。然后,我按某一列对行进行分组,并对其他列求和。
location_id price store
------------------
1 10 JCP
1 15 SBUX
3 20 HOL
then after grouping and summing; df.group_by('location_id').sum(['
我有99个人的年收入数据:
import pandas, random
incomes = pandas.DataFrame({'income':[round(random.triangular(20,80,200),0) for i in range(99)]})
如何:
将他们分成3个分位数,“贫穷”、“中等”、“富有”,每个分位数为的平均收入。
抱歉,听起来像个新手的问题。我在学习。谢谢!
我有一个带有字符串列和浮动列的熊猫DataFrame,我想使用drop_duplicates删除重复的列。有些重复项并不完全相同,因为低小数位有一些细微的差异。如何以较低的精度删除副本?
示例:
import pandas as pd
df = pd.DataFrame.from_dict({'text': ['aaa','aaa','aaa','bb'], 'result': [1.000001,1.000000,2,2]})
df
result text
0 1.000001 aa
我有一个dataframe列,它是一组按降序排列的数字,我需要将最低的%10分配给一个新的dataframe。但我找不到办法提取最低的%10。谢谢。
我尝试过的第一个函数是numpy的percentile函数。
import numpy as np
import pandas as pd
df['Column']` #which has 2400 number
array1 = np.array(df['Column'])
np.percentile(array1,10)` #gave me the variable which is the %10 (
我刚开始用Pandas做我的分析工作。
我在Pandas中有一个有超过200万行的dataframe,假设它被称为DF。我需要创建一个变量,显示一个名为“总记录”的列的总和,但按年将其分开,因此,假设2017年为一个变量,2018年为另一个变量,2019年为另一个变量。问题是,我的DATE列的格式如下: 1/20/2018是否有类似于SQL语法的内容:
Select Sum("Total Records")
From DF
Where date like '%2018';
我曾经尝试使用df.query('date == 2018')'
我在python中有一个pandas Dataframe,它有一个名为"Description“的列,其中包含一组由"\n”分隔的文本元素。我想通过拆分文本元素在相同的Dataframe中创建新列。例如,我有: Description
'\nA: Elephant\nB: Cats\nC:Dog' 我想用关联的元素获得相应的列数,如下所示: Description A B C
'\nA: Elephant\nB: Cats\nC:Dog' Elephant
我正试图将Pandas DataFrame的一个元组转换为字典,因为我需要dict稍后调用API。我有一个完整的Dataframe,从它迭代一个for循环来获取其中的所有数据。这是代码
df = ....Dataframe definition and retriving
for item in df.itertuples():
print(item.to_dict)
但是出现以下错误:AttributeError: 'Pandas' object has no attribute 'to_dict'
我
我有一个像这样的熊猫数据帧:
year week city avg_rank
0 2016 52 Paris 1
1 2016 52 Gif-sur-Yvette 2
2 2016 52 Paris 1
3 2017 1 Paris 4
4 2016 52 Paris 3
5 2016 52 Paris
我有一个dataframe,我想按一列(dadate)分组,然后查询另一列(Place),只计算那些值为1的数据。
Leaguedata.groupby(['dadate']).query('Place == "1"').Place.count()`
上面就是我所厌倦的错误"'DataFrameGroupBy‘object has no attribute 'query'“
我有一个熊猫数据,它只包含一个列,其中包含一个字符串。我想要向每一行应用一个函数,该函数将将字符串按句子拆分,并将该行替换为从函数生成的行。
示例dataframe:
import pandas as pd
df = pd.DataFrame(["A sentence. Another sentence. More sentences here.", "Another line of text"])
df.head()输出
0
0 A sentence. An
当我尝试按特定列进行groupby和sum by dataframe时,我会得到以下错误。
ValueError: Grouper for '<class 'pandas.core.frame.DataFrame'>' not 1-dimensional
我检查了其他解决方案,这不是双列名称标题问题。
请参阅下面的df3,除最后两列外,我希望对所有列进行分组,我想要sum()。
dfs head显示,如果我只是按列名称分组,它可以正常工作,但不适用于iloc,因为我知道iloc是我想要分组的正确公式。
我需要使用ILOC作为最终的dataframe将
我们有以下Pandas Dataframe ? 所需输出: ? 我想做逗号分隔的列,按data列分组,按order列排序 我尝试了下面的代码,但它自己订购。 data= (df['section'].str.split(', ')
.groupby(df['data'])
.agg(lambda x: ', '.join(set(y for z in x for y in z)))
.reset_i
我有一些地址数据,比如:
Address
Buffalo, NY, 14201
Stackoverflow Street, New York, NY, 9999
我想把它们分成几个栏,比如:
Street City State Zip
NaN Buffalo NY 14201
StackOverflow Street New York NY 99999
本质上,我希望在结果的每一列中将字符串转换为1。
使用Pandas,我知道我可以拆分列如下:
import pandas as
我有一个pandas数据框,它的一个列包含一些字符串。我想根据字数将该列拆分成未知数量的列。 假设我有DataFrame df: Index Text
0 He codes
1 He codes well in python
2 Python is great language
3 Pandas package is very handy 现在,我想将text列划分为多个列,每个列包含2个单词。 Index 0 1 2
0