我有一只熊猫df。
+----------+------------+-------------+-----+--+
| City | First_name | Last_name | Age | |
+----------+------------+-------------+-----+--+
| London | Han | Solo | 34 | |
| Paris | Luke | Skywalker | 30 | |
| New York | Leia | Organa | 30 |
我在一个项目中使用pandas,该项目使用一个包含21列和近11,000行的数据集。
我使用以下代码创建了一个名为name_ten_plus的新变量,该变量显示过滤的列name的计数大于或等于10:
name_ten_plus = df_name_data['name'].value_counts()[df_name_data['name'].value_counts() >= 10]
使用print(name_ten_plus),它显示了至少出现十次的120个name值。print函数产生以下结果(例如):
Mike M 22
John J
我有一个大数据集。是关于新闻阅读的。我在试着清理它。我创建了一个城市清单,我想保留(这个集合包含了所有的城市)。如何根据该清单删除行?例如,我有一个清单(作为一个列表),其中包含了所有的法国城市。我怎么才能放弃其他城市呢?
要描绘数据帧(我有1.5m行):
City Age
0 Paris 25-34
1 Lyon 45-54
2 Kiev 35-44
3 Berlin 25-34
4 New York 25-34
5 Paris 65+
6 Toulouse 35-44
7 Nice
我有一个数据集,其中有一个类别字段,“城市”和2个指标,年龄和体重。我想用一个循环为每个城市绘制一个散点图。但是,我很难将我需要的组和循环合并到一个语句中。如果我只使用一个for循环,我就会得到每个记录的图表,如果我按每个记录分组,我就会得到正确的图表数,但是没有值。
下面是我的代码,它只使用注释掉的for循环和我的组:
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
d = { 'City': pd.Series(['London','New York
想要将dfs“源”中存在的数据与“索引”号与dfs“目标”中的数据进行比较,如果在目标dfs..blank中没有找到搜索到的索引,则必须在目标表中使用与源中给定的相同索引键打印行。是实现无循环的任何其他方法,因为我需要比较500,000条记录的数据集。 下面是源数据帧、目标数据帧和预期数据帧。源数据有索引号= 3的记录,而as目标没有索引号= 3的记录。 我想用与源文件相同的索引号打印空白行。 来源: Index Employee ID Employee Name Age City Country
1 5678 John 30 New york
在熊猫中,我想按两栏分组,然后做一次计数。在此之后,我想删除我分组的列,并计算计数的平均值。我知道如何在sql中轻松地做到这一点,但是在Pandas中遇到了一些问题。我不能删除我以前分组的一列。有人知道如何做得好吗?
(只要关心最终结果,如果有更好的结果,程序就不必是这样的)
例:
Name, City
Anna, New York
Carl, New York
Carl, New York
Steven, London
Carl, London
Anna, Paris
Carl, Paris
Carl, Paris
按“名称”和“城市”分组,然后计数:
Name, City, Count
A