Python Pandas比较数据集中的属性并计算特定城市的总数

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、、

在Python Pandas中我该怎么做呢？我会在问题2中使用Groupby吗？我不想要代码的答案，只要伪代码或操作的解释就可以了。York, NY 500521Chicago Tribune Chicago, IL 414930 列出修改数据集2中的“CITY”属性中的每个值的操作(按顺序)，以便可以直接将其与数据集1中

浏览 33提问于2018-12-12得票数 2

回答已采纳

2回答

从另一个DataFrame的选定数据创建一个新的DataFrame

、、

我有平均气温的数据，我想选择三个城市并创建三个方框图来比较这些城市之间的温度。为了实现这一点，我创建了一个result DataFrame来存储数据，城市的值应该存储在三列中(每个城市一列)。但是，下面的代码只显示了第一个城市的地块。问题在于DataFrame。分隔的查询正确地提供了一系列值，但当我将其插入result数据<em

浏览 5提问于2021-04-15得票数 1

回答已采纳

1回答

修改代码以循环处理另一个数据集。

、、

我使用haversine_distance函数计算数据集中的坐标到特定坐标之间的距离。['Distance'] = distances_km这成功地在我的数据集中创建了一个列，该列测量从给定点到给定点的距离，如下所示：现在，我想修改这段代码，这样我就不用使用start_lat，start_lon = 40.6976637，-74.1197643了

浏览 30提问于2022-11-10得票数 0

1回答

将数据连接到超集

有两个表格，一个每天收集事实，另一个每月收集同一组属性(例如，区域、城市、技术)。我需要计算超集中的公式在每月按区域、城市或区域+城市+技术计算时，将正确地可视化。在其他bi系统中，首先执行组的，然后执行join，并计算上述公式，从而得到所需的结果。如何在超集中实现类似的结果

浏览 0提问于2021-02-12得票数 1

2回答

遍历Dataframe并计算特定值的单词

、、、、

我有一个Dataframe，有两个这样的列:短语，所以每个短语都有一个特定的类别。我想要做的是遍历Dataframe并计算特定类别的所有单词。例如，让我们说这个类别是新闻。我想找到所有的词组与类别新闻和计数的单词，是使用的总数。谢谢

浏览 10提问于2022-01-23得票数 0

1回答

如何查询GHTorrent(类似SQL的语言)的国家/城市/用户编号/存储库编号？

、

我读了很多关于GitHub数据检索的文档，看到Github用户通过BiGQuery提交/推送数据，但是找不到城市和国家字段，也找不到任何关于这类查询的描述。尽管有信息表明这样的查询在理论上是可能的- https://gist.github.com/kelewis/4bc942f9433c41b1ddb6/。但这需要Azure lake (??)。有没有人知道如何通过/My_ SQL /Pos

浏览 25提问于2020-12-27得票数 1

2回答

SQL聚合分数

、

我正在尝试创建一个具有以下计算量的规范化列：SELECT City AS city_name, ComplaintTypeCity) AS count_cityGROUP BY City, ComplaintType这给了我下表：城

浏览 6提问于2019-10-04得票数 1

回答已采纳

1回答

显示多值参数

、、

如果用户选择"Select All“，而我使用的是在报告顶部显示参数的标准方法(至少据我所知)：而不是“所有”这个词，或者我得到的东西： 01,02,03,04,05,06,07,08,09,10,11,12,14,15,16,17,18,19,20,21,22,25,30,31,98,99有没有更好的方法来处理这件事？

浏览 3提问于2010-08-14得票数 2

回答已采纳

2回答

如何计算Python数据帧中的平均值？

、、、

我的Pandas数据框架有2列用于薪资(金额)和获得特定薪资的员工总数(10名员工获得300美元，20名员工获得200美元和30名员工获得100美元)，我应该计算所有员工的平均薪资。有什么办法吗？我对Python相当陌生，所以任何帮助都将不胜感激！提前谢谢。

浏览 4提问于2020-08-26得票数 0

回答已采纳

2回答

我正在对我的数字数据进行探索性数据分析，我试图运行熊猫分析，但是生成报告结构时出错了。(df)profile.to_file(output_file="mydata.html") 汇总数据集: 99%|███cramers correlationC:\Users\USER\AppData\Local\Programs\Python\Python39\lib\site-packages\<e

浏览 5提问于2021-04-30得票数 4

1回答

SQL如何计算每个有组的客户的总行数？

、

我很难回答这样一个问题：“哪个城市的顾客看电影最多？(根据租来的电影数量)”。另外，我还要计算每个

浏览 0提问于2017-03-17得票数 0

回答已采纳

2回答

如果另一个表中的值与第一个表中的值匹配，则从一个表中选择

、

我有两张桌子，城市和driveRoute。城市具有状态属性和cityCode属性。driveRoute具有起源和目标属性。城市数据如下：因此，我希望得到的结果是: TX \ 15，其中TX是德州(例如)，15是德克萨斯州内的路线数(例如)。我试图通过计算driveRoute具有相同的起源和目的地状态的路由数来获得不同的</

浏览 0提问于2018-12-30得票数 0

回答已采纳

1回答

开始在熊猫上工作，在那里得到更多的爱。

目前，我正在开发NETFLIX的数据集。链接 if val is None: if val == 'None': ret

浏览 1提问于2022-06-10得票数 0

1回答

可以跨数据源进行过滤吗

我看到了下面的链接，说明可以在源之间的一个字段上创建一个筛选器，方法是生成一个计算字段，然后为两个字段分配相同的字段ID，以便进行筛选：具有国家名称和城市名称的One数据集和具有城市名称的1数据集和生成了一个计算</em

浏览 1提问于2021-07-20得票数 1

2回答

Pandas选择和最接近给定数字的行

、

我已经把一个维基百科表格读成了一个数据框架： from unicodedata import normalize 现在，我想从该数据框中选择一个城市子集，这些城市的人口总数与给定数字尽可能接近。我想选择哪些城市的人口加起来刚好超过2200,000居民错误消息： KeyError

浏览 0提问于2020-07-09得票数 1

1回答

有没有办法加快Python中的记录链接，以比较类似的记录？

、

我正在使用Python中的记录链接库来检测几个房地产属性数据集中的重复项，这些属性是每周从几个网站中刮来的。为了比较，我使用了地理坐标、价格和使用lcs方法的描述；描述是一个字符串，在某些记录上可能高达1000个字符，但通常包含300-500个字符。问题是，计算比较需要很长的时间，即使有8个作业(我尝试了更少的内核，甚至更长的时

浏览 5提问于2022-06-08得票数 0

3回答

Pandas中基于行值的数据比较

、、、、

在数据之间没有1:1基数的情况下，使用Pandas比较两个数据集(.csv文件)的最佳方法是什么？举个例子:这是数据集1的一个样本-01 Shirt Red $30一份数据收集的样本-01 Trouser Black $2003 Hat B

浏览 0提问于2018-11-20得票数 0

2回答

熊猫:如何计算一栏对另一栏的百分比？

、、、

我只是试图计算一列的百分比与另一列的总数，但我不知道如何在Pandas中这样做，因此计算被添加到一个新的列中。比方说，为了论证起见，我的数据框架有两个属性：现在，我如何计算出百分比的数的绿色大理石从的大理石总数在潘达斯(绿色大理石

浏览 5提问于2020-12-06得票数 2

回答已采纳

6回答

熊猫中的大而持久的DataFrame

、、

作为SAS的长期用户，我正在尝试切换到python和pandas。使用SAS，我可以将csv文件导入到SAS数据集中，其大小可以和我的硬盘一样大。在pandas中有类似的东西吗？我经常处理大文件，无法访问分布式<e

浏览 6提问于2012-07-24得票数 96

回答已采纳

1回答

如何计算统计量(和、均值、方差等)Tensorflow中的整个数据集

、

在Pandas和Numpy中，计算数据集中每个特征的平均值、总数等似乎相当简单，但我在中找不到任何类似的简单函数/操作。实际上，我发现了，它允许我运行sum进行计算，但对于其他操作(min、max、std等)来说就不那么容易了。所以，我的问题是，有没有一种简单的方法来计算tf.data.Dataset的统计数据？此外，有没有一种方法可以标准化/规范化(整个，即

浏览 0提问于2020-08-24得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云