首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

世界人口数据分析与探索

countries_df.sample(2) 获取基本信息 countries_df.info() 通过info()可以看出 从输出结果来看,数据框包含: country: 字符串类型,包含...sns 土地面积分析 创建一个条形图,图显示了国家土地面积分布 fig=px.bar(countries_df.sort_values(by='land_area',ascending=False...region=list(countries_df['region'].unique()) region 创建一个数据框 x,通过迭代每个地区,选择每个地区土地面积最大国家,并将这些信息存储在...年和2023年的人口比较,我们可以看到中国和印度1950年以来人口最多国家 计算从1950年到2023年人口变化百分比,并创建一个显示前20个国家变化百分比条形图。...y 数据框,通过迭代每个地区,选择每个地区生育率最高国家,并将这些信息存储在 y 中。

12110

用Python绘制地理图

当您数据包含地理信息时,丰富地图可视化可以为您理解数据和解释分析结果最终用户提供重要价值。 ? Plotly Plotly一个著名库,用于在Python中创建交互式绘图和仪表板。...Choropleth地图 Choropleth地图流行主题地图,用于通过各种阴影图案或预定地理区域(即国家/地区)上符号表示统计数据。它们擅长利用数据轻松表示整个区域所需测量可变性。...这提供了一种可视化地理区域内值方法,值可以显示所显示位置变化或模式。 在Python中使用Choropleth 在这里,我们将使用 2014年全球不同国家/地区电力消耗数据集。...colorscale ='Viridis':显示一个颜色图(f或更多颜色比例,请参阅 此处)。 location = df ['Country']:添加所有国家/地区列表。...在Python中使用密度图 在这里,我们将使用世界范围 地震及其震级数据集。 好,让我们开始吧。 导入库 ? 创建/解释我们DataFrame ? ?

2.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

如何用 Python 执行常见 Excel 和 SQL 任务

每个括号内列表都代表了我们 dataframe一行,每都以 key 表示:我们正在处理一个国家排名,人均 GDP(以美元表示)及其名称(用「国家」)。...我们将使用正则表达式来替换 gdppercapita 逗号,以便我们可以更容易地使用。 ? re.sub 方法本质上使用空格替换逗号。以下教程详细介绍了 re库各个方法。...我们为一个 dataframe 分配一个布尔索引过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 dataframe」。现在我们可以显示gdp50000。 ?...有12个国家 GDP 超过 50000! 选择属于以 s 开头国家行。 现在可以显示一个 dataframe,其中只包含以 s 开头国家。...幸运,使用 Pandas 中 drop 方法,你可以轻松地删除几列。 ? ? 现在我们可以看到,人均 GDP 根据世界不同地区而不同。我们有一个干净包含我们想要数据表。

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

我们将使用正则表达式来替换 gdp_per_capita 逗号,以便我们可以更容易地使用。 ? re.sub 方法本质上使用空格替换逗号。以下详细介绍了 re库 各个方法。...我们为一个 dataframe 分配一个布尔索引过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 dataframe」。现在我们可以显示gdp50000。 ?...有12个国家 GDP 超过 50000! 选择属于以 s 开头国家行。 现在可以显示一个 dataframe,其中只包含以 s 开头国家。...对于熟悉 SQL join 用户,你可以看到我们正在对原始 dataframe Country 进行内部连接。 ? 现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。...现在我们可以看到,人均 GDP 根据世界不同地区而不同。我们有一个干净包含我们想要数据表。

8.2K20

使用Pandas melt()重塑DataFrame

重塑 DataFrame 数据科学中一项重要且必不可少技能。在本文中,我们将探讨 Pandas Melt() 以及如何使用它进行数据处理。...最简单melt 最简单melt()不需要任何参数,它将所有变成行(显示为变量)并在值中列出所有关联值。...换句话说,我们将所有日期转换为值。使用“省/州”、“国家/地区”、“纬度”、“经度”作为标识符变量。我们稍后将它们进行合并。...所有这些都按日期和国家/地区排序,因为原始数据已经按国家/地区排序,并且日期已经按 ASC 顺序排列。...它非常方便,数据预处理和探索性数据分析过程中最受欢迎方法之一。 重塑数据数据科学中一项重要且必不可少技能。希望你喜欢这篇文章并学到一些有用东西。

2.7K10

数据分析从零开始实战 | 基础篇(四)

理解 字符串或编译正则表达式,可选 包含与此正则表达式或字符串匹配文本一组表将返回。 除非HTML非常简单,否则您可能需要在此处传递一个非空字符串。...理解 少用,默认值为0,表示删除包含缺少值行;值为1,表示删除包含缺少值。...理解 简单点说,就是替换NA(空值)值。如果直接给值,表示全部替换; 如果字典: {列名:替换值} 表示替换掉包含所有空值。...pad / ffill:按检索,将最后一次不为空值赋给下一个空值。 backfill / bfill:按检索,将下一个不为空值赋给空值。...上面我们已经拿到了2019富豪榜(60亿美元以上数据,包含排名、姓名、财富数额、财富来源、国家这些信息,明确数据属性后,我们就一下我们能从那些方面去分析那些问题?

1.3K20

用 GeoPandas 绘制超高颜值数据地图

GeoDataFrame包含一个或多个GeoSeries(延伸PandasSeries)每个都包含一个不同几何形状投影(GeoSeries.crs)。...虽然GeoDataFrame可以有多个GeoSeries,但其中只有一个活动几何图形,即所有几何操作都在列上。 在下一节中,我们将一起学习如何使用一些常见函数,如边界、质心和最重要绘图方法。...团队数据集包含团队名称、项目、NOC(国家/地区)和事件。在本练习中,我们将仅使用 NOC 和 项目 。...▲ df_world df_world 类型 GeoDataFrame 与大陆(国家名称和几何国家地区)。...为此,首先创建一个包含参与最少国家数据集,然后将此数据集 df_teams_least_participated_disciplines 和 df_world 合并,然后计算质心。

4.8K21

数据可视化:认识Pandas

Pandas数据结构 Series 在Pandas中,最常用就是数据结构就是Series和DataFrame。Series带标签一维数组,可以储存数字、字符串等常见对象。...: a对象名称是:num DataFrame DataFrame由多种类型构成二维标签数据结构,可以理解做为Excel表格或者数据库中表。...长度不可改变,但是DataFrame里就可以插入。...[3, '电影名称']) # 获取index2 ,第2内容 print(df.iat[2, 1]) #代码运行结果: 无间道 無間道 2009 在选择或者查询数据时候,肯定会带又一些条件,这时候我们可以直接选择某一个...[:10]) #统计制作国家电影数前十国家/地区 print(df['制片国家/地区'].value_counts()[:10]) #代码运行结果: 2010 13 2004 13 1994

22010

盘一盘 Python 系列特别篇 - 实战正则表达式

我们采用冠肺炎数据举例,网址如下: https://www.worldometers.info/coronavirus/ 浏览网页后,我们获取下图表格数据。 ?...但是这个字符串太长了,无法找到从 info 字符串里找到上面 Table 源代码所在地方。...返回结果一个包含 128 个元素列表(表示这个 Table 有 128 行),接下来就需要把 Table 每一行元素一一取出。...第三步 - 获取每行字符串各种信息 我们来看看表格,发现所有行分三种模式: 第一行:都是粗体字,而且分两行写 中间行:第一个字符串,后面都是数字 最后一行:第一个字符串,后面都是数字 ?...结果无敌难看,有两点要改进: 把第一栏每个国家地区名称当成行标签(index) 把第一行标题当成标签(columns) 先搞定行标签。 df = df.set_index(0)df ?

68170

prophet Seasonality, Holiday Effects, And Regressors季节性,假日效应和回归

还可以包含一个prior_scale ,以便为每个假日分别设置先前比例,如下所述。...在这里,我们创建一个dataframe,其中包括Peyton Manning所有季后赛出场日期: # Python playoffs = pd.DataFrame({ 'holiday': 'playoff...这意味着超级碗效应将在季后赛效应之外额外叠加。 创建dataframe后,通过使用holidays参数传递假日效应,将其包含在预测中。...通过country_name指定国家/地区名称,然后在上述holidays 参数指定假日外,将包含国家主要假日: # Python m = Prophet(holidays=holidays) m.add_country_holidays...有一个参数seasonality_prior_scale可以类似地调整季节性模型拟合数据程度。 可以在假期dataframe包含prior_scale来设置先验scales。

2.4K20

快速入门Tableau系列 | Chapter09【计算字段与表计算:粒度、聚合与比率】

②添加详细信息可以使粒度浓度增加:国家地区->详细信息 ? ③显示每一个数据值:分析->取消聚合度量 ? 2、聚合 聚合分为度量集合和维度聚合,常用为度量集合。...创建详细级别表达式需要两步: ①汇总每一个订单ID利润:创建订单利润 ②对每个国家/地区所有的值取一个平均 ? ③双击国家/地区,订单利润->>颜色和标签 ?...如果这方面不懂,你可以这样理解:之前产品维度,计算各地区利润平均;后来是以订单维度;因为计算平均值,两者分母不同(产品情况下分母会大一些,所以产品维度计算结果偏小) ?...如果不能理解上面的话,也可以这样理解: ①FIXED不管订单是不是同一个国家,INCLUDE会单独计算同一个订单不同国家。...②FIXED忽略分类对总订单求和,INCLUDE对每个子类别包含订单求和,同时INCLUDE子类别全累加等于订单总额。

2K10

【重磅来袭】在Power BI 中使用Python(4)——PQ数据导出&写回SQL

各位小伙伴们,大家好,学谦,咱们又见面了。...但是有一个大BUG一点小问题: 因为全球只有200左右个国家地区,country层面的数据应该只有200左右。但是,习惯性地瞥了一眼MySQL右下角,发现: ?...难道最近国际局势变化这么大,已经有567个国家地区了?不可能吧。抓紧查询一下,发现果然有问题: ? 全球每一个国家地区数据都显示了三次,567/3=189,这还差不多。...我们看一下数据,有一“lastupdated”,时间格式,也就是查询时间,由于我们只关心日期数据,因此只取出日期就可以。...MySQL数据库表中初始有378条数据(因为包含了3月27日和3月28日两天数据,共189个国家地区数据),运行代码后,仍然378条,之前已有的3月28日数据被删除,然后添加了刚刚查询到最新数据

4K41

Julia中数据分析入门

第四个也是最后一个步骤将CSV文件读入一个名为“df”DataFrame中。...首先,我们使用groupby函数按国家分割数据。然后我们对每组(即每个国家)所有日期应用一个求和函数,因此我们需要排除第一国家/地区”。最后,我们将结果合并到一个df中。...在一个图中绘制多个国家时间序列非常简单。首先创建基本块,并为每个国家添加一层。...在我们最后一个图中,我们将绘制美国每天病例。要做到这一点,我们必须计算连续天数之间差值。因此,对于时间序列第一天,这个值将不可用。...两者都是开源喜欢Julia原因高性能以及它与其他编程语言(如Python)互操作性。喜欢Python地方在于它庞大包集合和庞大在线社区。

2.7K20

在测试自动化中使用Java枚举

但是,创建多个实体将意味着创建几个仅具有少量属性且没有行为或行为最少对象。最小行为转化为少量方法。基本上,对于您需要每个实体,都必须创建一个对象。那将是浪费。...在本文中,举例说明Enums用法,枚举具有多个属性和一个表示国家构造函数。您可以在本文末尾找到GitHub链接,以链接到此处示例所有代码。有关枚举是什么信息,请参考官方文档。...请记住,我们将使用Selenium读取网页中值,并将它们作为String返回,我们可以创建一个预期String国家值列表。首先,创建列表并向其中添加第一个元素,它是一个字符串。...因为JavaScript在从国家/地区下拉列表中选择一个国家/地区后将信息加载到城市/下拉菜单中一种,所以测试将:选择每个国家/地区,并针对每个选定国家/地区检查城市下拉列表。...为每个国家/地区从头开始创建预期和实际城市列表。它们仅包含与该国家/地区对应信息。

2.7K20

在测试自动化中使用Java枚举

但是,创建多个实体将意味着创建几个仅具有少量属性且没有行为或行为最少对象。最小行为转化为少量方法。基本上,对于您需要每个实体,都必须创建一个对象。那将是浪费。...在本文中,举例说明Enums用法,枚举具有多个属性和一个表示国家构造函数。您可以在本文末尾找到GitHub链接,以链接到此处示例所有代码。有关枚举是什么信息,请参考官方文档。...请记住,我们将使用Selenium读取网页中值,并将它们作为String返回,我们可以创建一个预期String国家值列表。首先,创建列表并向其中添加第一个元素,它是一个字符串。...因为JavaScript在从国家/地区下拉列表中选择一个国家/地区后将信息加载到城市/下拉菜单中一种,所以测试将:选择每个国家/地区,并针对每个选定国家/地区检查城市下拉列表。...为每个国家/地区从头开始创建预期和实际城市列表。它们仅包含与该国家/地区对应信息。

3.2K10

泰迪杯A题通讯产品销售和盈利能力分析一等奖作品

针对任务 1,报告中应包含但不限于如下要点: (1) 任务 1.1 需要展示 2020 年年度销售额前 3 名国家及其年增长率。 (2) 任务 1.2 需要展示各地区有关服务分类利润数据。...True)[0] year 输出为: 备注:上面代码中对时间数据进行处理,用时间类型会更好一些,所以转变成字符串方式未必最佳 year_data = salesData.loc[:, ["国家.../各地区国家有关服务分类销售额和利润数据.csv") a 输出为: 1.3.1统计各个销售经理成交合同数和成交率 salespersonData 输出为: 通过对”销售经理“进行分组,...我们可以通过销售经理在某地区某日期成就率,求出时销售经理总销售合同即以成交合同和非成交合同,再通过成交合同比上总合同数求出经理成交率: job3 = salespersonData.loc...solver仅能够使用求解方式”liblinear“和”sage“ C:C正则化强度倒数,必须一个大于0浮点数,不填写默认1.0,即默认正则化与损失函数比值1:1,C越小,损失函数会越小

2.5K10

如何编写SQL查询

一个常见业务问题可能:“每个地区总人口是多少?”鉴于 regions 表没有包含信息,答案只能通过计算每个地区每个国家/地区 population 总和来提供。...但是,查询不能仅仅将 196 行放入七行;它需要根据属于该地区国家/地区的人口计算每个地区总人口。...此查询显示了其他一些有趣内容。尽管在 regions 表中包含七个地区,但此查询只产生了六行。这是因为存在一个地区“南极洲”,但在 countries 表中没有 region_id 国家。...要执行此操作,请根据所有行唯一第一个字母值创建与组一样多组,方法使用 SUBSTR() 函数,然后计算属于组或类别中行: SQL> SELECT SUBSTR(name,1,1), COUNT...到目前为止,未定义行排序已经奏效,除了“每个第一个字母国家/地区”之外。

8610

什么机器学习中类别数据转换?

构造电影数据集 这里用Pythonpandas库构造了DataFrame数据框,pandas是非常有用数据处理工具,各种逆天接口让你爽翻。...) Movies 运行后得到结果: 可以看到,数据集包含3个标称特征(类型、地区、适宜儿童),1个有序特征(评星),1个数值特征(时长)。...这不是我们要目的,最优操作,能判别出非此即彼,某电影要么欧美片要么不是欧美片,要么内陆片要么不是内陆片。。。。对每种地区进行判断,只有两种结果,和不是。 解决问题方法独热编码技术。...即创建一个虚拟特征,虚拟特征每一各代表标称数据一个值。 把‘地区’这1裂变成4: 1代表电影属于该地区,0代表不属于该地区。 这就是独热编码,这样表示有利于分类器更好运算。...,0代表否,1代表 还可以用pandas(神器)中get_dummies方法实现独热编码技术,方法只对字符串列进行转换,数值保持不变。

84620
领券