首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

7 个令人惊叹 Python 库

在过去两年里,一直广泛使用Python,过程寻找到令人惊叹库,明显提高效率,增强在数据工程和商业智能项目中表现。...主要GeoNames地理名称数据提取位于此处:http://download.geonames.org/export/dump/ 支持国家/地区: 目前支持近100个国家/地区。...当国家邮政服务开始以兼容许可证发布数据时,将添加新国家/地区。...对许多国家/地区来说,纬度/经度是通过主要geonames数据库搜索邮政编码地名来确定, administrativedivisions和邮政编码数值邻近度是地名消歧因素。...#你只需要在这些城市循环。 我喜欢将以前定义不同位置存储自己文件夹。这是完全可选。以下代码自动设置文件夹结构。

23831

7 个令人惊叹 Python 库

在过去两年里,一直广泛使用Python,过程寻找到令人惊叹库,明显提高效率,增强在数据工程和商业智能项目中表现。...主要GeoNames地理名称数据提取位于此处:http://download.geonames.org/export/dump/ 支持国家/地区: 目前支持近100个国家/地区。...当国家邮政服务开始以兼容许可证发布数据时,将添加新国家/地区。...对许多国家/地区来说,纬度/经度是通过主要geonames数据库搜索邮政编码地名来确定, administrativedivisions和邮政编码数值邻近度是地名消歧因素。...#你只需要在这些城市循环。 我喜欢将以前定义不同位置存储自己文件夹。这是完全可选。以下代码自动设置文件夹结构。

20510
您找到你想要的搜索结果了吗?
是的
没有找到

数据可视化:认识Pandas

'制片国家/地区']) print(df.sort_values(by="上映年份")) #代码运行结果: 电影名称 上映年份 制片国家/地区 207 城市之光 City Lights...', '评价分数', '制片国家/地区']) print(df.sort_values(by=['上映年份', '评价分数'])) #代码运行结果: 电影名称 上映年份 评价分数 制片国家/地区 207...比如,movie.xlsx已经是250 部高分电影数据,我们想知道这些电影都是哪些国家制作,哪些年份上映,我们就可以通过value_counts()方法来统计。...[:10]) #统计制作国家电影数前十国家/地区 print(df['制片国家/地区'].value_counts()[:10]) #代码运行结果: 2010 13 2004 13 1994...而通过对制作国家统计,看出来TOP250部高分电影,有111部是美国制作。数量远高于第二名日本34部。可见电影文化产业,美国发展起步早,制作水平是世界领先水平。

22910

泰迪杯A题通讯产品销售和盈利能力分析一等奖作品

任务 1 数据分析与预测 根据附件“非洲通讯产品销售数据”数据,分别实现以下任务: 任务 1.1 统计各个年度/季度地区国家、服务分类销售额和利润数 据,并计算各国、各服务分类销售额和利润同比增长率...在下面任务不同维度分析,必要时,可以设置选择框,使用联动方式,根据选择框,查看和展示该选择框范围数据和可视化图表。...一等奖作品分享 摘要 进入本世纪以来,我国通讯产品得到了飞速发展,其技术先进,价格便宜,深受世界各国和地区尤其是非洲国家欢迎。某通讯公司非洲多个国家深耕多年,产品与服务遍布整个非洲大陆。...“,”国家“,”服务分类"存在汉字,而逻辑回归只能够处理数值型数据,不能处理文字,sklearn当中,除了专用来处理文字算法,其他算法fit时候全部要求输入数组或矩阵,也不能够导入文字型数据(...充分利用媒体设备,将产品需求量较少产品广播宣传,调查当地用户习惯,有针对性改良不同类型产品地区适应性。非洲东部地区有高销售额和高收益,其他地区应该多向该地区学习。

2.5K10

prophet Seasonality, Holiday Effects, And Regressors季节性,假日效应和回归

二、内置国家假期 可以使用add_country_holidays方法设置内置国家/地区特定假日集合。...可用国家/地区列表以及要使用国家/地区名称可在此链接上找到: https://github.com/dr-prodigy/python-holidays。...Python,大多数假期都是确定性计算,因此可用于任何日期范围; 如果日期超出该国家支持范围,将会发出警告。...R语言中,假日日期是从1995年到2044年计算,并存储 data-raw/generated_holidays.csv。...五、季节性其他因素 某些情况下,季节性可能取决于其他因素,例如每周季节性模式,夏季是不同于一年其余时间,或者每日季节性模式,在周末是不同于工作日。这些类型季节性可以使用条件季节性来建模。

2.5K20

python数据可视化 豆瓣电影top250数据分析

my_wordcloud, interpolation='bilinear') plt.axis('off') plt.savefig('test3.PNG') plt.show() [qoo5j2ug0x.png] 四、国家地区上榜电影数量最多...collections.Counter(sum_area) area_dic = dict(area_count) area_count = [(k, v) for k, v in list(area_dic.items())] # 按国家地区上榜电影数量排序...area_count.sort(key=lambda k: k[1]) # 取国家地区上榜电影数量最多前十 area = [m[0] for m in area_count[-10:]] nums...plt.barh(area, nums, color='red') # 添加描述信息 plt.xlabel('电影数量') plt.title('国家地区上榜电影数量最多Top10') plt.savefig...觉得文章对你有帮助、让你有所收获的话,期待你点赞呀,不足之处,也可以评论区多多指正。 [6zo8f4nr9u.png?

3.3K30

如何用 Python 执行常见 Excel 和 SQL 任务

使用 Python 最大优点之一是能够从网络巨大范围获取数据能力,而不是只能访问手动下载文件。...每个括号内列表都代表了我们 dataframe 一行,每列都以 key 表示:我们正在处理一个国家排名,人均 GDP(以美元表示)及其名称(用「国家」)。...重命名列 有一件你 Python 很快意识到事是,具有某些特殊字符(例如$)名称处理可能变得非常麻烦。...我们将要重命名某些列, Excel ,可以通过单击列名称并键入新名称,SQL,你可以执行 ALTER TABLE 语句或使用 SQL Server sp_rename。...现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。 我们现在可以使用 Pandas group 方法排列按区域分组数据。 ? ?

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

使用 Python 最大优点之一是能够从网络巨大范围获取数据能力,而不是只能访问手动下载文件。...每个括号内列表都代表了我们 dataframe 一行,每列都以 key 表示:我们正在处理一个国家排名,人均 GDP(以美元表示)及其名称(用「国家」)。...04 重命名列 有一件你 Python 很快意识到事是,具有某些特殊字符(例如$)名称处理可能变得非常麻烦。...我们将要重命名某些列, Excel ,可以通过单击列名称并键入新名称,SQL,你可以执行 ALTER TABLE 语句或使用 SQL Server sp_rename。...对于熟悉 SQL join 用户,你可以看到我们正在对原始 dataframe Country 列进行内部连接。 ? 现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。

8.2K20

一起来分析下游戏开发与销售情况!

数据中含有1980-2017年近40年各出版商发行游戏,在这份数据基础上分析一下哪些游戏平台和游戏出版商实力更强?什么游戏类型是更受人们喜爱不同地区游戏销售概况是如何?...简简单单几个步骤就足以得到答案: 附上数据链接: https://www.kaggle.com/gregorut/videogamesales 注意:本文交互模式jupyter完成!...其中read_csv方法能够从csv文件读取数据并保存至DataFrame对象,方法如下 #读取csv文件 df = pd.read_csv('vgsales.csv') #显示文件前5行 df.head...那如果我们想知道各个地区游戏销售情况,该怎么办呢? #查看年份是否有不适合值 df['Year'].value_counts().sort_index() 得到了如下销售情况: ?...这里我们要获取每一年各个地区所有游戏销售额总值,我们就要用到cumsum这个方法——cumsum方法通俗说是一个累加和,注意红框里数据,这里是依据年份将每部游戏销售额相加 #cumsum函数是累加和

70030

Python ,通过列表字典创建 DataFrame 时,若字典 key 顺序不一样以及部分字典缺失某些键,pandas 将如何处理?

pandas 官方文档地址:https://pandas.pydata.org/ Python ,使用 pandas 库通过列表字典(即列表里每个元素是一个字典)创建 DataFrame 时,如果每个字典...缺失值处理:如果某些字典缺少某些键,则相应地,结果 DataFrame 该位置将被填充为 NaN(Not a Number),表示缺失值。...个别字典缺少某些键对应值,在生成 DataFrame 该位置被填补为 NaN。...总而言之,pandas 处理通过列表字典创建 DataFrame 时各个字典键顺序不同以及部分字典缺失某些键时显示出了极高灵活性和容错能力。...希望本博客能够帮助您深入理解 pandas 实际应用如何处理数据不一致性问题。

6300

精选数据集 | 全球死亡率数据集(2015-2021年)

该数据集包含从各种来源收集2015-2021年全因死亡率国家地区数据,见下文。我们目前正在提供89个国家地区数据。...某些情况下,覆盖开始较晚,但我们至少需要完整2019年数据。 只有在数据至少2020年6月之前存在情况下,才包括国家。 我们只收集每周、每月或每季度数据。...每个国家地区最新数据点(周/月/季度)都是初步,需要(有时是大)修改。 我们只提供全因死亡率数字,不按年龄或性别划分。 我们只提供国家地区数据,不按地区或个别城市划分。...将人类死亡率数据库(HMD)短期死亡率波动(STMF)数据集集成到该数据集中。有关年龄和性别的死亡率,请参见STMF数据集;这里我们只提供总数。 不在STMF欧洲国家数据来源于欧盟统计局。...一些国家公布最近几周周报数据明显不完整,时间序列末尾显示为大幅“下挫”。我们省略以下国家数据点:丹麦、芬兰、韩国、美国。请注意,其他一些国家地区也可能报告部分不完整数据。

1.5K30

1985-2020 年阿拉斯加和育空地区按植物功能类型划分模型表层覆盖率

这些地图记录了北极和北方森林生态系统 PFTs 分布广泛变化,例如由于火灾等干扰加剧和气候驱动植被动态而导致苔原灌木扩展。...项目名称北极-北方脆弱性实验 北极-北方脆弱性实验(ABoVE)是美国国家航空航天局(NASA)陆地生态计划一项实地活动,从 2015 年开始阿拉斯加和加拿大西部进行,为期 8 至 10 年。...年份表示估算标称年份,但源年份栅格值可能表示特定像素数据来自不同年份。...由于火灾等干扰加剧以及冻原灌木扩展等气候驱动植被动态变化,北极和北方森林生态系统植物功能类型分布正在发生广泛变化。...根据独立空间阻断测试褶皱预测结果评估模型性能。为进一步了解误差,计算了观测和预测覆盖值平均绝对误差(MAE)、均方根误差(RMSE)、偏差和 R²。

8410

(无聊教程)可视化微软发布2022年度道路数据

数据介绍 Microsoft Maps AI 团队已从 Open Street Maps (OSM) 检测到4780 万公里所有道路和116 万公里缺失道路。...这些新道路是使用 Bing 地图 2020 年至 2022 年期间收集图像检测到,包括来自 Maxar 和空中客车公司来源。...完整数据可以从下列地址下载,当然没有中国数据,所以看看就好 https://github.com/microsoft/RoadDetections 数据年份 道路年份取决于基础图像年份。...分类器过滤掉潜在坏路后,我们重新测量精度并确保发布结果之前它是 95% 由于是神经网络AI提取,所以基本没有什么数据属性可言。...gdal.GDT_Unknown) gdal.VectorTranslate(output_ds, geojson_ds, format='GPKG') output_ds = None 需要注意是第一列为所在地区国家简称

21520

用Python分析一下那些吸粉无数高票房电影

地区呢?...从左至右依次为:排名、电影名字、导演、主演、类型、制片国家、上映年份、豆瓣评分、投票人数、票房 由于位列170电影被删除,无法获取相关信息,就只剩479部电影 ?...,所以将两列提取生成一个新DataFrame对象 ?...从中不难看出美国电影方面的造诣堪称完美,排行榜超九成电影都是由美国制作,同时生产大片都时间长、质量好、评价高,但是也有一些评分比较低电影上榜,这也算是萝卜青菜各有所爱吧 电影上映时间与地区关系...像《复仇者联盟》《星球大战》《速度与激情》这类电影,由于具有极高的人气,所以可能一个系列中有好几部会上榜,自然而然主演影星上榜次数也较多 总结 “票房无法衡量一部电影质量,却代表了这部电影全球范围热度

59410

利用 Pandas transform 和 apply 来处理组级别的丢失数据

虽然 fillna 最简单情况下工作得很好,但只要数据组或数据顺序变得相关,它就会出现问题。本文将讨论解决这些更复杂情况技术。...不幸是,收集数据过程,有些数据丢失了。...下载数据帧数据示例 让我们看看我们每年有多少国家数据。 ?...为了减轻丢失数据影响,我们将执行以下操作: 按国家分组并重新索引到整个日期范围 在对每个国家分组范围之外年份内插和外推 1.按国家分组并重新索引日期范围 # Define helper function...扩展数据帧,所有国家 2005 年到 2018 年间都有数据 2.在对每个国家分组范围之外年份内插和外推 # Define helper function def fill_missing(grp

1.8K10
领券