前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python热门库是哪些呢,爬取下载信息探索探索

Python热门库是哪些呢,爬取下载信息探索探索

作者头像
用户6825444
发布2022-01-07 15:35:29
3440
发布2022-01-07 15:35:29
举报
文章被收录于专栏:木下学Python木下学Python

前言

近期有读者分享了一个网站,可以用来查 Python 第三方库的信息,包含了库的介绍版本,近 30 天总下载量,近 30 天 pip 下载量:

https://www.pyprapi.top/docs

搜索了一下资料 Python 语言有超过12万个第三方库,覆盖信息技术几乎所有领域。

小编自己安装第三方库时,基本用 pip 就可以解决了,但有时候有些库 pip 还真安装不了,就去下载 whl 文件来装。

小编下载 whl 文件都是从下面这个网站下载的,这算比较全的了,包含很多库,基本能找到需要的库:

https://www.lfd.uci.edu/~gohlke/pythonlibs/

从这个网站爬取所有库名,在爬取库近 30 天下载量,描述简介信息。

虽然很多库不知道是干嘛的,没用过,但可以根据数据,分析一下热门的第三方库是哪些,描述简介涉及哪个方向的是比较多的。

数据获取

先从第三方库网站爬取获得所有库名,再爬取每一个库近 30 天下载量,描述信息,最后保存数据,整个逻辑并不难,完整源代码文末获取:

可视化

对近 30 天下载量降序排序,最高的第三方库下载量居然高达 2 亿!

小编查了查,这个库是一个和 web 开发有关的库:

我们直接通过词云图来看看近 30 天第三方库的下载量主要分布:

上面讲的 botocore 是一个 web 相关的库,boto3 也是。

setuptools 是 pip 安装的一个必备模块,大概率是环境出了问题,不能安装包,才先来下这个。

紧接着可以看到 urllib3,requests 这两库,这就比较熟悉了,爬虫方向所使用的,近几年爬虫渐渐走进大众视野,引起了很多人的兴趣。

还有 pandas,numpy 数据处理库,机器学习,大数据喊的最热的这些词,在 Python 处理清洗数据中比较常用的就这两个库。

其他库就不多说了,第三方库实在是太多了,从那个网站上采集到了 1700 多个库名,通过所有描述信息,看看涉及最多的方向是哪些:

io,file 读写文件数据流,看来是比较多的模块都会涉及到的。

image,img 图片图像,各种绘制图表的库,图像处理等,现在出现了很多,如典型的 matplotlib,PIL,seaborn,pyecharts等,可视化数据,图像数据处理也是一个比较热门的方向。

data 可以联想到数据时代,Python 处理采集数据有着一定的优势,所以爬虫相关的 requests,urllib3,处理数据相关的 pandas,numpy 下载量相对较高。

2022年了,祝大家新年快乐,找到自己感兴趣的方向,一路前行~

感兴趣的读者可以继续探索探索噢。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木下学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档