首页
学习
活动
专区
工具
TVP
发布

Python爬虫与数据分析

专栏作者
86
文章
143053
阅读量
33
订阅数
FreeOpenWrite 更新记录
FreeOpenWrite 项目地址 gitee : https://gitee.com/msandrew/free-open-write github: https://github.com/AndrewAndrea/FreeOpenWrite 2021.3.8 更新 增加又拍云图床 修复上传图片失败的问题 完善逻辑,修复获取用户图床信息失败的问题 2021.3.5 更新 修复图床新增的错误 2021.3.4 更新 增加分发数据的高级筛选功能 修复获取文章已发布平台名的错误 修复一键发布功能,发布成功,提
andrew_a
2021-03-09
6580
FreeOpenWrite 项目说明
FreeOpenWrite 简介 本项目 FreeOpenWrite 是在 MrDoc:https://gitee.com/zmister/MrDoc 的基础上做的更新,倾向于个人使用, 感谢 @zmister 本项目侧重点在一文多发,在 mrdoc 的基础上进行的开发。 可以自己部署,也可以注册登录 demo 网站 http://freeow.andrewblog.cn 注册的用户为普通用户,可以体验增加平台 cookie, 一键分发,查看分发数据,删除分发的文章 图床管理功能需要超级管理员权限,下一步会
andrew_a
2021-03-04
3380
头条 _signature、 __ac_nonce、 __ac_signature参数
直接全局搜索这个参数,会在一个 index-*.js 中搜索到, 虽然 captcha.js 中也有,不过没用
andrew_a
2021-01-14
3.3K0
APP 逆向 —— Windows 下安装 Frida 环境
百度安装 Frida 全是直接 pip ,搜出来按照人家的步骤安装,结果坑一大堆。反正我是遇到一大堆的坑。
andrew_a
2020-04-07
5.5K0
使用 gunicorn + nginx + supervisor 部署 flask 项目
gunicorn “绿色独角兽”是一个被广泛使用的高性能的 Python WSGI UNIX HTTP 服务器,移植自Ruby 的独角兽(Unicorn )项目,使用 pre-fork worker 模式,具有使用非常简单,轻量级的资源消耗,以及高性能等特点。Gunicorn 服务器作为 wsgi app 的容器,能够与各种 Web 框架兼容(flask,django 等),得益于 gevent 等技术,使用 Gunicorn 能够在基本不改变 wsgi app 代码的前提下,大幅度提高 wsgi app 的性能。
andrew_a
2019-12-25
1.7K0
python数据处理
在数据分析的时候,原始数据或多或少都会存在大量的不完整、不一致,等异常的数据,会严重影响到数据分析的工作。经常遇到的数据清洗大都是处理缺失数据,清除无意义的信息。比如说删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选出与分析内容无关的数据,处理缺失值,异常值等。
andrew_a
2019-12-25
1.4K0
数据分析 ——— matplotlib基础(二)
在上面的三个面板中分别画出了sin,cos图,前面两个参数分别为x轴, y轴数据。ax2的第三个参数“go--”是matlab风格的绘图,ax3上给出了点的标记maker,这一块是可以自己定义的,可以参考我上一篇文章数据分析 ——数据可视化matplotlib(一)。
andrew_a
2019-09-26
7540
数据分析 ——数据可视化matplotlib(一)
在接下来的文章中主要介绍如何利用python 中的matplotlib进行数据的可视化展示。
andrew_a
2019-09-09
1.7K0
使用 python 发送邮件
使用 python 发送邮件,这个也没啥讲的,分享三种方式发送邮件,最后一种三行代码就可以发送邮件,是不是很爽啊,话不多说,直接上代码
andrew_a
2019-08-20
1.3K0
数据分析 ——— pandas基础(二)
在了解了pandas数据结构之后,我们来了解一下pandas的统计功能,数据的迭代,排序等
andrew_a
2019-08-06
6950
Scrapy 爬虫 --- 创建
想来能学习 Scrapy 肯定 Python 环境是安装好的,所以就可以直接使用命令
andrew_a
2019-07-30
4670
TensorFlow-GPU线性回归可视化代码,以及问题总结
通过TensorBoard将TensorFlow模型的训练过程进行可视化的展示出来,将训练的损失值随迭代次数的变化情况,以及神经网络的内部结构展示出来,以此更好的了解神经网络。
andrew_a
2019-07-30
6970
基于selenium自动化的滑动验证码破解
截图,分别截图,完整的时候截一次图(截图全屏),不用管是否乱序,获取图片的坐标,将截图再次按照坐标截图处理,这样就能获得完整的图和有缺口的图。
andrew_a
2019-07-30
1.5K0
简单的验证码识别之---------tensorflow环境搭建
网址:https://www.python.org/downloads/release/python-363/
andrew_a
2019-07-30
5630
Scrapy爬取知乎------配置代理IP和UA
爬取知乎,如果想大量并发的话的就必须配置代理IP。因为知乎的反爬策略就是并发过大就会限制你的爬虫,页面会自动重定向到验证码页面。所以防止你的爬虫被禁,设置个代理和UA还是很有必要的。
andrew_a
2019-07-30
8160
Scrapy爬取知乎------获取用户主页信息
新建一个scrapy项目,scrapy startproject zhihuspider
andrew_a
2019-07-30
6640
Python 多进程程批量爬取小
python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。
andrew_a
2019-07-30
4420
Python3.6的新特性f-string和新字典
应该大多数的写Python的都知道这个特性,所以这篇文章是给不知道的同学写的,知道的就跳过吧。
andrew_a
2019-07-30
9860
抓取58job, 赶集job以及智联招聘,并使用数据分析生成echarts图
**抓取58job, 赶集job以及智联招聘,并使用数据分析生成echarts图**
andrew_a
2019-07-30
8560
抖音app的抓取------准备工作
抓取app的话,首先需要一个手机或者在自己的电脑上安装模拟器,模拟器你需要知道各个模拟器的默认端口
andrew_a
2019-07-30
3.3K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档