前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

作者头像
efonfighting
发布2019-08-02 12:18:24
1.5K0
发布2019-08-02 12:18:24
举报
文章被收录于专栏:一番码客一番码客

最近几年随着人工智能和大数据的兴起,python也越来越火。一番工作中虽然从没直接要求用到python语言,但由于做linux相关,多多少少会接触一些shell,写一些脚本,而且也会涉及到一些数据处理,一番又没有用惯matlab,所以尝试着用python处理一些工作需求。

真正用到python之后很快就被python众多的轮子所俘获,确实很容易上手,对开发一些工作中的小工具真的是锦上添花。实现一些跨知识领域的功能也很容易上手。开玩笑的感觉就是python就是给那些没有编程经验的科学家、算法工程师们准备的一种语言。当然,接触一段时间后可以发现,python上手很快,但想要精通和拥有良好的编程习惯和思维,和其他语言是一样的,还是要下一番苦功夫的。所以一番为了成为一个能力全面的(全栈)工程师,业余会用python做一些小工具来达到学习python的目的。

公众号文章下载这个功能,就是因为现在微信公众号已经成为了最主流的自媒体平台,很多高认知、高质量的人都在公众号上发布文章,特别是技术类的,里面大多数文章很亲民、通俗易懂,甚至有些知识很系统,是我们学习的地方。基于学习的目的,一番决定用python做一个公众号历史文章下载并转换为pdf的功能,把有价值的公众号的历史文章都下载下来,这样能更系统、俯瞰全景的视角去学习。

因为之前没有接触爬虫类的技术,一番完全站在一个小白的基础上,一步一步探索实现方法,终于以一番现有的知识各种取巧的实现了这个功能,有了基础的1.0版本。但功能和稳定性都不高,现在大家看到的这个版本算是改进后的2.0版本,稳定性和速度都有了很大提升。一番准备写一系列文章把这个工具开发过程中涉及到的主要的、有价值的技术分享记录出来。也算是给互联网上技术问题添砖加瓦,当大家遇到相关问题时,百度不至于一无所获,或者遇到只有楼主提问,后来却只有一句让人抓狂的“已解决”的自答。

从git工程历史提交可以看到,一番建立这个工程是在2018年10月24日上传的git,到现在断断续续也有4个多月了,40多笔commit。

代码语言:javascript
复制
commit e92fb63ebc359acda3e1af36b8b05e8b322f7522
Author: efonfighting <efonfighting@126.com>
Date:   Wed Oct 24 16:53:00 2018 +0800
init commit with gzh and url2pdf module ok

里面涉及到知识大概有adb操作,图文识别,目标查找,模拟鼠标键盘,中文乱码,手机粘贴板传递,模拟浏览器,shell操作,抓包,wkhtmltopdf等等,当然还包括为了提供免费下载服务而配套做的网站搭建等等。接下来的系列文章中,一番会逐个介绍其中的各个知识点和自己遇到的坑,以期用一个实际、实用、有意思的项目来帮助想入门python的同学。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一番码客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档