专栏首页一番码客python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

最近几年随着人工智能和大数据的兴起,python也越来越火。一番工作中虽然从没直接要求用到python语言,但由于做linux相关,多多少少会接触一些shell,写一些脚本,而且也会涉及到一些数据处理,一番又没有用惯matlab,所以尝试着用python处理一些工作需求。

真正用到python之后很快就被python众多的轮子所俘获,确实很容易上手,对开发一些工作中的小工具真的是锦上添花。实现一些跨知识领域的功能也很容易上手。开玩笑的感觉就是python就是给那些没有编程经验的科学家、算法工程师们准备的一种语言。当然,接触一段时间后可以发现,python上手很快,但想要精通和拥有良好的编程习惯和思维,和其他语言是一样的,还是要下一番苦功夫的。所以一番为了成为一个能力全面的(全栈)工程师,业余会用python做一些小工具来达到学习python的目的。

公众号文章下载这个功能,就是因为现在微信公众号已经成为了最主流的自媒体平台,很多高认知、高质量的人都在公众号上发布文章,特别是技术类的,里面大多数文章很亲民、通俗易懂,甚至有些知识很系统,是我们学习的地方。基于学习的目的,一番决定用python做一个公众号历史文章下载并转换为pdf的功能,把有价值的公众号的历史文章都下载下来,这样能更系统、俯瞰全景的视角去学习。

因为之前没有接触爬虫类的技术,一番完全站在一个小白的基础上,一步一步探索实现方法,终于以一番现有的知识各种取巧的实现了这个功能,有了基础的1.0版本。但功能和稳定性都不高,现在大家看到的这个版本算是改进后的2.0版本,稳定性和速度都有了很大提升。一番准备写一系列文章把这个工具开发过程中涉及到的主要的、有价值的技术分享记录出来。也算是给互联网上技术问题添砖加瓦,当大家遇到相关问题时,百度不至于一无所获,或者遇到只有楼主提问,后来却只有一句让人抓狂的“已解决”的自答。

从git工程历史提交可以看到,一番建立这个工程是在2018年10月24日上传的git,到现在断断续续也有4个多月了,40多笔commit。

commit e92fb63ebc359acda3e1af36b8b05e8b322f7522
Author: efonfighting <efonfighting@126.com>
Date:   Wed Oct 24 16:53:00 2018 +0800
init commit with gzh and url2pdf module ok

里面涉及到知识大概有adb操作,图文识别,目标查找,模拟鼠标键盘,中文乱码,手机粘贴板传递,模拟浏览器,shell操作,抓包,wkhtmltopdf等等,当然还包括为了提供免费下载服务而配套做的网站搭建等等。接下来的系列文章中,一番会逐个介绍其中的各个知识点和自己遇到的坑,以期用一个实际、实用、有意思的项目来帮助想入门python的同学。


本文分享自微信公众号 - 一番码客(efonfighting),作者:Efonfighting

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • electron桌面应用开发(三)

    前言js启动python创建python文件在index.js中调用python参考一番今日

    efonfighting
  • 不要成为一名程序员!

    今天有一位小伙伴让我教他下载公众号,因为没有基础,我推荐了之前一番看过的一个python系列视频课程。

    efonfighting
  • 打包python为windows可执行程序

    虽然这个是个很基础的问题,网上也有很多文章,但自己动手和网上有文章是两回事,自己动了手,有没有记录、下次是否还能解决又是另外一回事。

    efonfighting
  • python+C、C++混合编程的应用

    TIOBE每个月都会新鲜出炉一份流行编程语言排行榜,这里会列出最流行的20种语言。排序说明不了语言的好坏,反应的不过是某个软件开发领域的热门程度。语言的发展不是...

    py3study
  • 23岁的Python,这些年在编程语言排行榜上直线上升的原因是什么?很多人都不解

    python这些年在编程语言排行榜上名次一直在上升,这个并不是偶然。python发展了几十年,中间好长一段时间无人问津,现在已经发展很成熟了,像新的语言go很多...

    一墨编程学习
  • python入门到放弃(一)-基本概念

    python是一门动态解释型的强类型定义语言,创始人吉多·范罗苏姆(Guido van Rossum)

    guoke-boy
  • 我用python10年后,我发现学python必看这三本书!

    我非常喜欢python,在前面5年里,它一直是我热衷使用并不断研究的语言,迄今为止,python都非常友好并且易于学习!

    诸葛青云
  • Python全栈开发实战!看大神一节课带你做一个自己的音乐网站

    都知道python现在很火,很有发展,都想来学习python,从事python相关职业,可是我们学了python到底要干什么呢?

    云飞
  • 小蛇学python(1)前言

    最近朋友圈被python刷了屏,无论是同学,还是运营,文案,甚至连微商们都立下了好好学python的flag,都发了分享进入python即时训练营的朋友圈。至于...

    用户2145057
  • Python3.2.3官方文档(中文版)

    链接:http://www.pythonheidong.com/blog/article/66/

    py3study

扫码关注云+社区

领取腾讯云代金券