python3 小爬虫-小试牛刀

解脱束缚

网上内容和新闻实在是太多了,每天追剧要刷网站,每天看新闻要刷网站,每天重复的刷网站。一个个到网站上去看比较麻烦,而且每次都有很多广告,心情会变差。本人也比较懒,就想到搞个小爬虫把自己喜欢的内容快速收集,方便看也不用担心广告烦。

能做爬虫的语言实在是太多。用python主要考虑原来知道一点,而且作为脚本语言很方便,成熟库N多想要什么就有什么。作为替换shell脚本也非常棒的选择,日常简单处理工作内容非常方便。

准备开始

作为一个脚本语言考虑,简单和方便应该作为第一位。还是很容易上手的。

window 7 没有python需要自己安装,mac自带有python2和3的版本。

官网地址: https://www.python.org 安装: 有两个大版本 2 和 3,作为脚本直接用最新版本,不用纠结。

macpython3反正有,不知道是不是原来自己安装的,反正有了。看系统里有没有python和版本号

python3中自带的库urllib可以抓去网站

简单开始

直接在终端中输入python3即可进入python的环境。windows中直接输入python

可以看到上面的信息,说明可以玩了。粗暴方法,直接关闭终端(命令行),或是优雅的告诉系统exit()退出

exit() # 退出python

小试牛刀

非常简单就把内容抓取下来,可以打开文件看里面的内容。

命令说明

上面的命令不多,就5句话搞定。

直接运行py脚本

上面的方法有个缺陷,每次要打一大堆命令也是个麻烦事情。所以可以考虑直接保存一个文件,运行这个脚本。创建getmogufhome.py把上面的内容复制进去。

保存到文件后,直接可以运行这个文件。

如果是windows默认安装,会自动关联py文件,直接双击文件就能运行很方便。

一些小麻烦

有些情况会出现一下错误

编码错误

这些信息是说,变成我们能看得懂的地方有些问题。需要个编码工具库codecs帮忙。

把所有的内容都转换成UTF-8的格式

结束

python3确实很方便,寥寥几句就能获得自己想要的内容。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181008A0H7AK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券