最近在学爬虫,想来就把自己之前的Demo分享出来。项目所涉及到的库只有urllib。很简单。喜欢爬虫的读者可以先用这个项目来入手。我们先来看看抓取后的结果吧。
上面是保存到文件,除此之外我们还可以保存到数据库中,有兴趣的读者可以尝试。
看完了结果我们正式来尝试一下爬取百度贴吧的帖子
本篇目标:
1.对百度贴吧的任意帖子进行抓取
2.指定是否只抓取楼主发帖内容
3.将抓取到的内容分析并保存到文件
首先本次我们要获取的url为https://tieba.baidu.com/p/5176659692,我们的目的很简单,就是把这个贴子所有楼主的回答爬取下来.这个帖子是一个关于NBA50大的盘点。
代码如下:
项目代码地址:
https://github.com/NGUWQ/Python3Spider/blob/master/python/.idea/pachongdemo/BDTB.py
keeping Coding
领取专属 10元无门槛券
私享最新 技术干货