Python抓取豆瓣小组图片

文章来源：企鹅号 - 每天学一点编程

项目终于进入测试阶段，难得忙里偷闲，所以逛逛豆瓣、刷刷网页。逛的时候发现一个小组里都是帅哥美女，那肯定要大饱眼福是不是，然而，一个一个鼠标点着看肯定不是一名程序猿的作风，为了程序猿的尊严，python搞起来~~~~

首先，进入小组内，下拉到页面最下面，发现一个更多小组讨论。

点进去，看一哈标题栏链接，嗯~~~找到啦，看见最后那个start=50没，下拉到最下面，对应的是第3页。

回到第一页，start的参数是0，数一下，一页正好25条。嗯有了这个思路就好办啦，肯定要抓取这个小组的所有页面，如何解析呢？就是start=后面的参数决定的。具体的代码是这样的：

接下来就是如何抓取到一页里的话题链接呢？

谷歌F12少不了，class下的title对应的就是小组的链接有木有，很自然的用上BeautifulSoup，美滋滋标题以及链接搞到手~~~

每页下的话题是这样的：

下面就是找到一个话题下的所有图片了，点进一个话题，F12，链接搞到手有木有~~~

这样整体思路就出来啦。

首先找到小组下所有页面，对每一个页面，循环找到页面下的话题，根据话题找到图片，下载走人~~~

美滋滋~~~有木有~~~

运行的界面是这样的：

具体的内容是这样的：

剩下的就靠各位自己探索了~

完整代码参照：

https://github.com/ZhenglinY/DouBanSpider

至于具体的文件以及内容，还请各位动动小手自己搞定吧~~~~环境搭好了跑起来很容易

注：本代码仅仅是一个demo，没有伪装成浏览器，爬的多了容易被封哦~~~

还请各位谨慎操作，没事多补充点营养快线

据说可以打赏咯~~客官，难道不留下点什么嘛~反正打赏的人最美了~~~~

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货