Python抓取豆瓣小组图片

项目终于进入测试阶段,难得忙里偷闲,所以逛逛豆瓣、刷刷网页。逛的时候发现一个小组里都是帅哥美女,那肯定要大饱眼福是不是,然而,一个一个鼠标点着看肯定不是一名程序猿的作风,为了程序猿的尊严,python搞起来~~~~

首先,进入小组内,下拉到页面最下面,发现一个更多小组讨论。

点进去,看一哈标题栏链接,嗯~~~找到啦,看见最后那个start=50没,下拉到最下面,对应的是第3页。

回到第一页,start的参数是0,数一下,一页正好25条。嗯有了这个思路就好办啦,肯定要抓取这个小组的所有页面,如何解析呢?就是start=后面的参数决定的。具体的代码是这样的:

接下来就是如何抓取到一页里的话题链接呢?

谷歌F12少不了,class下的title对应的就是小组的链接有木有,很自然的用上BeautifulSoup,美滋滋标题以及链接搞到手~~~

每页下的话题是这样的:

下面就是找到一个话题下的所有图片了,点进一个话题,F12,链接搞到手有木有~~~

这样整体思路就出来啦。

首先找到小组下所有页面,对每一个页面,循环找到页面下的话题,根据话题找到图片,下载走人~~~

美滋滋~~~有木有~~~

运行的界面是这样的:

具体的内容是这样的:

剩下的就靠各位自己探索了~

完整代码参照:

https://github.com/ZhenglinY/DouBanSpider

至于具体的文件以及内容,还请各位动动小手自己搞定吧~~~~环境搭好了跑起来很容易

:本代码仅仅是一个demo,没有伪装成浏览器,爬的多了容易被封哦~~~

还请各位谨慎操作,没事多补充点营养快线

据说可以打赏咯~~客官,难道不留下点什么嘛~反正打赏的人最美了~~~~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180708G16SFP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券