项目终于进入测试阶段,难得忙里偷闲,所以逛逛豆瓣、刷刷网页。逛的时候发现一个小组里都是帅哥美女,那肯定要大饱眼福是不是,然而,一个一个鼠标点着看肯定不是一名程序猿的作风,为了程序猿的尊严,python搞起来~~~~
首先,进入小组内,下拉到页面最下面,发现一个更多小组讨论。
点进去,看一哈标题栏链接,嗯~~~找到啦,看见最后那个start=50没,下拉到最下面,对应的是第3页。
回到第一页,start的参数是0,数一下,一页正好25条。嗯有了这个思路就好办啦,肯定要抓取这个小组的所有页面,如何解析呢?就是start=后面的参数决定的。具体的代码是这样的:
接下来就是如何抓取到一页里的话题链接呢?
谷歌F12少不了,class下的title对应的就是小组的链接有木有,很自然的用上BeautifulSoup,美滋滋标题以及链接搞到手~~~
每页下的话题是这样的:
下面就是找到一个话题下的所有图片了,点进一个话题,F12,链接搞到手有木有~~~
这样整体思路就出来啦。
首先找到小组下所有页面,对每一个页面,循环找到页面下的话题,根据话题找到图片,下载走人~~~
美滋滋~~~有木有~~~
运行的界面是这样的:
具体的内容是这样的:
剩下的就靠各位自己探索了~
完整代码参照:
https://github.com/ZhenglinY/DouBanSpider
至于具体的文件以及内容,还请各位动动小手自己搞定吧~~~~环境搭好了跑起来很容易
注:本代码仅仅是一个demo,没有伪装成浏览器,爬的多了容易被封哦~~~
还请各位谨慎操作,没事多补充点营养快线
据说可以打赏咯~~客官,难道不留下点什么嘛~反正打赏的人最美了~~~~
领取 专属20元代金券
Get大咖技术交流圈