首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

cookie在爬虫中的应用

欢迎关注”生信修炼手册”!

当爬取需要登录之后才可以获取的页面时,我们就可以借助cookie来实现。cookie是一种存储在本地浏览器中的用户认证信息,具体表现为一串字符串。当我们在浏览器中登录之后,可以通过F12查看对应的cookie信息,示例如下

cookie的表现形式是键值对,类似python中的字典,可以有多个键,有些网站还会对值进行加密处理。

cookie是一个动态信息,是和服务器交互之后生成的,具有时效性,在有效期内,cookie可以保持用户的登录状态,避免重复登录。当我们手动重新登录时,可以看到cookie的信息发生了变化

利用cookie的这一特性,一个简便的爬取办法是从浏览器获取cookie, 然后用该cookie来与网站交互,从而绕过了登录的限制。在urllib模块中的用法如下

requests模块中的用法如下

如果是短时的数据采集操作,用这种方式还是相当便利的。为了克服cookie的时效性问题,也可以通过爬虫模拟登录,然后动态获取cookie信息。当然,模拟登录是比较复杂的,对于简单的用户名和密码登录的网站,程序处理还比较简单,对于需要验证码的网站,验证码的机器识别的难度决定了模拟登录的难度。

可以做到模拟登录的话,就可以通过http.cookiejar来自动管理cookie, 代码如下

cookie可以保护我们的登录信息,适用于爬取需要登录之后才能查看的页面,手动管理操作简便,自动管理需要克服模拟登录的难点。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201023A0HGZQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券