前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python3爬取steam优惠

Python3爬取steam优惠

作者头像
Elapse
发布2020-08-17 11:11:02
9780
发布2020-08-17 11:11:02
举报
文章被收录于专栏:E条咸鱼

类似前言一样的东西

妈妈再也不用担心我不知道那些游戏没有打折了,一键爬取steam优惠名单,就是写到钱的部分程序崩溃了,以至于只有游戏名

环境

环境需要 Python3.5.4的版本 需要的运行库有

  • BeautifulSoup(解析html,安装方法:(pip install BeautifulSoup)
  • requests(请求url,安装方法:(pip install requests)

代码部分

首先看一下,steam的网站结构

发现游戏名字是存在 <divclass="responsive_search_name_combined">下的再去看url链接https://store.steampowered.com/search/?specials=1&page=1其中page=1就是第一页的意思,所以整体思路就有了,先写一个页面的循环

代码语言:javascript
复制
pageid = 1
while pageid<599:
    url = "https://store.steampowered.com/search/?specials=1&page=" + str(pageid)
    res = requests.get(url)
    soup = bs4.BeautifulSoup(res.text)
    contents = soup.select('div[class="responsive_search_name_combined"]')

这样,599页的steam游戏优惠的界面都会被requests请求一遍,并查找指定的元素,也就是存放游戏名的元素 接下来把游戏名抓取下来

代码语言:javascript
复制
for content in contents:
    name = content.find("span",class_="title").string.strip()
    print(name)

运行一下

成功,右边,游戏名出来了,接下来把名字都保存成txt

要注意的是,有的游戏名很奇怪,有特殊符号,写不进去,那么就会报错,所以,添加一个异常处理就好了

下面贴出完整代码

爬虫的主要问题,基本就是字符串的编码问题,现在整理出来的,最好的方法应该就是直接把url编码的当作正常内容输入就好了

后台回复steam优惠爬虫即可获取下载链接,嘻嘻

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 E条咸鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 类似前言一样的东西
  • 环境
  • 代码部分
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档