前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫更新计划-1

爬虫更新计划-1

作者头像
Elapse
发布2020-08-17 11:33:25
3690
发布2020-08-17 11:33:25
举报
文章被收录于专栏:E条咸鱼

类似简介的废话

回过头看自己以前写的那些练手的爬虫,简直不要太辣鸡,所以就想着开个坑,有时间就把那些辣鸡代码都给更新或者重写一遍

程序名:steam优惠爬虫

这个爬虫原本的功能是只爬取有优惠的游戏名字,因为价格那个地方比较难爬,所以只有游戏名,而且游戏名也是不全的,因为游戏名有一些特殊字符,而编码貌似不是 utf-8,所以导致出错,原来的版本中,出错了就直接下一个了,一点都不厉害,所以稍微修改了一下

修改的有如下两点

  • 游戏名都爬取下来了
  • 有原价和打折的对比

steam的价格这部分比较恶心,所以我这里用了新方法来获取这两个的价格

代码语言:javascript
复制
money=soup.find_all("div",class_="col search_price discounted responsive_secondrow") #原价+打折后
emoney=soup.find_all("strike") #原价

首先先获取这两个价格

代码语言:javascript
复制
for i in money:
    #获取文本
    i=i.get_text() 
    discount=emoney[a].get_text()
    contest=contents[a].get_text()

    i=i.replace(discount,'') #原价+打折后的价格,通过replace来将原价删除,只剩打折后
    ym=re.findall('\d+',i) #正则匹配数字,原价
    dm=re.findall('\d+',discount) #打折后

接着直接用减法(也就是replace()替换了)得到了打折后的价格,最后在用re匹配数字,因为 这个符号,爬取后也是乱码,所以这样也避免了乱码出现在数字前面的问题

之前写入文件的时候,因为编码问题报错,用了一大堆的 replace()来替换,这次直接

代码语言:javascript
复制
file = open("steam.txt","a",encoding="gb18030")

就可以把文本输入到txt里了

后台回复 steam优惠爬虫获取链接

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 E条咸鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 类似简介的废话
  • 程序名:steam优惠爬虫
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档