Python爬虫系列(四)(简单)Dota排行榜爬取,并存入Excel表格

在编写Python程序的时候,有很多库供我们选择,如urllib、requests,BeautifulSoup,lxml,正则表达式等等,使得我们在获取网页源代码或者选择元素的时候很方便,但是库多了,自己纠结症也犯了。。。额。自己今天爬的是对战平台的DOTA排行榜(ps:我在简书看到的一个评论,关于这个网站的,索性自己爬下了-_-),巩固下知识吧。

排行榜

1、分析网站

打开开发者工具,我们观察到排行榜的数据并没有在doc里

doc文档

在Javascript里我么可以看到下面代码:

ajax的post方法异步请求数据

在 XHR一栏里,我们找到所请求的数据

json存储的数据

请求字段为:

post请求字段

2、伪装浏览器,并将json数据存入excel里面

获取玩家信息

将数据保存到excel中

3、结果展示

保存的数据

4、总结

在掌握一些基本的爬虫知识之后,自己想做一些爬虫进阶的实战项目,比如使用一些框架(scrapy、pyspider等)、还有使用代理池等等。还有很多知识要学习自己加油吧。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

微信后台基于时间序的海量数据冷热分级架构设计实践

2826
来自专栏web前端教室

《vue+vant+node+mongoDB+koa2》电商项目实战连载(1)

每节课程规划是大概12-15分钟左右,是以功能点来划分课程的节奏。预计总课时数大概40节左右吧,看实际情况吧。

1272
来自专栏何俊林

一种边播边下的播放策略

本文为smm987独家授权发布本公众号,smm987的blog:http://www.jianshu.com/u/4f00ab501188。 背景 目前视频相...

3285
来自专栏FreeBuf

如何阻止下一次心脏出血漏洞

原文:How to Prevent the next Heartbleed.docx 翻译:赵阳 一、引言 基于OpenSSL的心脏出血漏洞被认为是CVE-20...

32310
来自专栏坚毅的PHP

HBase 异步查询导致的死锁和zookeeper通信中断问题追踪与总结[非技术]

机房T和机房Y共十台前端机,Y机房请求量是T的两倍,主要用于数据查询,开始问题是Y机房tomcat 相继僵死 1) tomcat僵死处理步骤 a 检查代码,发现...

3855
来自专栏EAWorld

微服务数据一致性的演进:SAGA,CQRS,Event Sourcing的由来和局限

原题:Data consistency in microservices architecture

3605
来自专栏华仔的技术笔记

iOS 程序秒退原因分析及解决思路总结

4385
来自专栏java一日一条

Java应用架构的演化之路

当我们架设一个系统的时候通常需要考虑到如何与其他系统交互,所以我们首先需要知道各种系统之间是如何交互的,使用何种技术实现。

592
来自专栏架构师之路

究竟啥才是互联网架构“高并发”

一、什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求...

3536
来自专栏架构师之路

互联网分层架构之-DAO与服务化

互联网分层架构的本质,是数据的移动。 互联网分层架构演进的核心原则: 让上游更高效的获取与处理数据,复用 让下游能屏蔽数据的获取细节,封装 这些在上一篇《互联网...

4028

扫码关注云+社区