Python爬虫原理

本篇是在学习Python基础知识之后的一次小小尝试,这次将会爬取熊猫TV网页上的王者荣耀主播排名,在不借助第三方框架的前提下演示一个爬虫的原理。

一、实现Python爬虫的思路

第一步:明确目的 1.找到想要爬取数据的网页 2.分析网页结构,找到需要爬取数据所在的标签位置

第二步:模拟Http请求,提取数据,加工数据 1.模拟Http网络请求,向服务器发送请求,获取服务器返回给我们的html 2.使用正则表达式从Html中提取我们需要的数据(比如本例中的主播名字和人气) 3.对提取的数据进行加工,显示成我们可以直观查看的形式

二、查看网页源码,观察关键值

我们应该首先找到需要处理的网页,即:熊猫TV网页上的王者荣耀,然后查看这个网页的源代码,观察我们需要关注的数据在哪个位置,下面是截取的网页效果图:

网页.png

然后,我们需要在浏览器中查看当前网页的Html源码,不同的浏览器中查看的操作会有所不同,这个需要自行百度一下。此次我们需要拿到每个主播的名字和视频浏览量,从下面源码中我们可以很快发现这些关键数据的位置,如图中的标注:

Html源码.png

三、实现Python爬虫的具体实践

下面就是实现爬取数据的具体操作了,这里是创建了一个爬虫类Spider,然后使用不同的正则获取Html标签里的数据,进而将其重新整理后打印显示,具体的代码如下:

from urllib import request   #导入模块urllib,用于发起网络请求,获取数据
import re                    #导入模块re,用于实现正则提取信息


class Spider():
    #需要抓取的网络链接
    url = "https://www.panda.tv/cate/kingglory"

    #正则:获取显示视频信息的div代码串
    reString_div = '<div class="video-info">([\s\S]*?)</div>'   
    #正则:获取主播名
    reString_name = '</i>([\s\S]*?)</span>'
    #正则:获取视频浏览量
    reString_number = '<span class="video-number">([\s\S]*?)</span>'


    def __fetch_content(self):
        '''
        请求网络,获取整个网页的Hmtl字符串
        '''
        r = request.urlopen(Spider.url)
        data = r.read()
        htmlString = str(data,encoding="utf-8")
        return htmlString


    def __alalysis(self,htmlString):
        '''
        使用正则初步获取数据,得到主播信息(主播名和浏览量)的数组
        '''
        videoInfos = re.findall(Spider.reString_div,htmlString)
        anchors = []
        #print(videoInfos[0])
        for html in videoInfos :
            name = re.findall(Spider.reString_name,html)
            number = re.findall(Spider.reString_number,html)
            anchor = {"name":name,"number":number}
            anchors.append(anchor)
        #print(anchors[0])
        return anchors


    def __refine(self,anchors):
        '''
        将数据进一步提炼,去除空格等多余字符
        '''
        f = lambda anchor :{"name":anchor["name"][0].strip(),"number":anchor["number"][0]}
        newAnchors = list(map(f,anchors))
        #print(newAnchors)
        return newAnchors


    def __sort(self,anchors):
        '''
        数据分析:排序浏览量从大到小 
        '''
        anchors = sorted(anchors,key=self.__sort_seed,reverse = True)
        return anchors


    def __sort_seed(self,anchor):
        '''
        排序规则
        '''
        list_nums = re.findall('\d*',anchor["number"])
        number = float(list_nums[0])
        if '万' in anchor["number"]:
            number = number * 10000
        return number


    def __show(self,anchors):
        '''
        展示数据,将已经排序好的数据打印出来
        '''
        for rank in range(0,len(anchors)):
            print("第" + str(rank+1) +"名:" + anchors[rank]["number"] + "\t"  + anchors[rank]["name"])


    def startRun(self):
       '''
       程序入口,开始运行爬虫
       '''
       htmlString = self.__fetch_content()
       anchors = self.__alalysis(htmlString)
       anchors = self.__refine(anchors)
       anchors  = self.__sort(anchors)
       self.__show(anchors)

        
#创建爬虫类,爬取数据
spider = Spider()
spider.startRun()

然后,我们将看到如下的打印效果:

执行爬虫.png

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python学习(4):变量与数据类型

    梧雨北辰
  • DTCoreText的集成与使用目录一、相关资源二、DTCoreText的集成三、DTCoreText的使用四、可能遇到的错误五、参考链接

    DTCoreText是可以将HTML字符串转化为富文本使用的工具,既保证原生实现又能适应灵活的样式修改,而且相比于使用WebView显示内容在性能上也有很大优势...

    梧雨北辰
  • iOS与JS的交互

    iOS和JS的交互看似两个问题,其实要解决的问题只有一个,那就是JS如何调用native方法。因为查询文档我们就可以发现,在UIWebView中,native有...

    梧雨北辰
  • Python学习:爬虫示例

    本篇是在学习Python基础知识之后的一次小小尝试,这次将会爬取熊猫TV网页上的王者荣耀主播排名,在不借助第三方框架的情况下演示一个爬虫的原理。

    用户4962466
  • 开始使用HTML

    mwangblog
  • vs code上配置python的运行环境

    vs code上配置python的运行环境 Thanks for reading this. 上个月的时候花了不少功夫在VS code上配置Python的运行环...

    企鹅号小编
  • Spark shuffle详细过程

    有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下m...

    用户3003813
  • 高性能MySQL之架构与历史

    Clive
  • 数据库连接池技术详解

    roobtyan
  • 盘点过去的2015,都有哪些SDK出尽了风头!

    时光荏苒,2015正与我们渐行渐远;风云变幻,科技领域仍在不断向前。总需要一个时刻,我们应该停下来,看看曾经的日子。年关也许是最好的选择,所以在这个时刻,让我看...

    BestSDK

扫码关注云+社区

领取腾讯云代金券