专栏首页iOS开发干货分享大数据获取案例:Python网络爬虫实例
原创

大数据获取案例:Python网络爬虫实例

网络爬虫:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。

用来获取新冠肺炎的实时数据。

使用的工具PyCharm

新建Python文件,命名为get_data

使用爬虫最常用的request模块

第一部分:

获取网页信息:

import requests
url = "https://voice.baidu.com/act/newpneumonia/newpneumonia"
response = requests.get(url)

第二部分:

可以观察数据的特点:

数据包含在script标签里,使用xpath来获取数据。

导入一个模块from lxml import etree

生成一个html对象并且进行解析

可以得到一个类型为list的内容,使用第一项就可以得到全部内容

接下来首先获取component的内容,这时使用json模块,将字符串类型转变为字典(Python的数据结构)

为了获取国内的数据,需要在component中找到caseList

接下来上代码:

from lxml import etree
import json
# 生成HTML对象
html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]
# json.load()方法可以将字符串转化为python数据类型
result = json.loads(result)
result_in = result['component'][0]['caseList'] 

第三部分:

将国内的数据存储到excel表格中:

使用openyxl模块,import openpyxl

首先创建一个工作簿,在工作簿下创建一个工作表

接下来给工作表命名和给工作表赋予属性

代码如下:

import openpyxl
#创建工作簿
wb = openpyxl.Workbook()
#创建工作表
ws = wb.active
ws.title = "国内疫情"
ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])
'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''
for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]
    for i in range(len(temp_list)):
        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)
wb.save('./data.xlsx')

第四部分:

将国外数据存储到excel中:

componentglobalList中得到国外的数据

然后创建excel表格中的sheet即可,分别表示不同的大洲

代码如下:

data_out = result['component'][0]['globalList']
for each in data_out:
    sheet_title = each['area']
    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])
    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]
        for i in range(len(list_temp)):
            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

整体代码如下:

import requests
from lxml import etree
import json
import openpyxl
 
url = "https://voice.baidu.com/act/newpneumonia/newpneumonia"
response = requests.get(url)
#print(response.text)
# 生成HTML对象
html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]
# json.load()方法可以将字符串转化为python数据类型
result = json.loads(result)
#创建工作簿
wb = openpyxl.Workbook()
#创建工作表
ws = wb.active
ws.title = "国内疫情"
ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])
result_in = result['component'][0]['caseList']
data_out = result['component'][0]['globalList']
'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''
for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]
    for i in range(len(temp_list)):
        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)
# 获取国外疫情数据
for each in data_out:
    sheet_title = each['area']
    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])
    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]
        for i in range(len(list_temp)):
            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

结果如下:

国内:

国外:

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • iOS开发【完美世界】面试经验:第一轮就有三个 1对1

    为了帮助小伙伴们能够及时了解完美世界的面试流程以及面试过程所涉及的面试问题,小编把刚获得的完美世界面试经验马上编辑好,快速提供给大家,以便能够尽快帮助到有需要的...

    iOSSir
  • iOS 内存管理相关面试题

    保证任何时候指向对象的指针个数和对象的引用计数相同,多一个指针指向这个对象这个对象的引用计数就加1,少一个指针指向这个对象这个对象的引用计数就减1。没有指针指向...

    iOSSir
  • SwiftUI - 百行代码变十行,Swift再创辉煌

    苹果开发者大会 WWDC 2019 在北京时间今天凌晨开幕。在这场大会上除了「史上最难看 Mac 主机」、首次出现的iPadOS以外,我们还终于可以对饱受诟病的...

    iOSSir
  • python 连接SAP的方法

    1. pysaprfc :   http://pysaprfc.sourceforge.net/ http://pypi.python.org/pypi/Pyt...

    py3study
  • LeetCode82|翻转字符串里的单词

    其实输出是一个孤独的过程,因为他是需要一个人单独完成这件事情而不是一群人去完成这件事情,如果喜欢这种分享岛还好,不过大部分的人都因此不这么去做了,这就是你独特的...

    后端Coder
  • 使用Sidecar搭建异构平台的微服务

    本文介绍Sidecar模式的特点,及其应用的场景。熟悉Native Cloud或者微服务的童鞋应该知道,在云环境下,技术栈可以是多种多样的。那么如何能够将这些异...

    黄泽杰
  • checkbox 全选和取消

    //全选 $("#checkall").click(function () { if (this.ch...

    纯粹是糖
  • AkShare-中国宏观-国房景气指数

    国房景气指数是全国房地产开发业综合景气指数的简称。它是对房地产业发展变化趋势和变化程度的量化反映,由8个分类指数合成运算出综合指数,并用百分制表示。其中,综合...

    AkShare
  • CL_THTMLB_COLOR_UTIL

    用Chrome打开webclient ui时,能观察到形如uif_callbacl...crm_handle=CL_THTMLB_COLOR_UTIL的http...

    Jerry Wang
  • python——ip加入nginx黑名单

    需求:因nginx做了防刷机制之后, error.log 会出现ip刷服务器,也被nginx挡掉了,并没有具体刷到后端服务器,但error.log多次出现ip,...

    py3study

扫码关注云+社区

领取腾讯云代金券