学习
实践
活动
专区
工具
TVP
写文章
专栏首页iOS开发干货分享大数据获取案例:Python网络爬虫实例
原创

大数据获取案例:Python网络爬虫实例

网络爬虫:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。

用来获取新冠肺炎的实时数据。

使用的工具PyCharm

新建Python文件,命名为get_data

使用爬虫最常用的request模块

第一部分:

获取网页信息:

import requests
url = "https://voice.baidu.com/act/newpneumonia/newpneumonia"
response = requests.get(url)

第二部分:

可以观察数据的特点:

数据包含在script标签里,使用xpath来获取数据。

导入一个模块from lxml import etree

生成一个html对象并且进行解析

可以得到一个类型为list的内容,使用第一项就可以得到全部内容

接下来首先获取component的内容,这时使用json模块,将字符串类型转变为字典(Python的数据结构)

为了获取国内的数据,需要在component中找到caseList

接下来上代码:

from lxml import etree
import json
# 生成HTML对象
html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]
# json.load()方法可以将字符串转化为python数据类型
result = json.loads(result)
result_in = result['component'][0]['caseList'] 

第三部分:

将国内的数据存储到excel表格中:

使用openyxl模块,import openpyxl

首先创建一个工作簿,在工作簿下创建一个工作表

接下来给工作表命名和给工作表赋予属性

代码如下:

import openpyxl
#创建工作簿
wb = openpyxl.Workbook()
#创建工作表
ws = wb.active
ws.title = "国内疫情"
ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])
'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''
for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]
    for i in range(len(temp_list)):
        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)
wb.save('./data.xlsx')

第四部分:

将国外数据存储到excel中:

componentglobalList中得到国外的数据

然后创建excel表格中的sheet即可,分别表示不同的大洲

代码如下:

data_out = result['component'][0]['globalList']
for each in data_out:
    sheet_title = each['area']
    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])
    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]
        for i in range(len(list_temp)):
            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

整体代码如下:

import requests
from lxml import etree
import json
import openpyxl
 
url = "https://voice.baidu.com/act/newpneumonia/newpneumonia"
response = requests.get(url)
#print(response.text)
# 生成HTML对象
html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]
# json.load()方法可以将字符串转化为python数据类型
result = json.loads(result)
#创建工作簿
wb = openpyxl.Workbook()
#创建工作表
ws = wb.active
ws.title = "国内疫情"
ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])
result_in = result['component'][0]['caseList']
data_out = result['component'][0]['globalList']
'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''
for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]
    for i in range(len(temp_list)):
        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)
# 获取国外疫情数据
for each in data_out:
    sheet_title = each['area']
    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])
    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]
        for i in range(len(list_temp)):
            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

结果如下:

国内:

国外:

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • python实例代码爬虫_python 网络爬虫实例代码

    一共两个文件,一个是toolbox_insight.py,是一个工具文件另一个是test.py,是一个用到toolbox_insight.py中工具的测试文件 ...

    全栈程序员站长
  • python爬虫实例之获取动漫截图

    之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧...

    砸漏
  • python 爬虫方式获取数据

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    多凡
  • python3 网络爬虫 实例1

    pip install scrapy pip install pyOpenSSL pip install cryptography pip install...

    用户5760343
  • Python网络爬虫05---Scrapy实例

    本节以建立爬取 http://books.toscrape.com/ 网站为例,因为这个是经典的研究爬虫的网站。

    大数据爱好者
  • 数据采集技术python网络爬虫_精通Python网络爬虫

    网络爬虫(Crawler)又称网络蜘蛛,或者网络机器人(Robots). 它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。换句话来说,它可以根据网页...

    全栈程序员站长
  • Python网络爬虫(二)- urllib爬虫案例 urllib的爬虫案例-通过最原始的爬虫方式

    代码操作(一)爬取百度贴吧数据(GET方式爬取数据 ,这里爬取的是战狼2贴吧的html)

    Python攻城狮
  • Python 利用Python编写简单网络爬虫实例3

    获取目标网站“http://bbs.51testing.com/forum.php”中特定url,通过分析发现,目标url同其它url的关系如下

    授客
  • Python 利用Python编写简单网络爬虫实例2

    获取目标网站“http://www.51testing.com/html/index.html”中特定url,通过分析发现,目标url同其它url的关系如下

    授客
  • Python协程爬虫,gevent获取网页源码打印pdf实例爬虫

    Python协程爬虫的一个简单实例demo,使用了队列来进行数据的传递,协程的使用相比单线程会快,感觉在加大协程线的时候,速度并没有相应的加快,或者说占用的时间...

    二爷
  • 定向爬虫-中国大学MOOC-python网络爬虫实例

    Cloud-Cloudys
  • python 网络爬虫入门(一)———第一个python爬虫实例

    最近两天学习了一下python,并自己写了一个网络爬虫的例子。 python版本: 3.5 IDE : pycharm 5.0.4 要用到的包可以用...

    全栈程序员站长
  • Python网络爬虫信息提取mooc代码实例

    砸漏
  • 大快搜索数据爬虫技术实例安装教学篇

    爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

    用户3392176
  • python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。该项目分为两个模块: 1,数据准...

    机器学习AI算法工程
  • Python: “股票数据定向爬虫”实例

    文章背景:之前学习了BeautifulSoup模块和Re库(参见文末的延伸阅读),在此基础上,获取沪深两市A股所有股票的名称和交易信息,并保存到文件中。

    用户9949496
  • Python: “股票数据Scrapy爬虫”实例

    文章背景:之前基于requests-bs4-re的技术路线(参加文末的延伸阅读),获取沪深两市A股所有股票的名称和交易信息,并保存到文件中。本文采用sc...

    用户9949496
  • 手把手教你使用Python网络爬虫获取小说

    随着网络的时代的发展,人们很少去安静的去看一本书。而是选择看网络小说,可是网络小说有些要钱才能看。

    Python进阶者

扫码关注腾讯云开发者

领取腾讯云代金券