专栏首页数据分析1480使用Python批量下载Wind数据库中的PDF报告

使用Python批量下载Wind数据库中的PDF报告

背景

最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索,发现其相关数据有近百条。由于Wind金融数据终端目前并不支持批量下载公司公告(只能逐个点击链接后下载pdf格式的公告)。因此,如果手动点击鼠标逐条下载公告的话,花费几个小时是非常耗时的,特别是如果检索的公告有上千条的话,那小编是绝对会拒绝点击鼠标的。

解决方案

小编在这里将介绍利用Python网络爬虫这一利器,来解决Wind数据库中批量下载公告的问题。

批量下载的思路是:Wind金融数据库仅仅提供以Excel/CSV格式保存的url链接(见下图,数据),因此本文将通过解析url链接去获取上市企业的公告文本(pdf格式)。

少说多做,show me the code,全部码源如下:

# 导入所需的第三方模块
import requests
from bs4 import BeautifulSoup
import os
import pandas as pd

# 读取链接
urls = pd.read_excel(r'test123.xls').url123
# 构造用户代理,防止反爬虫
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}

# 创建目录
stockCode = "00"
path = stockCode

isExists = os.path.exists(stockCode)
if not isExists:
    os.makedirs(path) 
    print(path+' 创建成功')
else:
    # 如果目录存在则不创建,并提示目录已存在
    print(path+' 目录已存在')


# 循环每一个链接
for url in urls:
    content = requests.get(url, headers = headers).text
    soup = BeautifulSoup(content, 'html.parser')
    # 返回文件地址和名称
    fileUrl = "http://snap.windin.com/ns/" + soup.find(name = 'a', attrs = {'class':'big'})['href']
    fileName = soup.find(name = 'a', attrs = {'class':'big'})['title']

    file = requests.get(fileUrl, headers = headers)  # 下载文件
    # 保存文件
    with open( stockCode + "/" + fileName, "wb") as baogao:
        baogao.write(file.content)
        baogao.close()

提示

在大批量的下载过程中,很可能会出现部分pdf下载为空的情况。此时,循环语句将会中断,因此可以对该条链接手动下载后,将其在excel表格中的链接删除。在此基础上,重新运行代码,程序将继续执行批量下载剩余的公告pdf。(亲测批量下载900个pdf也就大约需要不到8分钟时间,这绝对节约了生命)。

致谢

感谢赵博士能够在百忙之中抽空写文并投稿至我公众号,并将他在工作中碰到的难题,以及解决方案分享给大家。

本文分享自微信公众号 - 数据分析1480(lsxxx2011),作者:刘顺祥

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 时间序列预测模型-ARIMA原理及Python实现!

    在介绍本篇的内容之前,我们先来看一下本文用到的数据。本文用到的中国银行股票数据下载:http://pan.baidu.com/s/1gfxRFbH。

    1480
  • 不吹不擂,你想要的Python面试都在这里了【315+道题】

    有缘人如果看到这些题,不妨留言一下答案,来证明下你到底有多水,哈哈哈哈哈哈哈哈哈哈哈

    1480
  • 【R语言】5种探索数据分布的可视化技术

    中医上讲看病四诊法为:望闻问切。而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样;闻:仔细分析数据是否合理;问:针对前两步工作搜集到的问题与业...

    1480
  • 记录一些论文

    1、Bag of Tricks and A Strong Baseline for Deep Person Re-identification

    绝命生
  • 关于Laravel使用队列后台发送邮件

    今天要用到后台使用队列发送邮件,于是又稍微去了解了下Laravel中使用队列。其实在最开始用Laravel写博客【 https://www.misiyu.cn...

    无道
  • 全球高校人工智能实力排名出炉,清华力压卡内基梅隆占据第一宝座

    近日,麻省理工学院马萨诸塞校区计算机与信息科学学院教授 Emery Berger 发布的全球院校计算机科学领域实力排名的开源项目 CSranking 更新。

    AI科技大本营
  • Linux系统怎样上传下载文件

    宝塔安装方式:https://www.bt.cn/?invite_code=MV91a2pjZnQ=

    zeruns
  • 详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

    今天带来的这篇文章,详细的讲解了 BERT 以及和其他模型之间的区别。由深思考人工智能(iDeepWise Artificial Intelligence)投稿...

    用户1737318
  • Httprouter—用go实现的高性能路由器

    官方——https://github.com/julienschmidt/httprouter

    歪歪梯
  • 基因编辑:让人从猪身上获得供体器官

    大数据文摘

扫码关注云+社区

领取腾讯云代金券