前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python爬取已登记公司基本信息

python爬取已登记公司基本信息

作者头像
叶子陪你玩
发布2020-05-25 11:55:30
1.6K0
发布2020-05-25 11:55:30
举报

昨天在一个群里看见一个信息:

说想学习python操作excel和word方面的知识,想找一个python的老师,一对一付费,远程讲解回答问题就可以,有合适的朋友和我联系。

平常玩编程,有时候找不到很好的应用场景,刚好有这么个好机会,加上准备看看是什么问题。

对话内容如下:

我:你好,请问一下,你想用python操作excel和word,主要是解决哪方面问题?

对方:快速制作审计报告

我:ok,业务流程你可以尝试梳理成一系列的步骤。每次把你的步骤需要解决的问题告诉我(比如是合并文件,或者提取什么数据,进行什么操作等)。1.我会根据这个问题做一个简单的案例给你,你可以把案例应用到你的具体内容上去。2.如果基础比较好也可以直接给你说思路。

对方:我现在需要一个根据公司名称,从国家工商局网站抓取这个公司的基本信息,然后写到审计报告的企业基本信息的位置的一个功能。我自己从网上下的爬虫都是一次弄很多公司的,根本也连接不上。

我:你不能给我看一下实际完成的效果。可以截个图(网上原始信息-你要的信息-要放到什么文件什么位置)

......

对方:就是基本信息,如果能写到word里,当然是越详细越好。我的想法是我们做尽调的时候,要查企业的基本信息,在最高人民法院判决书网要查,有没有诉讼?如果有诉讼啊,相关的判决书下载下来,如果是上市公司,还要去巨潮资讯网查一下相关的报告,如果在Python输入公司名称,这些信息都能自动扒取出来,给个摘要贴在word里,就完美了。然后从哪个网站抓取的信息做个标题表示从这个网站上抓取的,后面有一些,概要信息就行了。

第一次尝试

爬虫虽然知道,但是都爬取一些非常简单的,给一个网址,访问这个链接拿到网页内容,回来做个简单的处理就可以了。

他给我提供的是国家工商局网的网址,进去后发现访问非常慢,每次搜索会随机让你输入验证码(滑动和语序点击并存)。

本地测试先爬取首页试试,结果连首页都获取不了,换了个方法,又爬取到了,等一会又不行了,网上查了一下。

原来这个网站反扒手段很多,反爬手段包括:加密混淆的js文件,IP封锁,验证码识别(滑动和语序点击并存),useragent检查,多重url拼接cookie。尝试了好几种,结果IP被封了,正常浏览器都访问不了,果断放弃,第一次失败。

第二次尝试

查询企业信息除了国家工商局网,还有一些其它的网站,我的目标锁定了在企查查网站,进去之后要查看搜索结果还需要注册登录,登录成功还需要验证码。本地如果还是和之前一样爬取,肯定还是失败,注册了一个账号试了一下,果然就可以了,需要登录后查看,这种利用cookies就可以搞定了。

登录后查看headers,获取到cookie和user-agent。

接下来就可以直接本地去爬取网页了。

下面就用我经常使用的看球app直播吧来试一下。

链接显示一个固定的加一个搜索内容,还是很友好的。重新构造一下,为了以后方便改,这里把它分开写了,最后搜索在重新合并。

点击结果进去后,发现链接地址有变了,我得提取两次了。

思路是先获取前面查询的结果网页内容,从里面找到我们要的链接,然后在重新请求一次,返回网页内容。

链接爬取回来后就是最后一步获取内容解析了。

查看网页结构后先获取了两个内容,网页结构中还是有点小坑的,获取回来的选择器有空的,需要去掉tbody。

获取成功后就是寻找规律了,不然这么多信息全都按照上面的方式,那就太麻烦了。通过双重循环搞定,第一个法定代表人需要单独处理。

爬取其它公司只需要改一下就可以了,获取内容到这里就完成了,后面的需要继续等对方提了。

(全文完)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子陪你玩编程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一次尝试
  • 第二次尝试
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档