前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python 爬虫 | 检查网站情况

python 爬虫 | 检查网站情况

作者头像
努力在北京混出人样
发布2019-02-18 16:38:11
8390
发布2019-02-18 16:38:11
举报
文章被收录于专栏:祥子的故事祥子的故事

这里的笔记来源于对《用python写网络爬虫》的总结,写作以记录。 版本:python2.7

1、网站大小估计 在谷歌或百度中输入site:域名 例如

估算网站大小
估算网站大小

显示这个网站有1亿0720万个网页。

2、识别网站所用的技术 在爬去网站之前,了解网站使用的技术,会对爬去数据有一定的印象。这里使用builtwith模块来探测网上搭建的技术。

代码语言:javascript
复制
import builtwith
builtwith.parse("http://www.jianshu.com")

结果: {u’javascript-frameworks’: [u’Prototype’, u’RequireJS’], u’programming-languages’: [u’Ruby’], u’web-frameworks’: [u’Twitter Bootstrap’, u’Ruby on Rails’]}

3、查看网站的拥有者 采用python-whois包,需要下载。

代码语言:javascript
复制
pip install python-whois

查看所有者

代码语言:javascript
复制
import whois
print(whois.whois("http://www.jianshu.com"))

结果: { “updated_date”: [ “2016-04-06 00:00:00”, “2016-04-06 10:24:47” ], “status”: [ “clientTransferProhibited https://icann.org/epp#clientTransferProhibited“, “clientTransferProhibited https://www.icann.org/epp#clientTransferProhibited” ], “name”: “Shanghai Bai Ji Information Technology Inc. Ltd,”, “dnssec”: “unSigned”, “city”: “Shanghai”, “expiration_date”: [ “2020-03-20 00:00:00”, “2020-03-20 18:28:58” ], “zipcode”: “200433”, “domain_name”: “JIANSHU.COM”, “country”: “CN”, “whois_server”: “whois.name.com”, “state”: “Shanghai”, “registrar”: “Name.com, Inc.”, “referral_url”: “http://www.name.com“, “address”: “Innospace 2, B1, Building #5, KIC, No.316 Songhu Road , Yangpu District”, “name_servers”: [ “F1G1NS1.DNSPOD.NET”, “F1G1NS2.DNSPOD.NET”, “f1g1ns1.dnspod.net”, “f1g1ns2.dnspod.net” ], “org”: “Shanghai Bai Ji Information Technology Inc. Ltd,”, “creation_date”: [ “2008-03-20 00:00:00”, “2008-03-20 18:28:58” ], “emails”: [ “contact@jianshu.com”, “abuse@name.com” ] } In [ ]:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年04月29日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档