前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python识别网站所用技术

python识别网站所用技术

作者头像
ytkah
发布2020-03-25 15:02:59
6380
发布2020-03-25 15:02:59
举报
文章被收录于专栏:ytkahytkah

  最近在学习一些python爬虫,我们要爬取一个站点,首先要去查看网站的robots协议,如果明确禁止抓取了要遵守,否则可能会带来麻烦。第二步我们要知道网站是用什么技术做的,如何通过python的方法来识别呢?可以用builtwith库来实现(注意是builtwith不是buildwith),当然前提是安装了python

  安装方法,win+r,cmd,输入如下代码

代码语言:javascript
复制
pip install builtwith

  如果已经安装好了,会出现下面的提示

  进入python

代码语言:javascript
复制
import builtwith

builtwith.parse('https://abc.com')

  显示如下

  但builtwith毕竟是机器判断,有时不一定正确,只可作为参考

代码语言:javascript
复制
import builtwith

builtwith.parse('https://www.cnblogs.com/ytkah')

  运行结果如下,但是不一定准确

  ytkah最近写了比较多的woocommerce文章,所以它判断是wordpress创建的,其实这个是博客园的博客系统,是.net制作的,主页的底部就可以看到

  感兴趣的朋友可以安装测试一下

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-02-26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档