专栏首页python3python 抓网页内容分析

python 抓网页内容分析

用Python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法 一、用urllib2/sgmllib包,将目标网页的所有URL列出。 import urllib2 from sgmllib import SGMLParser class URLLister(SGMLParser):     def reset(self):                                    SGMLParser.reset(self)         self.urls = []     def start_a(self, attrs):                            href = [v for k, v in attrs if k=='href']         if href:             self.urls.extend(href) f = urllib2.urlopen("http://www.baidu.com/") if f.code == 200:     parser = URLLister()     parser.feed(f.read())     f.close()     for url in parser.urls: print url 二、用python调用IE抓取目标网页(Require win32com, pythoncom)的所有图像的url和大小 import win32com.client, pythoncom import time ie = win32com.client.DispatchEx('InternetExplorer.Application.1') ie.Visible = 1 ie.Navigate("http://news.sina.com.cn") while ie.Busy:     time.sleep(0.05) doc = ie.Document for i in doc.p_w_picpaths:     print i.src, i.width, i.height 这种方法可以利用IE本身的Javascript. DHTML的支持,来做自动提交Form,和处理Javascript。 有关样例可以参考http://win32com.de

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python 实现elk接口获取数据

    [root@ctum2A0703016 ~]# cat jiaoyihao.py #!/usr/bin/python2.7

    py3study
  • PyQt5--MenuBar

    py3study
  • python自动代理切换

    py3study
  • EL函数以及自定义标签的应用

    一、EL函数(调用普通类的静态方法) 编写步骤(自定义EL函数的编写步骤即自定义标签的编写步骤): ①编写一个普通的java类,提供一个静态方法,功能自定...

    欠扁的小篮子
  • Json(Json-lib)中使用JSONObject.toBean(JSONObject jsonObject, Class beanClass)日期保存了当前时间

    1、问题:使用Json-lib,转换数据的方法JSONObject.toBean(JSONObject jsonObject, Class beanClass)...

    用户5640963
  • Maven 的这 7 个问题你思考过没有?

    在如今的互联网项目开发当中,特别是Java领域,可以说Maven随处可见。Maven的仓库管理、依赖管理、继承和聚合等特性为项目的构建提供了一整套完善的解决方案...

    江南一点雨
  • 3年java开发面试BAT,你必须彻底搞定Maven!

    Maven的仓库管理、依赖管理、继承和聚合等特性为项目的构建提供了一整套完善的解决方案,如果你搞不懂Maven,那么一个多模块的项目足以让你头疼,依赖冲突就会让...

    程序员追风
  • Maven 虐我千千遍,我待 Maven 如初恋!

    在如今的互联网项目开发当中,特别是Java领域,可以说Maven随处可见。Maven的仓库管理、依赖管理、继承和聚合等特性为项目的构建提供了一整套完善的解决方案...

    CCCruch
  • Maven 虐我千百遍,我待 Maven 如初恋

    在如今的互联网项目开发当中,特别是Java领域,可以说Maven随处可见。Maven的仓库管理、依赖管理、继承和聚合等特性为项目的构建提供了一整套完善的解决方案...

    java思维导图
  • Maven 虐我千百遍,我待 Maven 如初恋

    在如今的互联网项目开发当中,特别是Java领域,可以说Maven随处可见。Maven的仓库管理、依赖管理、继承和聚合等特性为项目的构建提供了一整套完善的解决方案...

    zhisheng

扫码关注云+社区

领取腾讯云代金券