爬虫入门(四):urllib2

主要使用python自带的urllib2进行爬虫实验。 写在前面的蠢事: 本来新建了一个urllib2.py便于好认识这是urllib2的实验,结果始终编译不通过,错误错误。不能用Python的关键字(保留字)来命名py文件,改了就好了。

正则表达式与re

Python 通过 re 模块提供对正则表达式的支持。使用 re 的一般步骤是: Step1:先将正则表达式的字符串形式编译为Pattern实例。 Step2:然后使用Pattern实例处理文本并获得匹配结果(一个Match实例)。 Step3:最后使用Match实例获得信息,进行其他的操作。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2016-10-14 21:16:25
# @Author  : Nicolo (1241251168@qq.com)
# @Link    : http://www.xiaosablog.cf/
# @Version : $Id$
#一个简单的re实例,匹配字符串中的hello字符串
#导入re模块
import re
# 将正则表达式编译成Pattern对象,注意hello前面的r的意思是“原生字符串”
pattern = re.compile(r'hello')
# 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None
match1 = pattern.match('hello world!')
match2 = pattern.match('helloo world!')
match3 = pattern.match('helllo world!')
#如果match1匹配成功
if match1:
# 使用Match获得分组信息
    print match1.group()
else:
    print 'match1匹配失败!'
#如果match2匹配成功
if match2:
# 使用Match获得分组信息
    print match2.group()
else:
    print 'match2匹配失败!'
#如果match3匹配成功
if match3:
# 使用Match获得分组信息
    print match3.group()
else:
    print 'match3匹配失败!'

编译结果:

hello
hello
match3匹配失败!

糗事百科的网络爬虫

import urllib2    
import urllib    
import re    
import thread    
import time    


#----------- 加载处理糗事百科 -----------    
class Spider_Model:    

    def __init__(self):    
        self.page = 1    
        self.pages = []    
        self.enable = False    

    # 将所有的段子都扣出来,添加到列表中并且返回列表    
    def GetPage(self,page):    
        myUrl = "http://m.qiushibaike.com/hot/page/" + page    
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
        headers = { 'User-Agent' : user_agent }   
        req = urllib2.Request(myUrl, headers = headers)   
        myResponse = urllib2.urlopen(req)  
        myPage = myResponse.read()    
        #encode的作用是将unicode编码转换成其他编码的字符串    
        #decode的作用是将其他编码的字符串转换成unicode编码    
        unicodePage = myPage.decode("utf-8")    

        # 找出所有class="content"的div标记    
        #re.S是任意匹配模式,也就是.可以匹配换行符    
        myItems = re.findall('(.*?)',unicodePage,re.S)    
        items = []    
        for item in myItems:    
            # item 中第一个是div的标题,也就是时间    
            # item 中第二个是div的内容,也就是内容    
            items.append([item[0].replace("\n",""),item[1].replace("\n","")])    
        return items    

    # 用于加载新的段子    
    def LoadPage(self):    
        # 如果用户未输入quit则一直运行    
        while self.enable:    
            # 如果pages数组中的内容小于2个    
            if len(self.pages) < 2:    
                try:    
                    # 获取新的页面中的段子们    
                    myPage = self.GetPage(str(self.page))    
                    self.page += 1    
                    self.pages.append(myPage)    
                except:    
                    print '无法链接糗事百科!'    
            else:    
                time.sleep(1)    

    def ShowPage(self,nowPage,page):    
        for items in nowPage:    
            print u'第%d页' % page , items[0]  , items[1]    
            myInput = raw_input()    
            if myInput == "quit":    
                self.enable = False    
                break    

    def Start(self):    
        self.enable = True    
        page = self.page    

        print u'正在加载中请稍候......'    

        # 新建一个线程在后台加载段子并存储    
        thread.start_new_thread(self.LoadPage,())    

        #----------- 加载处理糗事百科 -----------    
        while self.enable:    
            # 如果self的page数组中存有元素    
            if self.pages:    
                nowPage = self.pages[0]    
                del self.pages[0]    
                self.ShowPage(nowPage,page)    
                page += 1    


#----------- 程序的入口处 -----------    
print u"""  
---------------------------------------  
   程序:糗百爬虫  
   操作:输入quit退出阅读糗事百科  
   功能:按下回车依次浏览今日的糗百热点  
---------------------------------------  
"""  


print u'请按下回车浏览今日的糗百内容:'    
raw_input(' ')    
myModel = Spider_Model()    
myModel.Start()    

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专注 Java 基础分享

表示一个文件的 File 类型

从本篇文章开始,我们将开启对 Java IO 系统的学习,本质上就是对文件的读写操作,听上去简单,其实并不容易。Java 的 IO 系统一直在完善和改进,设计了...

10400
来自专栏技术专栏

慕课网高并发实战(五)- 安全发布对象

不正确的发布可变对象导致的两种错误: 1.发布线程意外的所有线程都可以看到被发布对象的过期的值 2.线程看到的被发布对象的引用是最新的,然而被发布对象的状态...

13720
来自专栏马洪彪

Java设计模式(二)抽象工厂模式

一、场景描述 接《Java设计模式(一)工厂模式》 工厂模式有一缺点,就是破坏了类的封闭性原则。例如,如果需要增加Word文件的数据采集,此时按以下步骤操作: ...

421100
来自专栏肖洒的博客

【更正】Java调用Python

该方法可以解决传递形参的问题。也可以执行Python程序。 遇到的问题:需要确定好jython的路径问题和其他设置的路径问题。

13130
来自专栏运维一切

marathon constraints 的花式用法

这个用法有个坏处,就是你设置应用启动方式的时候要注意,如果你仅仅这样设置,你的应用是无法进行重启的

14230
来自专栏肖洒的博客

java本地文件操作

19630
来自专栏YG小书屋

Python3编码与mysql编码介绍

38150
来自专栏爱撒谎的男孩

Spring初体验

43260
来自专栏专注 Java 基础分享

表示一个文件的 File 类型

17740
来自专栏逍遥剑客的游戏开发

UE4学习笔记: Functions

393100

扫码关注云+社区

领取腾讯云代金券