专栏首页Python攻城狮Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用

Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用

目录:

1.XPath

XPath 即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法

2.XPath在python中的应用

  • xpath的安装
    • 通过wheel方式安装
    • 下载对应的wheel文件【和Python版本对应的】
    • 安装wheel插件 :python2 -m pip install wheel
    • 根据下载的本地文件安装lxml:切换到whl文件所在的路径,进行安装 python2 -m pip install lxml-3.8.0-cp27-none-win32.whlwheel名一定要跟pip支持的文件名和版本符合
  • xpath的使用
    • 获取文本内容用 text()
    • 获取注释用 comment()
    • 获取其它任何属性用@xx,如
      • @href
      • @src
      • @value
  • Python-第三方库requests详解
  • CSS 选择器参考手册

3.XPath中的text()和string()区别

1.XPath中的text()和string()本质区别
  • text()是一个node test,而string()是一个函数,data()是一个函数且可以保留数据类型。此外,还有点号(.)表示当前节点。

2.XML例子:

<book><author>_知几</author></book>

用例

举例

text()

book/author/text()

string()

book/author/string()

data()

book/author/data()

.

book/author/.

3.特殊用例

XML例子:

<book>
    <author>python<em>django</em>爬虫</author>
    <pricing>
        <price>20</price>
        <discount>0.8</discount>
    </pricing>
</book>
  • text()
    • 经常在XPath表达式的最后看到text(),它仅仅返回所指元素的文本内容。

let $x := book/author/text() return $x 返回的结果是python 爬虫,其中的django不属于author直接的节点内容。

  • string()
    • string()函数会得到所指元素的所有节点文本内容,这些文本讲会被拼接成一个字符串。

let $x := book/author/string() return $x 返回的内容是python django 爬虫

  • data()
    • 大多数时候,data()函数和string()函数通用,而且不建议经常使用data()函数,有数据表明,该函数会影响XPath的性能。

let $x := book/pricing/string() return $x 返回的是200.8 let $x := book/pricing/data() return $x 这样将返回分开的20和0.8,他们的类型并不是字符串而是>xs:anyAtomicType,于是就可以使用数学函数做一定操作。 let $x := book/pricing/price/data() let $y := book/pricing/discount/data() return $x*$y 比如上面这个例子,就只能使用data(),不能使用text()string(),因为XPath不支持字符串做数学运算。

text()不是函数,XML结构的细微变化,可能会使得结果与预期不符,应该尽量少用,data()作为特殊用途的函数,可能会出现性能问题,如无特殊需要尽量不用,string()函数可以满足大部分的需求。

4.爬取诛仙前50章内容

主要分三个步骤:

(1)分析小说网址构成;

(2)获取网页,并分离出小说章节名和章节内容;

(3)写入txt文档。

代码操作:

# -*- coding:utf-8 -*-
import urllib,urllib2,re
from lxml import etree

#定义函数,爬取对应的数据
def getText(url,file_name):
    print('开始爬取第%s章的内容'%file_name)
    #伪装请求头
    my_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
    }
    request = urllib2.Request(url,headers=my_headers)
    content = urllib2.urlopen(request).read()
    return content

#定义函数,保存爬取到的数据
def save(content):
    xml = etree.HTML(content)
    datas = xml.xpath('/html/body/div[@id="main"]/h1 | /html/body/div[@id="main"]/p')

    data = datas[2].xpath('string(.)').encode('utf-8')
    name = datas[0].xpath('string(.)')
    print name
    print('第%s章的内容爬取完成' % file_name)
    with open('txt/%s'%name+'.txt', 'wb') as f:
        f.write(data)


#定义主程序接口
if __name__ == '__main__':
    x=41277
    while x<x+50:
        url = 'http://www.ty2016.net/net/zhuxian/'+str(x)+'.html'
        x+=1
        file_name = str(x-41278)
        try:
            content = getText(url,file_name)
            save(content)
        except Exception,a:
            print a

从本地可以看到已经爬取到相关内容 注解:Xpath的获取

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • PostgreSQL数据类型

    博客地址:https://ask.hellobi.com/blog/zhiji 欢迎大家来交流学习。

    Python攻城狮
  • Python web 开发框架 Pyramid

    博客地址:https://ask.hellobi.com/blog/zhiji 欢迎大家来交流学习。

    Python攻城狮
  • 动态语言-Python1.动态语言的定义

    动态编程语言是高级程序设计语言的一个类别,在计算机科学领域已被广泛应用。它是一类在运行时可以改变其结构的语言:例如新的函数、对象、甚至代码可以被引进,已有的函数...

    Python攻城狮
  • ABAP和Java里关于DEFAULT(默认)机制的一些语言特性

    由此可见新语法比较简洁,能少写3行代码。但是这样有一个缺陷,在新语法下如果it_data内表内不存在object_ext的值为cl_crm_prodil_bo_...

    Jerry Wang
  • Confluence 6 空间权限和链接到相关的空间

    每一个空间将会创建一个默认的权限。创建空间的用户将会自动具有空间管理员(space admin)的权限,这个的意思是你可以为其他用户和用户组赋予空间访问和管理的...

    HoneyMoose
  • 从MVC到MVVM(为什么要用vue)

    使用axios模拟后台请求与响应就是Mock,也有专门的Moc库例如: http://mockjs.com/

    代码之风
  • 组合模式浅析

    组合模式是指将对象组合成树形结构以表示“部分-整体”的层次结构,组合模式使得用户对单个对象和组合对象的使用具有一致性。

    孟君
  • 聚类分析:k-means和层次聚类

    尽管我个人非常不喜欢人们被划分圈子,因为这样就有了歧视、偏见、排挤和矛盾,但“物以类聚,人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。 前面所...

    小莹莹
  • JsBridge 源码分析

    用户1127566
  • JavaScript中Array数组的几种方法

    涉及到数组的问题,以前基本上我们都是采用for循环的方法来进行遍历,后来在ES5中新增了几种方法来方便我们遍历。这几种方法分别为:forEach(js v1.6...

    OECOM

扫码关注云+社区

领取腾讯云代金券