腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python3

专栏作者

11919

文章

14048391

阅读量

238

订阅数

爬取天气数据并解析温度值

xslt & xpath http

获取北京周边城区的天气数据，链接如下：http://www.weather.com.cn/weather1d/101010100.shtml#input

2020-08-27

1.1K0

requests项目实战--抓取百度热搜

注意：123是搜索关键字。这不是重点，因为必须要搜索，才能在网页右侧出现百度热搜。

2020-08-24

7820

一起学爬虫——使用xpath库爬取猫眼电

xslt & xpath html http

之前分享了一篇使用requests库爬取豆瓣电影250的文章，今天继续分享使用xpath爬取猫眼电影热播口碑榜

2020-01-21

7930

requests项目实战--抓取猫眼电影排行

php http xml xslt & xpath 爬虫

requests项目实战--抓取猫眼电影排行目标 url : https://maoyan.com/board/4?offset=0 提取出猫眼电影TOP100的电影名称，主演，上映时间，评分，图片

2020-01-21

3690

爬虫之数据解析

xslt & xpath html 爬虫数据结构正则表达式

　　在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找、排除就会提取出目标信息，这一步就相当于从接收到的庞大数据中提取出真正想要、有意义的信息，所以对于爬虫来说，应该是很重要的。

2020-01-21

9940

python爬虫-简单使用xpath下载

　　值的注意的是：在爬取接口时，要仔细看看，当时用的谷歌浏览器当然也可以借用工具 EditPlus 这个比较好使，看个人喜好吧用浏览器或Ediutplus工具都行。

2020-01-20

7500

Python selenium根据cla

css xslt & xpath selenium

　　在日常的网页源码中，我们基于元素的id去定位是最万无一失的，id在单个页面中是不会重复的。但是实际工作中，很多前端开发人员并未给每个元素都编写id属性。通常一段html代码如下：

2020-01-19

6520

Python爬虫爬取豆瓣电影之数据提取值

xml html xslt & xpath

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器

2020-01-19

7800

python3 爬虫笔记（一）beaut

python xslt & xpath 爬虫正则表达式

用于请求的urllib(python3)和request基本库，xpath,beautiful soup,pyquery这样的解析库。其中xpath中用到大量的正则表示式，对于新手来说，写正则很容易出错，在这里，从beautiful soup开始说。

2020-01-19

4870

scrapy的一些容易忽视的点（模拟登陆

网络安全爬虫 scrapy xslt & xpath

这种情况一般存在于对标签进行遍历时，将item对象放置在了for循环的外部。解决方式：将item放置在for循环里面。

2020-01-17

8110

python爬虫（四）

xml html xslt & xpath json python

一.JSON模块 Json是一种网络中常用的数据交换类型，一个文件要想在网络进行传输，需要将文件转换为一种便于在网络之间传输的类型，便于人们进行阅读，json就是这样应运而生的。Json中的数据是由键值对构成的，与python中字典不同的是，json将数据转换为一种字符串的形式。在电脑上如何安装json呢？打开电脑的cmd，输入pip install json，然后在python命令行中运行 import json,如果没有出现什么错误，说明已经成功安装了。 Json中有许多模块，我目前在爬虫中用到的就两个方法，其他的方法等碰见了再讲解。 json.loads() #把json字符串转换为python类型 def loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw): 这是loads的源代码，可以参考一下。

2020-01-17

4920

Python爬虫入门这一篇就够了

爬虫 xslt & xpath python php

所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。

2020-01-15

6410

【Python】Python爬虫之Sel

xml xslt & xpath

XPath 语法 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XML 实例文档我们将在下面的例子中使用这个 XML 文档。

2020-01-13

8850

python selenium系列（二）

css selenium xslt & xpath 自动化

selenium提供了内置的方法完成对待操作元素的定位，主要分为8类，其中，每类又可细分为定位单个元素和定位多个元素，另外还提供了2个私有方法。详细如下：

2020-01-10

4230

python-selenum3 第五天定

xslt & xpath css

使用tag来定位 tag定位的是标签，不常用例如：百度的输入框标签是input 最终会报错，因为百度首页input标签太多了

2020-01-10

3660

基于python 3 的selenium

selenium css xslt & xpath 网站

注：可以在cmd下通过命令安装selenium模块:pip install selenium 或者 easy_install selenium。

2020-01-09

4340

用python libxml libxs

xml xslt & xpath

用python libxml libxslt实现xml操作,最好能生成html文件，但是只要解决了xslt的问题就不难。 stylesheetArgs = {} # optional transform args styleDoc = libxml2.parseDoc(docText) # <xml ...xsl:stylesheet > style = libxslt.parseStylesheetDoc(styleDoc) doc = libxml2.parseDoc(srcXML) # <xml input file> result = style.applyStylesheet(doc,stylesheetArgs) res = style.saveResultToString(result) style.freeStylesheet() doc.freeDoc() result.freeDoc() return res

2020-01-08

5100

python爬虫笔记-day3

php 网络安全 xslt & xpath html 爬虫

正则使用的注意点 re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来

2020-01-08

6550

使用python访问网页

php xslt & xpath

抓取csdn页面中文章的链接： xpath语法可以看这篇文章： http://www.w3school.com.cn/xpath/xpath_syntax.asp

2020-01-08

4K0

Python自动化开发学习-Scrapy

爬虫 python xslt & xpath http 数据处理

讲师博客：https://www.cnblogs.com/wupeiqi/p/6229292.html 中文资料（有示例参考）：http://www.scrapyd.cn/doc/

2020-01-08

1.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态