数据云团-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据云团

专栏成员

320

文章

249265

阅读量

44

订阅数

Python进阶-文本处理-XML数据

xml 编程算法

首先创建顶层对象，即 articles，接着将所有其它内容添加到该节点下。对于每一篇文章，都添加一个 article 子节点，如果上面的原字典没有提供封面图和标签，则使用提供的默认值。接着遍历所有键值对，将这些内容作为其它子节点添加到每个 article 中。

2019-07-18

5170

Python-并发下载-协程实现-下

在上一节中，当要爬取某个网页时，会输入“正在爬取”的提示信息，等网页的内容爬取下来后会休眠1s，这样做的目的是降低了请求的频率，以免 IP 被禁。

2019-07-18

4680

Python-数据解析-职位信息-中

在 Spider 类中，定义一个用于解析网页的方法 parse_page()，分别使用 re 模块、lxml 和 bs4 库进行实现。

2019-07-18

9540

Python-数据解析-Beautiful Soup-上

html xml 编程算法

bs4 是一个 HTML/XML 的解析器，其主要功能是解析和提取 HTML/XML 数据。

2019-07-18

7110

Python-数据解析-lxml库-下

xml xslt & xpath

ElementTree 类中附带了一个类似于 XPath 路径语言的 ElementPath 类。

2019-07-18

6470

Python-数据解析-lxml库-上

编程算法 html xml

lxml 使用 Python 语言编写的库，主要用于解析和提取 HTML 或者 XML 格式的数据。

2019-07-18

9750

Python-数据解析-正则表达式

正则表达式 html xml json xslt & xpath

在上几篇中，可以将整个网页的内容全部爬取下来。不过，这些数据的信息量非常庞大，而且大部分数据并不是所需要的。这就需要对爬取的数据进行过滤筛选，去掉没用的数据，留下有价值的数据。

2019-07-18

9950

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态