腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

未闻Code

专栏作者

582

文章

1060714

阅读量

92

订阅数

GneList 来了！抓取列表页-极-其-简-单！

xslt & xpath github git 开源 mongodb

GneList是一个浏览器插件，专门用来生成列表页的 XPath。使用这个 XPath，你可以快速获取到列表页中的每一个条目。

2022-04-07

7510

一日一技：XPath 匹配如何忽略大小写？

xslt & xpath python 编程算法

GNE[1]在对新闻进行预处理的时候，会提前移除一些显然不可能包含正文的 Dom 节点，从而增加提取的准确性。

2021-11-12

1.2K0

一日一技：Selenium 抓不到的内容

selenium html css xslt & xpath 爬虫

有一些同学在写爬虫的时候，过于依赖 Selenium，觉得只要使用模拟浏览器，在不被网站屏蔽的情况下，就可以爬到任何内容。

2021-05-13

2.5K0

一日一技：爬虫如何正确从网页中提取伪元素？

css html selenium javascript xslt & xpath

可以看到，在源代码里面没有请抓取我！这段文字。难道这个网页是异步加载？我们现在来看一下网页的请求：

2020-12-16

1.7K0

一日一技：在Golang下如何相对简单地开发爬虫？

python html 爬虫 xslt & xpath

我之前一直用 Python 来写爬虫，现在，尝试用 Golang 来实现一个简单的爬虫，请求网址，然后使用 XPath 提取数据。

2020-09-30

1.6K0

为什么GNE 不做全自动提取列表页的功能

xslt & xpath html php 自动化

GNE 上线以后，很多同学在用户群里面问到，GNE 能否支持列表页自动提取？例如对于下图中的新闻标题列表：

2020-07-29

1.1K0

Gne Online：通用新闻网页正文在线提取

xslt & xpath 腾讯云测试服务

一直以来，GNE 是以 Python 包的形式存在，要测试 GNE 的提取效果，需要使用 pip 先安装，再写代码使用。

2020-03-12

1.1K0

Bug or Feature？藏在 requests_html 中的陷阱

xslt & xpath xml http html

在写爬虫的过程中，我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML：

2020-03-04

6150

GNE 预处理技术——如何移除特定标签但是保留文字到父标签

在开发新闻网页正文通用抽取器 GNE的过程中，需要对目标网页的源代码进行一些预处理，从而提高正文抓取的准确性。其中之一就是把 <p>标签内部的 <span>标签中的文本，合并到 <p>标签中，再删除 <span> 标签。

2019-09-25

9330

一日一技：XPath『不包含』应该怎么写？

xslt & xpath 爬虫

如果能够实现，抓取 class="post"这个 div标签下的文本和除了 class="quote"以外的所有子节点的文本就好了。

2019-08-13

3.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态