首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
582
文章
1060714
阅读量
92
订阅数
GneList 来了!抓取列表页-极-其-简-单!
GneList是一个浏览器插件,专门用来生成列表页的 XPath。使用这个 XPath,你可以快速获取到列表页中的每一个条目。
青南
2022-04-07
7510
一日一技:XPath 匹配如何忽略大小写?
GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。
青南
2021-11-12
1.2K0
一日一技:Selenium 抓不到的内容
有一些同学在写爬虫的时候,过于依赖 Selenium,觉得只要使用模拟浏览器,在不被网站屏蔽的情况下,就可以爬到任何内容。
青南
2021-05-13
2.5K0
一日一技:爬虫如何正确从网页中提取伪元素?
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
青南
2020-12-16
1.7K0
一日一技:在Golang下如何相对简单地开发爬虫?
我之前一直用 Python 来写爬虫,现在,尝试用 Golang 来实现一个简单的爬虫,请求网址,然后使用 XPath 提取数据。
青南
2020-09-30
1.6K0
为什么GNE 不做全自动提取列表页的功能
GNE 上线以后,很多同学在用户群里面问到,GNE 能否支持列表页自动提取?例如对于下图中的新闻标题列表:
青南
2020-07-29
1.1K0
Gne Online:通用新闻网页正文在线提取
一直以来,GNE 是以 Python 包的形式存在,要测试 GNE 的提取效果,需要使用 pip 先安装,再写代码使用。
青南
2020-03-12
1.1K0
Bug or Feature?藏在 requests_html 中的陷阱
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML:
青南
2020-03-04
6150
GNE 预处理技术——如何移除特定标签但是保留文字到父标签
在开发新闻网页正文通用抽取器 GNE的过程中,需要对目标网页的源代码进行一些预处理,从而提高正文抓取的准确性。其中之一就是把 <p>标签内部的 <span>标签中的文本,合并到 <p>标签中,再删除 <span> 标签。
青南
2019-09-25
9330
一日一技:XPath『不包含』应该怎么写?
如果能够实现,抓取 class="post"这个 div标签下的文本和除了 class="quote"以外的所有子节点的文本就好了。
青南
2019-08-13
3.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档