腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
未闻Code
专栏作者
举报
582
文章
1060714
阅读量
92
订阅数
订阅专栏
申请加入专栏
全部文章(582)
python(255)
编程算法(143)
爬虫(65)
https(40)
http(37)
网络安全(35)
javascript(33)
云数据库 Redis(32)
html(31)
sql(31)
网站(31)
数据库(30)
mongodb(30)
scrapy(27)
官方文档(23)
php(22)
selenium(22)
json(19)
正则表达式(18)
tcp/ip(18)
ide(17)
git(17)
云数据库 MongoDB(16)
其他(15)
github(14)
linux(14)
开源(13)
node.js(12)
java(11)
api(11)
文件存储(11)
go(10)
容器镜像服务(10)
xslt & xpath(10)
windows(9)
产品经理(8)
腾讯云测试服务(7)
游戏(7)
分布式(7)
腾讯云开发者社区(7)
云数据库 SQL Server(6)
ubuntu(6)
ssh(6)
kafka(6)
测试(6)
数据(6)
mac os(5)
xml(5)
css(5)
android(5)
flask(5)
打包(5)
nginx(5)
命令行工具(5)
缓存(5)
markdown(5)
微信(5)
安全(5)
数据分析(5)
es(5)
c++(4)
django(4)
数据加密服务(4)
容器(4)
shell(4)
面向对象编程(4)
unicode(4)
excel(4)
pandas(4)
代理(4)
函数(4)
模型(4)
字符串(4)
ios(3)
访问管理(3)
电商(3)
numpy(3)
etcd(3)
dataframe(3)
datetime(3)
key(3)
redis(3)
requests(3)
set(3)
time(3)
表格(3)
程序(3)
服务器(3)
工作(3)
接口(3)
开发(3)
手机(3)
NLP 服务(2)
iphone(2)
c 语言(2)
jquery(2)
arm(2)
web.py(2)
搜索引擎(2)
svg(2)
存储(2)
自动化(2)
grep(2)
二叉树(2)
单元测试(2)
数据结构(2)
ascii(2)
验证码(2)
Elasticsearch Service(2)
bug(2)
curl(2)
data(2)
device(2)
func(2)
gpt(2)
prompt(2)
遍历(2)
队列(2)
对象(2)
二进制(2)
工具(2)
后端(2)
技巧(2)
开发者(2)
配置(2)
搜索(2)
装饰器(2)
云服务器(1)
机器学习(1)
lua(1)
bash(1)
actionscript(1)
vue.js(1)
ecmascript(1)
makefile(1)
sqlite(1)
matlab(1)
unix(1)
apache(1)
bash 指令(1)
apt-get(1)
mapreduce(1)
专用宿主机(1)
日志服务(1)
SSL 证书(1)
图像处理(1)
webpack(1)
运维(1)
图像识别(1)
监督学习(1)
npm(1)
自动化测试(1)
rpc(1)
jenkins(1)
kernel(1)
hexo(1)
anaconda(1)
机器人(1)
企业组织(1)
图片处理(1)
add(1)
app(1)
async(1)
bit(1)
channel(1)
chat(1)
collections(1)
connect(1)
date(1)
display(1)
dsl(1)
element(1)
emoji(1)
error(1)
eval(1)
exception(1)
exec(1)
format(1)
free(1)
init(1)
int(1)
io(1)
ip(1)
list(1)
memory(1)
mock(1)
mysql(1)
na(1)
object(1)
ode(1)
office(1)
patch(1)
pdf(1)
photoshop(1)
pip(1)
plugin(1)
plugins(1)
poco(1)
powerpoint(1)
pymongo(1)
queue(1)
record(1)
reduce(1)
rename(1)
response(1)
search(1)
self(1)
sensors(1)
size(1)
sleep(1)
string(1)
tmux(1)
url(1)
warnings(1)
xor(1)
zip(1)
编程(1)
编程语言(1)
编辑器(1)
程序员(1)
登录(1)
递归(1)
翻译(1)
分布式系统(1)
公众号(1)
管理(1)
脚本(1)
进程(1)
镜像(1)
跨域(1)
框架(1)
连接(1)
流量(1)
内存泄漏(1)
逆向工程(1)
权限(1)
日志(1)
软件(1)
事务(1)
同步(1)
统计(1)
图表(1)
网络(1)
系统(1)
协程(1)
压缩(1)
异步(1)
异常(1)
隐私(1)
优化(1)
域名(1)
搜索文章
搜索
搜索
关闭
GneList 来了!抓取列表页-极-其-简-单!
xslt & xpath
github
git
开源
mongodb
GneList是一个浏览器插件,专门用来生成列表页的 XPath。使用这个 XPath,你可以快速获取到列表页中的每一个条目。
青南
2022-04-07
751
0
一日一技:XPath 匹配如何忽略大小写?
xslt & xpath
python
编程算法
GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。
青南
2021-11-12
1.2K
0
一日一技:Selenium 抓不到的内容
selenium
html
css
xslt & xpath
爬虫
有一些同学在写爬虫的时候,过于依赖 Selenium,觉得只要使用模拟浏览器,在不被网站屏蔽的情况下,就可以爬到任何内容。
青南
2021-05-13
2.5K
0
一日一技:爬虫如何正确从网页中提取伪元素?
css
html
selenium
javascript
xslt & xpath
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
青南
2020-12-16
1.7K
0
一日一技:在Golang下如何相对简单地开发爬虫?
python
html
爬虫
xslt & xpath
我之前一直用 Python 来写爬虫,现在,尝试用 Golang 来实现一个简单的爬虫,请求网址,然后使用 XPath 提取数据。
青南
2020-09-30
1.6K
0
为什么GNE 不做全自动提取列表页的功能
xslt & xpath
html
php
自动化
GNE 上线以后,很多同学在用户群里面问到,GNE 能否支持列表页自动提取?例如对于下图中的新闻标题列表:
青南
2020-07-29
1.1K
0
Gne Online:通用新闻网页正文在线提取
xslt & xpath
腾讯云测试服务
一直以来,GNE 是以 Python 包的形式存在,要测试 GNE 的提取效果,需要使用 pip 先安装,再写代码使用。
青南
2020-03-12
1.1K
0
Bug or Feature?藏在 requests_html 中的陷阱
xslt & xpath
xml
http
html
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML:
青南
2020-03-04
615
0
GNE 预处理技术——如何移除特定标签但是保留文字到父标签
xslt & xpath
在开发新闻网页正文通用抽取器 GNE的过程中,需要对目标网页的源代码进行一些预处理,从而提高正文抓取的准确性。其中之一就是把 <p>标签内部的 <span>标签中的文本,合并到 <p>标签中,再删除 <span> 标签。
青南
2019-09-25
933
0
一日一技:XPath『不包含』应该怎么写?
xslt & xpath
爬虫
如果能够实现,抓取 class="post"这个 div标签下的文本和除了 class="quote"以外的所有子节点的文本就好了。
青南
2019-08-13
3.4K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档