前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >lxparse页面解析库

lxparse页面解析库

原创
作者头像
李玺
修改2022-08-22 15:12:41
2710
修改2022-08-22 15:12:41
举报
文章被收录于专栏:爬虫逆向案例爬虫逆向案例

一个适用于解析列表页链接和提取详请页内容的Python库。

Github地址:https://github.com/lixi5338619/lxparse

备注:

使用lxparse解析库解析时,如有解析异常可手动指定解析规则。

目前的列表页处理方式会存在一些问题,比如会将列表页链接相近的URL也提取出来,需要大家根据情况增加一些过滤规则。不过也有一些可取之处,可在非文章主体类型的列表页中使用,大家可以在一些论坛、电商页面中测试效果。

测试用例不多,毕竟目前无法100%解析成功,如有问题可以提issues一起优化。

可以到博客留言: http://www.lxspider.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档