一个适用于解析列表页链接和提取详请页内容的Python库。
Github地址:https://github.com/lixi5338619/lxparse
备注:
使用lxparse解析库解析时,如有解析异常可手动指定解析规则。
目前的列表页处理方式会存在一些问题,比如会将列表页链接相近的URL也提取出来,需要大家根据情况增加一些过滤规则。不过也有一些可取之处,可在非文章主体类型的列表页中使用,大家可以在一些论坛、电商页面中测试效果。
测试用例不多,毕竟目前无法100%解析成功,如有问题可以提issues一起优化。
可以到博客留言: http://www.lxspider.com
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。