前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >汤圆创作小说检索信息采集

汤圆创作小说检索信息采集

作者头像
SingYi
发布2022-07-14 13:56:36
5260
发布2022-07-14 13:56:36
举报
文章被收录于专栏:Lan小站Lan小站
image.png
image.png

前段时间,因为一些原因,所以需要对这个汤圆创作的小说进行检索,于是写了几行python代码解析了一下搜索出来的结果的信息。

代码语言:javascript
复制
# -*- coding: utf-8 -*-
"""
-------------------------------------------------
@ Author :Lan
@ Blog :www.lanol.cn
@ Date : 2020/9/30
@ Description:I'm in charge of my Code
-------------------------------------------------
"""
import requests
import parsel

for i in range(1, 10094):
    url = f'https://www.itangyuan.com/search/book/%E4%B8%80%20%E7%94%9F.html?page={i}'
    res = requests.get(url).text
    xpathFile = parsel.Selector(res)
    author = xpathFile.xpath("//p[@class='author']/a/text()").extract()
    name = xpathFile.xpath("//p[@class='bname']/a/text()").extract()
    info = xpathFile.xpath("//p[@class='rw_info']/text()").extract()
    for index, value in enumerate(name):
        if '一' in value.replace(' ', '') and '生' in value.replace(' ', ''):
            if int(info[index].split('阅读')[0].replace(' ', '')) < 1000:
                print(value, author[index], info[index].split('/')[-1])
    print(f'已检测至第{i}页')

大概就是搜索出所有小说名包含一和生字且阅读量小于1000的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档