专栏首页Rgc使用requests+BeautifulSoup爬取龙族V小说

使用requests+BeautifulSoup爬取龙族V小说

这几天想看龙族最新版本,但是搜索半天发现 没有网站提供 下载, 我又只想下载后离线阅读(写代码已经很费眼睛了)。无奈只有自己 爬取了。

这里记录一下,以后想看时,直接运行脚本 下载小说。

这里是从  http://longzu5.co 这个网站下载的小说,如果需要更改存储路径,可以更改 FILE_URL 常量的值

如果 爬取不到了,说明,此网站做了防爬虫,或者 其渲染 网页的 html 元素改变了。

# -*- coding: utf-8 -*-
# (C) rgc, 2018
# All rights reserved
# requirements list: [python3.6, requests, bs4]

import requests
from bs4 import BeautifulSoup

URL = "http://longzu5.co"
FILE_URL = 'E:\lz.txt'


def get_son_text(strs):
    # 获取文章内容
    soup = BeautifulSoup(strs, 'html.parser')
    body_soup = soup.find('div', 'post-body')
    result = body_soup.find_all('p')
    title = soup.find('h2', 'post-title')
    title = title.text
    final_txt = title + '\n'

    for item in result:
        txt = item.text
        final_txt += txt
    final_txt += '\n\n'
    with open(FILE_URL, 'a', encoding='utf-8') as f:
        f.write(final_txt)


def get_father_text():
    """
    获取文章列表
    :return:
    """
    res = requests.get(URL + "/")
    strs = res.text
    soup = BeautifulSoup(strs, 'html.parser')

    ul_soup = soup.find('ul', 'booklist')
    x = ul_soup.find_all('a')
    section_list = []
    for item in x:
        url = URL + item.get('href')
        section_list.append(url)

    section_list.reverse()
    for url in section_list:
        print(url)
        section = requests.get(url)
        sec_txt = section.text
        get_son_text(sec_txt)


if __name__ == '__main__':
    get_father_text()

# 如有版权,请及时联系我,我会及时删除,如有冒犯,请原谅。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Flask即插视图与tornado比较

    由于公司使用了Tornado框架和Flask框架,之前一直使用的都是Flask框架,已经对url下面紧跟着视图的写法很固执。刚开始接触Tornado框架,对于其...

    用户1558882
  • flask项目开发中,遇到http 413错误

    在flask项目中,上传文件时后台报http 413 Request Entity Too Large 请求体太大错误!

    用户1558882
  • python开发部署时新增数据库中表的方法

    如果在windows执行过程中报错  ModuleNotFoundError: No module named 'MySQLdb'     ,安装    pip...

    用户1558882
  • minicom配置1500000波特率

    最开始以为minicom不支持,因为第一眼在配置界面的选项中没看见。后来发现其实是支持的

    zqb_all
  • 360移动搜索:周鸿祎玩微创新

    6月3日360移动搜索App终于出世了。相关报道显示,360此前在移动搜索领域并非毫无作为,而是低调地进行广泛的布局:360浏览器、手机助手、安全桌面等产品都内...

    罗超频道
  • 用Python实时获取地球卫星图并自动更新为桌面

    最近疯狂迷恋地球卫星图和地球的卫星视频,看上面的视频简直极度舒适。不禁想把这种图片作为桌面背景图。这就产生抓取其背景图片作为桌面的想法。

    数据森麟
  • O2O又下一城:医疗零售

    日前,支付宝与海王星辰达成战略合作,首批杭州、深圳两地的所有门店将接入条码支付,支持支付宝付款,3月全国2000余家门店将全部覆盖。这是国内互联网巨头移动支付...

    罗超频道
  • JavaScript变量提升:函数提升要比变量提升更猛

    为什么我调换声明顺序,结果还是输出以 var 形式声明的函数的值? 有人回答我说 "啊,变量提升呀...",我最开始的理解,就算变量提升,第一种情况提升之后,应...

    yuezhongbao
  • 学习笔记总结

    一个淡定的打工菜鸟
  • Ajax Get和POST请求注意事项

    (备注:以上蓝色函数可以把“特殊符号、中文”转变为浏览器可以识别不会混淆的信息。编码后的信息为%后接两个十六进制数)

    Debug客栈

扫码关注云+社区

领取腾讯云代金券