专栏首页python3抽取python 标准库页面生成 mob

抽取python 标准库页面生成 mob

前段时间买了个 kindle ,所以就不想老是开电脑 看 书了。而在学习python 时,看到python 主要的还是熟悉一些库的功能。 所以就想着把标准库给捉下来看。 python 标准库https://docs.python.org/2/library/

下面是一段用来练手的 python 捉取html 内容的代码:

    import urllib2
    import os
    import re



    #打开并保存hmtl
    def save_html(urlname):
      main_url=r'https://docs.python.org/2/library/'
      main_dir=r'E:BOOKpythonpython_library'
      
      url=main_url+urlname+'.html'
      file_name=main_dir+'\' +urlname+'.html'
      try:   
        req=urllib2.urlopen(url)
       
        urlfile=open(file_name,'w')
        urlfile.write(req.read())
      except:
        print url
       
      finally:
        urlfile.close()
       
      

    #保存主页
    save_html('index')


    #正则表达式查找链接并保存对应文件
    req=urllib2.urlopen(r'https://docs.python.org/2/library/index.html')
    p=re.compile(r'''<li class="toctree-.+?"><a class="reference internal" href="(.+?).html">.+?</a></li>''')
    matchs=p.findall(req.read())


    for row in matchs:
      save_html(row)

捉完后,使用了 [ calibre - E-book management ] 把html 转换成mobi 格式的文件。

mobi 下载链接: http://f.dataguru.cn/forum.php?mod=attachment&aid=MTQ5OTQzfDc1Y2MyMDk5fDE0MDgxNzEzNTB8NDQxMTd8MzM3NjMy

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Django 模版语法 二

    如果值是False,就替换成设置的默认值,否则就是用本来的值 在 views.py 中修改

    py3study
  • 几行代码抓取百度首页

    python中源码位置(以urllib为例): python中自带的模块:         /usr/lib/python3.5/urllib/request...

    py3study
  • Django之Template

    这样在浏览器中渲染出的就是sfencs,即把{{ name }}替换成了views函数传递的字典对应的值。

    py3study
  • Spring Cloud Gateway 2.1.0 中文官网文档

    该项目提供了一个建立在Spring Ecosystem之上的API网关,包括:Spring 5,Spring Boot 2和Project Reactor。Sp...

    高广超
  • 二分查找

    数据是海量的,从中提取有价值的信息是必要的,提取的过程也就是查找的过程。简单粗暴就是顺序查找,任何东西我一个一个来,不管你是有序无序,对我来说都一样。跟今天咱们...

    naget
  • 第87节:Java中的Bootstrap基础与SQL入门

    数据库服务器,数据库和表 数据库服务器就是在计算机上装一个数据库管理程序,用来管理多个数据库,对于程序员会针对每个程序创建一个数据库,数据库会创建很多表,用来...

    达达前端
  • Android数据库高手秘籍(一)——SQLite命令

    要想熟练地操作任何一个数据库,最最基本的要求就是要懂SQL语言,这也是每个程序员都应该掌握的技能。虽说SQL博大精深,要想精通确实很难,但最基本的一些建表命令,...

    用户1158055
  • Day10:html和css

    HTML 是用来描述网页的一种语言,超文本标记语言,不是一种编程语言,而是一种标记语言,是一套标记标签,使用标记标签来描述网页。

    达达前端
  • SpringCloud 2.x学习笔记:14、Spring Cloud Gateway路由断言工厂(Greenwich版本)

    After Route Predicate Factory,可配置一个UTC时间格式的时间参数,当请求进来的当前时间在路由断言工厂之后会成功匹配,才交给 rou...

    程裕强
  • 数据库审计

    中安威士数据库审计系统(简称VS-AD),是由中安威士(北京)科技有限公司开发的具有完全自主知识产权的数据库审计产品。该系统通过监控数据库的多重状态和通信内容,...

    数据库保护

扫码关注云+社区

领取腾讯云代金券