前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python笔记-使用 JupiterNotebook 写一个爬虫实例

Python笔记-使用 JupiterNotebook 写一个爬虫实例

作者头像
李郑
发布2019-12-04 20:37:59
9270
发布2019-12-04 20:37:59
举报
文章被收录于专栏:漫漫全栈路漫漫全栈路

使用 Docker 搭建好 PythonJupiterNotebook 的环境后,一直没有试过具体的开发和项目,正好最近遇到了百度搜索引擎不能收录部署在 Github page 上的 Hexo 博客的问题,百度提供了手动提交链接的服务,正好写一个简单的爬虫,来爬取 archives 页面的内容,顺带对 JupiterNotebook 的开发方式做一个归纳。

JupiterNotebook

JupiterNotebook 使用 Docker 部署在服务器后,即能实现随时随地的 Python 开发,新建项目,使用 Terminal 进行操作,甚至都不需要 puttySSH 来链接到服务器。

JupiterNotebook 的功能非常简单而强大,先从界面说起:

JupiterNotebook
JupiterNotebook

Files 提供了一个直观的文件管理页面 Running 则列出了正在运行的终端和笔记

点击 New 可以新建 PythonNotebookTerminal 以及文件和文件夹。

再看看 Notebook

Notebook
Notebook

JupiterNotebook 使用 Cell 来区分代码块,每个代码块可以换号和单独执行。

  • Enter 回车键直接 Cell 内换行
  • Ctrl+Enter 运行本 Cell 代码并换号
  • Shift+Enter 新建 Cell

每一个 Cell 可以更变为 Markdown 语法文本,也可以使用 Python 代码

Spider

简单介绍了 JupiterNotebook ,然后就言归正传,来看看这个爬取博客的 archives 页面的内容的爬虫。

一切照旧,先引入:

代码语言:javascript
复制
import os
import requests
from bs4 import BeautifulSoup

然后设置头文件并获取页面内容:

代码语言:javascript
复制
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
target_Url = "https://ns96.com/archives/"
ext_html = requests.get(target_Url,headers=headers)

使用 BeautifulSoup 整理并输出:

代码语言:javascript
复制
soup = BeautifulSoup(ext_html.text,'lxml')
urls = soup.select('a.archive-title')

for link in urls:
    print("https://www.ns96.com"+link.get('href'))

最后,源文件地址如下:github

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • JupiterNotebook
  • Spider
相关产品与服务
容器镜像服务
容器镜像服务(Tencent Container Registry,TCR)为您提供安全独享、高性能的容器镜像托管分发服务。您可同时在全球多个地域创建独享实例,以实现容器镜像的就近拉取,降低拉取时间,节约带宽成本。TCR 提供细颗粒度的权限管理及访问控制,保障您的数据安全。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档