前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python第一个项目:爬取个人简书主页文章信息

Python第一个项目:爬取个人简书主页文章信息

作者头像
王小婷
发布2019-08-08 10:14:51
5550
发布2019-08-08 10:14:51
举报
文章被收录于专栏:编程微刊编程微刊编程微刊

前面两篇安装完成了爬虫所需要的环境和工具,也踩了几个坑之后,今天开始写代码,开始写python第一个项目,把自己的简书简书主页文章信息爬取下来。

目标链接:https://www.jianshu.com/u/05f416aefbe1

1:新建一个test.py 文件写代码 在项目上右键,点击New,选择Python File

2:给file取个名字,点击回车确定。系统会默认生成first.py 文件

3:在first.py 文件写上以下代码

import requests
from lxml import etree
import os
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
for i in range(1,4):
    url_ = 'https://www.jianshu.com/u/05f416aefbe1?order_by=shared_at&page={}'.format(i)
    res = requests.get(url_,headers=headers)
    res = etree.HTML(res.content.decode())
    nodes = res.xpath('//ul[@class="note-list"]/li')
    for node in nodes:
        item = {}
        title = node.xpath('.//a[@class="title"]/text()')
        time = node.xpath('.//span[@class="time"]/@data-shared-at')[0]
        abstract = node.xpath('.//p[@class="abstract"]/text()')[0]
        img = node.xpath('.//img[@class="  img-blur-done"]')
        url = 'https://www.jianshu.com'+node.xpath('.//a/@href')[0]
        item['title'] = title
        item['time'] = time
        item['url'] = url
        item['abstract'] = title
        item['img'] = time
        print(item)

4:在文件上鼠标右键点击运行按钮。

5:在控制台上可以看到运行结果 爬取到了个人简书主页文章信息,也可以将这些json数据封装成接口,在要使用到的地方调用即可。

原文作者:祈澈姑娘 技术博客:https://www.jianshu.com/u/05f416aefbe1

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.08.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档