专栏首页早起PythonSelenium自动化|爬取公众号全部文章,就是这么简单

Selenium自动化|爬取公众号全部文章,就是这么简单

大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有思考过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们以早起Python为例,使用Selenium来实现

下面就来详细讲解如何一步步操作,文末附完整代码。

Selenium介绍

Selenium是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,可以通过代码控制与页面上元素进行交互,并获取对应的信息。Selenium很大的一个优点是:不需要复杂地构造请求,访问参数跟使用浏览器的正常用户一模一样,访问行为也相对更像正常用户,不容易被反爬虫策略命中,所见即所得。Selenium常常是面对一个奇怪反爬网站无从入手的最后一道防线。当然也有缺点:操作均需要等待页面加载完毕后才可以继续进行,所以速度要慢,效率不高。

需求分析和代码实现

需求很明确:获取早起Python公众号全部推文的标题日期链接。如果要获取公众号的相关信息,有一个很好途径是通过搜狗微信检索。但如果直接使用Requests等库直接请求,会涉及的反爬措施有cookie设置,js加密等等,所以今天就利用Selenium大法!

首先导入所需的库和实例化浏览器对象

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
# 导入第2-4行是为了马上会提到的 显式等待
import time
import datetime

driver = webdriver.Chrome()
driver.get('https://weixin.sogou.com/')

上述的代码就可以实现打开搜狗微信搜索的操作,接下来需要往搜索框里输入文字,并且点击“搜文章”(不直接点搜公众号是因为已经取消通过公众号直接获取相应文章的功能)

wait = WebDriverWait(driver, 10)
input = wait.until(EC.presence_of_element_located((By.NAME, 'query')))
input.send_keys('早起Python')
driver.find_element_by_xpath("//input[@class='swz']").click()

逻辑是设定最长等待时间,在10s内发现了输入框已经加载出来后就输入“早起Python”,并且根据“搜文章”按钮的xpath获取该位置并点击,这里就用到了显式等待。Selenium请求网页等待响应受到网速牵制,如果元素未加载全而代码执行过快就会意外报错而终止,解决方式是等待

隐式等待是在尝试发现某个元素的时候,如果没能立刻发现,就等待固定长度的时间driver.implicitly_wait(10),显示等待明确了等待条件,只有该条件触发,才执行后续代码,如这里我用到的代码,当然也可以用time模块之间设定睡眠时间,睡完了再运行后续代码。跳转了下一页后可以发现不是所有的文章都由“早起Python”公众号推送。

另外只能获取前10页100条的结果,中间需要微信扫码登录

因此从这里开始,代码的执行逻辑为:

  • 先遍历前10页100个文章的公众号名字,如果不是“早起Python”则跳过,是则获取对应的标题名字、发布日期和链接
  • 第10页遍历完成后自动点击登录,此时人为扫码确定登录
  • 代码检测登录是否完成(可以简化为识别“下一页”按钮是否出现),如果登录完成则继续从11页遍历到最后一页(没有“下一页”按钮)

由于涉及两次遍历则可以将解析信息包装成函数

num = 0

def get_news():
    global num # 放全局变量是为了给符合条件的文章记序
    time.sleep(1)
    news_lst = driver.find_elements_by_xpath("//li[contains(@id,'sogou_vr_11002601_box')]")
    for news in news_lst:
        # 获取公众号来源
        source = news.find_elements_by_xpath('div[2]/div/a')[0].text
        if '早起' not in source:
            continue
        num += 1
        # 获取文章标题
        title = news.find_elements_by_xpath('div[2]/h3/a')[0].text
        # 获取文章发表日期
        date = news.find_elements_by_xpath('div[2]/div/span')[0].text
        # 文章发表的日期如果较近可能会显示“1天前” “12小时前” “30分钟前”
        # 这里可以用`datetime`模块根据时间差求出具体时间
        # 然后解析为`YYYY-MM-DD`格式
        if '前' in date:
            today = datetime.datetime.today()
            if '天' in date:
                delta = datetime.timedelta(days=int(date[0]))
            elif '小时' in date:
                delta = datetime.timedelta(hours=int(date.replace('小时前', ' ')))
            else:
                delta = datetime.timedelta(minutes=int(date.replace('分钟前', ' ')))
            date = str((today - delta).strftime('%Y-%m-%d'))
        date = datetime.datetime.strptime(date, '%Y-%m-%d').strftime('%Y-%m-%d')
        # 获取url
        url = news.find_elements_by_xpath('div[2]/h3/a')[0].get_attribute('href')
        print(num, title, date)
        print(url)
        print('-' * 10)

for i in range(10):
    get_news()
    if i == 9:
        # 如果遍历到第十页则跳出循环不需要点击“下一页”
        break
    driver.find_element_by_id("sogou_next").click()

接下来就是点击“登录”,然后人为扫码登录,可以利用while True检测登录是否成功,是否出现了下一页按钮,如果出现则跳出循环,点击“下一页”按钮并继续后面的代码,否则睡3秒后重复检测

driver.find_element_by_name('top_login').click()
while True:
    try:
        next_page = driver.find_element_by_id("sogou_next")
        break
    except:
        time.sleep(3)
next_page.click()

效果如图:

然后就是重新遍历文章了,由于不知道最后一页是第几页可以使用while循环反复调用解析页面的函数半点击“下一页”,如果不存在下一页则结束循环

while True:
    get_news()
    try:
        driver.find_element_by_id("sogou_next").click()
    except:
        break

# 最后退出浏览器即可
driver.quit()

是不是少了点什么?对,就是数据存储,在爬下来数据之后和之前一样利用openpyxl存储到excel中即可

现在我们就有了该公众号呢的全部文章标题和URL,就可以使用Pdfkit将每一个URL转成PDF格式,本文就不再展开叙述。如果对本次selenium自动化感兴趣的化可以在后台回复:selenium获取源码,只需修改对应公众号名称就可以使用啦,拜拜~

注1:Selenium浏览器自动化需要依赖ChromeDriver,详细的配置请自行查询

注2:本文暂时不考虑火狐浏览器,配置和代码和Chrome浏览器略有不同

本文分享自微信公众号 - 早起Python(zaoqi-python),作者:陈熹

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 维度爆炸?Python实现数据压缩竟如此简单!

    在之前的文章中,我们已经详细介绍了主成分分析的原理,并用Python基于主成分分析的客户信贷评级进行实战。

    刘早起
  • Python办公自动化|从Word到Excel

    大家好,今天有一个公务员的小伙伴委托我给他帮个忙,大概是有这样一份Word(由于涉及文件私密所以文中的具体内容已做修改)

    刘早起
  • 手把手教你用Selenium爬取拉勾网数据!

    大家好,在之前我们讲解过很多基于requests+bs4的爬虫,现在换个口味,本文将基于Selenium讲解如何爬取并使用openpyxl存储拉勾网招聘数据。

    刘早起
  • extjs7 selectfield异常 Uncaught TypeError: Cannot read property 'hasPendingLoad' of null

    下拉选择某项目后报异常 “Uncaught TypeError: Cannot read property ‘hasPendingLoad’ of null”

    路过君
  • 反射,框架的利器

    通用型软件框架的难题 假设我们希望开发一套通用型的软件框架,这个框架允许用户自定义大量不同的情况下的回调函数(方法),用来实现丰富多彩的业务逻辑功能,例如一个...

    韩伟
  • 架构实现利器:反射

    假设我们希望开发一套通用型的软件框架,这个框架允许用户自定义大量不同的情况下的回调函数(方法),用来实现丰富多彩的业务逻辑功能,例如一个游戏脚本引擎,那么,其中...

    韩伟
  • ES 自定义打分

    Elasticsearch 会为 query 的每个文档计算一个相关度得分 score ,并默认按照 score 从高到低的顺序返回搜索结果。 在很多场景下,我...

    凌虚
  • SQL中的max()函数用法

    select max(score), name, course from score

    zcqshine
  • 小程序实践(六):view内部组件排版

         ①、当水平排列的时候  , justify-content:center ; 决定水平居中

    听着music睡
  • Docker安装Jenkins实现项目自动部署(Java Web项目) 顶

    Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。

    wuweixiang

扫码关注云+社区

领取腾讯云代金券