前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用selenium爬取简书用户的最新评论、标题、评论时间

使用selenium爬取简书用户的最新评论、标题、评论时间

作者头像
北山啦
发布2022-11-27 11:09:12
4790
发布2022-11-27 11:09:12
举报
文章被收录于专栏:北山啦的博客北山啦的博客

任务要求: 网址为https://www.jianshu.com/u/9104ebf5e177,爬取内容为简书用户的最新评论中的评论题目、评论内容及评论时间,爬取5页,用selenium爬取,将这些评论存入Excel文件中,文件后缀为.xls。将ipynb文件和后缀为.xls的文件压缩打包。

在这里插入图片描述
在这里插入图片描述

通过博客对selenium的简单介绍,现在开始实战啦,没有看过的,可以先看看

直接上代码

代码语言:javascript
复制
# -*- coding: utf-8 -*-
"""
Created on Mon Dec 21 14:03:06 2020

@author: kun
"""

from selenium import webdriver
from time import sleep
from random import uniform
import pandas as pd

url = "https://www.jianshu.com/u/9104ebf5e177"
browser = webdriver.Chrome()
browser.maximize_window()
browser.implicitly_wait(3)
browser.get(url)

title,comment,time1 =[],[],[]
browser.find_element_by_xpath("/html/body/div[2]/div/div[1]/ul/li[3]/a").click()
#browser.find_element_by_link_text("最新评论").click()
sleep(uniform(2,3))
for i in range(1,20):
    browser.execute_script("window.scrollTo(0,document.body.scrollHeight)") 
    time.sleep(uniform(1,2))
def get_info():
    titles = browser.find_elements_by_css_selector("a[class='title']")
    comments = browser.find_elements_by_css_selector("p[class='abstract']")
    times = browser.find_elements_by_css_selector(" div > div > span.time")   
    try:
        for i in titles:
            title.append(i.text)
        for i in comments:
            comment.append(i.text)
        for i in times:
            time1.append(i.text)
        data = {"title":title,
                "comment":comment,
                "time":time1}
    except:
        pass
    finally:
        df = pd.DataFrame(data)
        df.to_excel("jianshu.xlsx",index=False,na_rep="null")
if __name__ == "__main__": 
    get_info()
    sleep(uniform(1,2))

结果如下: |

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档