首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

pythonqq空间说说

环境:PyCharm+Chorme+MongoDB Window10 爬虫数据的过程,也类似于普通用户打开网页的过程。...所以当我们想要打开浏览器去获取好友空间的时候必定会要求进行登录,接着再是查看说说。那么我们先把登录步骤给解决了。...在打开说说页面之前打开开发者工具点击NetWork选择XHR你会看到如下的几个网址通过查看Response。 ?                                  ...在获取过程需要考虑两个问题,一是你是否有权限访问该空间,二是在能访问的情况下不能无止境的爬下去需要判断该空间说说是否完毕。在过程中将不能访问的QQCode存入list在最后跑完的时候输出。...通过部分说说得到的发送设备信息 ? ? ? ?

3.8K130
您找到你想要的搜索结果了吗?
是的
没有找到

Python QQ 空间说说和相册

它承载了80、90 后的大量青春,下面我们一起用 selenium 模块导出说说和相册回忆青春吧 安装 selenium selenium 是一个在浏览器中运行,以模拟用户操作浏览器的方式获取网页源码,...chrome 浏览器版本并下载 对应的 chrome 浏览器驱动 在 http://npm.taobao.org/mirrors/chromedriver 网址中找到相同版本的 chrome 驱动,并放在 python...登录 QQ 后默认的页面就在说说的界面,显示一页的说说是滚动加载的,必须要多次下拉滚动条后才能获取到该页所有的说说,然后用 BeautifulSoup 模块构建对象解析页面,下图是放说说的 iframe...bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk')) # 找到页面上的所有说说...源码 :https://github.com/JustDoPython/python-examples/tree/master/moumoubaimifan/qqzone

3K30

利用 Python QQ 空间说说和相册

它承载了80、90 后的大量青春,下面我们一起用 selenium 模块导出说说和相册回忆青春吧。...在 http://npm.taobao.org/mirrors/chromedriver 网址中找到相同版本的 chrome 驱动,并放在 python 程序运行的同一个文件夹中 登陆 按 F12 检擦网页源代码...登录 QQ 后默认的页面就在说说的界面,显示一页的说说是滚动加载的,必须要多次下拉滚动条后才能获取到该页所有的说说,然后用 BeautifulSoup 模块构建对象解析页面,下图是放说说的 iframe...bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk')) # 找到页面上的所有说说...总结 大家在看十几年前的说说和照片是不是感觉满满的黑历史快要溢出屏幕了。时光荏苒、岁月如梭,愿一切安好。

3K10

Python资源

class="next page-numbers"]') if next_page == []: xxx else: xxx 如果存在下一页,那么就交由另外一部分来处理,完一页的资源后...,若没有想要的资源,输入y (大小写都可以)就可以自动取下一页的资源内容了,如果这一页有想要的资源,输入N就可以退出,并输入资源ID后就可获得该资源的网盘链接了 当然,为了避免大小写的问题,我在获取了用户输入的东西后...,自动全部大写 confirm = input("是否取下一页内容(Y/N): ") if confirm.upper() == ("Y"): xxx 下面是一个改版的流程 版本...功能 备注 v1.0 获取资源名和链接 第一小步 v1.1 自动获取百度网盘链接 基本完成 v1.2 顺便获取网盘链接密码 功能实现 v2.1 更改了结构,用户可选择指定的资源而不是全盘,界面看起来更美观

1.7K10

Python爬虫:动态QQ说说并生成词云,分析朋友状况

今天我们要做的事情是使用动态爬虫来QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。 这是好友的QQ空间10年说说内容,基本有一个大致的印象了。 ?...动态内容 因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面 切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况 获取页面源数据,然后放入xpath中,然后读取...selector.xpath('//*[@id="msgList"]/li/div[3]') 所有的注释都在代码中,所以也就不作详情说明, 昨天的模拟登录大家都应该掌握了,没有掌握的自己再去复习一下 .Python...爬虫:学习Selenium并使用Selenium模拟登录知乎 说说的完整代码 #coding:utf-8 import time from selenium import webdriver from...next_num += 1 # 因为在下一个循环里首先还要把页面下拉,所以要跳到外层的frame上 driver.switch_to.parent_frame() 这样所有的说说内容就可以取到了

1.4K10

Python资源-源码

re sys io sys和io主要是用来转字符串的,如果的结果是特殊符号或者是例如韩文这样的文字的话,爬虫是会报错的,得这么来一下让他默认输出的都是gb18030编码 import sys import...io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 这个东西比较有意思,不单可以在这里这么用,比如微信消息时也可以这么用...which_video(num,urllist): num = int(num)-1 turl=urllist[num] # 选择指定url 选择好了url后,就开始打开对应的url,然后进行内容...上一个def中,检测到了存在下一页的话,就return一个值,告诉程序存在下一页,得换个操作,其实和没有下一页的操作是一样的,就是多了询问和的功能而已 ......(ehtml,"html5lib") elif confirm.upper() == ("N"): return url_list #如果为N的话,直接进行资源的操作

1.1K10

Python|书籍信息

1.前言 爬虫可以有助于快速地从网页中获取想要的信息,从而大大减少工作量今天小编就用实际案例为大家讲解如何网站的一些书籍信息。...2.环境配置 Pycharm,python3,爬虫库request,re模块。 3.目标 爬虫的一般思路:分析目标网页,确定urlà发送请求,获取响应à解析数据à保存数据。...分析目标:要的目标是所有的书籍信息,但书籍信息不只是存在当前网页,需要找到所有有书籍信息的网页,并依次去。 找到头部信息:通过浏览器的检查获取到需要的头部信息。...整理思路:先在当前网页找到所有的存放书籍信息的网页,依次网页,再从中获得每本书的具体网页,最后取到需要的信息。 具体步骤如下: ? ? ? ? ? ? 第二步,发送请求,获取响应的数据。...截取数据:通过re模块,来截取数据,re模块是python自带的模块,具体的用法,可以上python官网查看。 ? 第四步:保存数据。 可以通过docx模块,创建一个文档并保存。 如下图: ?

1.3K20

Python|短视频

问题描述 python是一种非常好用的爬虫工具。对于大多数的爬虫小白来说,python是更加简洁,高效的代码。今天就用实际案例讲解如何动态的网站视频。...环境配置:python3:爬虫库request、json模块,Pycharm 爬虫的一般思路:分析目标网页,确定url—发送请求,获取响应—解析数据—保存数据 目标:方便看视频 解决方案 第一步...第三步:解析数据--json模块:把json字符串转换为python可交互的数据类型 转换数据:利用json进行转换,json是python的内置模块,json可以把json字符串转换为python可交互的数据类型...with open('video\\' + video_title,'wb') as f: f.write(video_data) print('完成') 结语 动态网页的与静态网页的是非常相似的

1.6K40
领券