首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 制作抓取 GUI 程序

在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,抓取工具,先来看下最终的效果 整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能 功能布局...我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变 创建 Widget 对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget..."""子进程查询""" class WeiBoQueryThread(QThread): # 创建一个信号,触发时传递当前时间给槽函数 update_data = pyqtSignal...weibo_page = None total_pv = 0 timestamp = str(int(time.time())) def run(self): # 爬虫...,这里就不再展开说明了,我是把所有爬虫的代码都封装好了,这里直接调用暴露的接口即可 ❝对爬虫感兴趣的同学可以点点赞和在看,如果数量可观就专门写一篇文章,谢谢大家 词云制作 对于词云的制作,我们还是先通过

62610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python调用API获取内容

    一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

    3.7K41

    PHP+redis实现的拉模型案例详解

    拉模型 拉模型就是展示的时候,获取自己的所有关注的人,然后从关注的人中拉取最新。...单条表设计 每条的信息用hash结构来存储,根据不同的id来区分,每条有如下信息:发布人id,发布人昵称,发布时间,内容。...拉取关注者表 设计 每个用户发布后,维护20条最新,并保存到有序集合sorted set中,用不同的userid来区分。 注意:有序集合的score用id,集合保存的也是id。...个人已拉取表设计 每个用户在拉取后,将保存到已经拉取的表中,这个表是一个链表结构,最多保存1000条。...发布 首先将保存成hash结构,然后将保存到拉取表,还保存到个人表。

    48331

    PHP+redis实现的推模型案例分析

    推模型 所谓推模型,就是用户在发布的时候会将推送给关注者和自己,然后其他关注者登录之后就可以看到发布的。...表设计 每条的信息用hash结构来存储,根据不同的id来区分,每条有如下信息:发布人id,发布人昵称,发布时间,内容。...推送表设计 用户在发布的时候,将推送给自己的粉丝,每个粉丝都维护一个推送的链表,这个链表只保存50条最新。推送表中保存的是id....$userid,$user['userid']); } 发布 遍历自己的粉丝,给每个粉丝都推送一条,将推送的保存到每个用户的推送表中 核心代码: //1、保存 $conn = connredis...$user['userid']); 总结 推模型的实例,实现还是比较简单的,但是推模型对性能有影响,假如我是一个大V,关注数有2000W,我在发的时候需要给2000W个人推送一条,但是很多人又是僵尸粉

    46041

    Java网络爬虫抓取新浪个人记录

    接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名 * @param password...新浪密码 * @return * @throws Exception */ public static String getSinaCookie(String

    48040

    情绪分析

    使用node.js爬虫每天从「新浪」上爬取一定数量的。主要实现登录,抓取发布,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的用户,然后每天爬取他们前一天发布的作为本项目的数据源。...由于新浪对爬虫有限制,因此爬取用户的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而爬虫的难点就在于用户登录。...对抓取失败的,Retry 5次 2. 放弃非人类 什么是非人类呢?...分词 Big Bang 分词就是把一句话变成一个一个单词的过程。举个栗子吧: 我是中国人。

    1.3K10

    再谈备份

    之前文章 一键备份并导出生成PDF,顺便用Python分析账号数据 分析过李健的词云图,他的关键词为音乐,北京,朋友,歌手,电影,居然还提到了周杰伦。 ?...每个月转发评论点赞总数图,可以看到2016-2018年的数据是高峰期。 ? 原创和转发数据比例。 ? 李健发的工具主要为pc网页和iPad。 ?...麋鹿工具箱 如果你不想哪天被人挖坟,可以将批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿工具箱。...开始扫描你的多的话可能慢点。 ? ? 选择时间段,可以对删除,恢复公开,仅自己可见,仅粉丝可见,仅好友圈可见。 ?...书 最后如果你想把制作成书,已经有很多成熟的产品,类似 出书啦https://chushu.la/wechatbook/guide ,信书 https://weixinshu.com/ ,拾柒

    1.7K31

    python模拟新浪登陆功能(新浪爬虫)

    (Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

    3.2K60
    领券