首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 制作抓取 GUI 程序

    在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,抓取工具,先来看下最终的效果 整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能 功能布局...我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变 创建 Widget 对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget...接下来我们创建一个查询函数,同时因为我们这里需要实时更新抓取进度条,所以使用了多线程的方式 def doWeiboQuery(self): weibo_link = self.lineEdit_weibo_link.text..."""子进程查询""" class WeiBoQueryThread(QThread): # 创建一个信号,触发时传递当前时间给槽函数 update_data = pyqtSignal...,这里就不再展开说明了,我是把所有爬虫的代码都封装好了,这里直接调用暴露的接口即可 ❝对爬虫感兴趣的同学可以点点赞和在看,如果数量可观就专门写一篇文章,谢谢大家 词云制作 对于词云的制作,我们还是先通过

    62610

    Python爬虫抓取数据及热度预测

    接下来,我们需要定义爬虫IP服务器的地址和端口号:proxy_host = 'duoip'proxy_port = 8000然后,我们需要使用 requests 库的 get 方法发送一个 GET 请求到的主页...库解析返回的 HTML 文档:soup = BeautifulSoup(response.text, 'html.parser')然后,我们可以使用 BeautifulSoup 的 find 方法查找主页上的热度预测的内容...编写一个爬取数据抓取及热度预测内容的爬虫程序的基本步骤和代码。...需要注意的是,由于的反爬虫机制,这个爬虫程序可能无法正常工作,需要多次尝试和调整才能获取到有效的数据。...同时,使用爬虫IP服务器来爬取数据可能违反了的使用协议,可能会导致账号被封禁,因此在实际使用中需要谨慎考虑。

    24430

    通过selenium抓取新浪

    由于新浪的手机网页的访问加入了验证码,所以抓取新浪的后门行不通了,经过一系列的研究,最终使用selenium工具模仿浏览器行为访问新浪公众号,因为浏览器访问网页时是以访客的形式访问 ,所以避免了用户登录这一过程...,可以顺利的进行指定的内容抓取,selenium的缺点是无法确定页面加载完毕的时间也js执行完毕的时间,所以在抓取效率方面会有所牺牲。...Selenium是跨语言的,有Java、C#、python等版本,并且支持多种浏览器,chrome、firefox以及IE都支持。在Java项目中使用Selenium,需要做两件事。...seleunim所需要的jar包,导入至工程中,然后下载使用的浏览器对应的驱动,本文中使用的是谷歌浏览器,对应的驱动是一个exe文件,推荐放在谷歌浏览的安装目录下,在代码中配置路径即可,本文以Java开发环境为例,抓取新浪指定的内容...content.contains("转发")) { System.out.println("content:"+content); //抓取评论 if (elements3.get(a

    22010

    Java网络爬虫抓取新浪个人记录

    接下来就是新浪抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名 * @param password...新浪密码 * @return * @throws Exception */ public static String getSinaCookie(String

    48040

    一篇文章教会你使用Python抓取评论

    1 Part1——理论篇 试想一个问题,如果我们要抓取某个博大V的评论数据,应该怎么实现呢?最简单的做法就是找到评论数据接口,然后通过改变参数来获取最新数据并保存。...首先从api寻找抓取评论的接口,如下图所示。 ? 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。 ?...接下来小编又选择的移动端网站,先登录,然后找到我们想要抓取评论的,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示。 ?...2 Part2——实战篇 有了上文的基础之后,下面我们开始撸代码,使用Python进行实现。 ? 1、首先区分url,第一次不需要max_id,第二次需要用第一次返回的max_id。 ?...2、请求的时候需要带上cookie数据,cookie的有效期比较长,足够抓一条的评论数据了,cookie数据可以从浏览器分析工具中找到。 ?

    56230

    Python调用API获取内容

    一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

    3.7K41

    2023 评论爬虫 | 突破 1000 页限制,抓取 10w 条评论

    相比较一条的正文内容,的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对评论的抓取需求较大,笔者在以往分享过几个评论抓取的代码或者教程: 2021 新版评论及其子评论爬虫发布...新增 ip 属地,抓得更多,超级评论爬虫大更新 维护了三年依然有效,但是有一个问题,由于接口限制,很多评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条中爬到上万条评论甚至几十万条评论呢...这是一个全新的评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段...不包括任何隐私数据,示例结果文件如下: 爬虫系统部署在服务器上,可在以下网页直接使用: https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider 抓取结束后

    2.9K20

    【B 站视频教程】抓取用户和批量抓取评论

    如何抓取用户的所有,该部分代码地址在: 一个爬取用户所有的爬虫,还能断网续爬那种(点击直达),下面的视频详情演示了这个过程 如何抓取一条甚至多条的评论呢?...代码地址在:2021 新版评论及其子评论爬虫发布(点击直达),具体操作可参考下面的视频 批量抓取评论,需要配置的一个文件是 mac_comment_config.json,其格式如下: {...", "uid": "2803301701", "limit": 100000, "decs": "吴京说神州十三号太美了" } ] } 以上的配置可以抓取两条的评论...考虑到这个问题,我特意写了个脚本,比如我们爬完话题爬虫: 2021 新版话题爬虫发布 后,需要获取该话题下所有的评论,我们可以使用如下的 py 脚本代码自动构建视频中抓取评论所需要的 json...,可以把已经抓取过评论的的从 json 配置文件中删除,下次就可以从当前继续抓取了。

    78620

    一篇文章教会你使用Python定时抓取评论

    【Part1——理论篇】 试想一个问题,如果我们要抓取某个博大V的评论数据,应该怎么实现呢?最简单的做法就是找到评论数据接口,然后通过改变参数来获取最新数据并保存。...首先从api寻找抓取评论的接口,如下图所示。 ? 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。 ?...接下来小编又选择的移动端网站,先登录,然后找到我们想要抓取评论的,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示。 ?...【Part2——实战篇】 有了上文的基础之后,下面我们开始撸代码,使用Python进行实现。 ?...2、请求的时候需要带上cookie数据,cookie的有效期比较长,足够抓一条的评论数据了,cookie数据可以从浏览器分析工具中找到。 ?

    52120

    python 新浪爬虫

    /usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/7/1 上午3:29 # @Author : BrownWang # @Email.../0070m4EAly8fpp1pwqq26j3050050jrb.jpg 是否认证:False 说明:知名财经主 头条文章作者 签约自媒体 关注人数:3301 粉丝数:111 性别:m 等级...:11 -----正在爬取第1页,第0条------ -----正在爬取第1页,第1条------ -----正在爬取第1页,第2条------ -----正在爬取第1页,第3条---...--- -----正在爬取第1页,第4条------ -----正在爬取第1页,第5条------ -----正在爬取第1页,第6条------ -----正在爬取第1页,第7条----...-- -----正在爬取第1页,第8条------ -----正在爬取第2页,第0条------ -----正在爬取第2页,第1条------ -----正在爬取第2页,第2条-----

    1.4K40

    python抓取信撤回消息

    信是腾讯公司的一个智能通讯服务的免费应用APP程序,在互联网飞速发展的下,信也得到大众认知,经统计中国人基本上都在用信。中国已经进入了互联网的信时代,中国用户也彻底无法离开信了。...由于信成了我们不可缺少的一部分的时候,信也随时都在更新进步。 由于信APP的更新,信推出了一种消息撤回功能,就是比如向某人发错信息就可以在两分钟内撤回,这样对方是无法看到你所发出的信息内容。...当我看到撤回消息的时候,对于有强迫症的我来说就很折磨,就很想知道对方撤回的什么消息,为了看到撤回消息,还去咨询了专业的研发人员,专业的研发人员告诉我,其实信消息撤回后,也可以通过某种方式看到,毕竟消息发出后他会产生一种消息记录...专业的爬虫研发人员告知我,可以通过python爬虫爬取信撤回的消息,只能抓取自己信的撤回消息数据,学会这招,再也不用好奇对方到底撤回了啥消息,可以参考以下代码: N97AGQ4C2~MWD0@Q]

    2K20

    python模拟新浪登陆功能(新浪爬虫)

    Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

    3.2K60

    python抓取信撤回消息

    信是腾讯公司的一个智能通讯服务的免费应用APP程序,在互联网飞速发展的下,信也得到大众认知,经统计中国人基本上都在用信。中国已经进入了互联网的信时代,中国用户也彻底无法离开信了。...由于信成了我们不可缺少的一部分的时候,信也随时都在更新进步。 由于信APP的更新,信推出了一种消息撤回功能,就是比如向某人发错信息就可以在两分钟内撤回,这样对方是无法看到你所发出的信息内容。...当我看到撤回消息的时候,对于有强迫症的我来说就很折磨,就很想知道对方撤回的什么消息,为了看到撤回消息,还去咨询了专业的研发人员,专业的研发人员告诉我,其实信消息撤回后,也可以通过某种方式看到,毕竟消息发出后他会产生一种消息记录...专业的爬虫研发人员告知我,可以通过python爬虫爬取信撤回的消息,只能抓取自己信的撤回消息数据,学会这招,再也不用好奇对方到底撤回了啥消息,可以参考以下代码: N97AGQ4C2~MWD0@Q]

    1.9K10

    【开源】超话相册下载及超话活跃粉丝抓取

    话题 Vs 超话 之前的话题爬虫 里区分了话题爬虫和关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而超话又不等同于一般的话题,它具有独立的页面地址和样式...一般的话题的地址如下: https://s.weibo.com/weibo?...q=%23%E6%9D%8E%E8%8D%A3%E6%B5%A9%23 其页面样式如下: 而超话的页面样式如下: 其页面地址格式如下: https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21...运行中 图片是实时下载,最后的活跃粉丝是爬完或断网出错结束时才写入 csv,运行一会儿手动断网结束,下面下载的图片及活跃粉丝 开源代码 代码全部开源,地址如下 https://github.com/Python3Spiders...拿到代码后,需要替换两个参数,第一个就是 super_topic_id,即上文所说的超话 id,可以直接在浏览器地址栏复制得到;第二个是 cookie , 由于抓取的核心接口是 /p/aj/proxy,

    1.3K10
    领券