首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java网络爬虫抓取新浪微博个人微博记录

接下来就是新浪微博的抓取,一般的http访问新浪微博网站得到的html都是很简略的,因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪微博的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪微博的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪微博并抽取数据(WeiboCrawler.java) WeiboCN.java import...; /** * 利用Selenium获取登陆新浪微博weibo.cn的cookie * @author hu */ public class WeiboCN { /** *...获取新浪微博的cookie,这个方法针对weibo.cn有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪微博用户名

65040

个人主题建站首选微博秀模板,仿新浪微博官网

很久之前就想弄这个仿微博的模板了,但是时间一直不允许,这不抽空弄出来了,主题简单明了,后台设置简单,无需复杂操作,比起以往的CMS主题要简单的多,太适合做个人博客的网站了,当然这不太适合技术和科技播主们...,毕竟这款娱乐元素居多,可以设置独立的背景图,列表卡片(要知道,这些功能只有微博会员才能设置)把你微博上你喜欢的卡片和背景抠出来,复制地址到相关接口就性了。...主题更新日志:(10/08) 删除微博国庆皮肤。 主题更新日志:(09/30) 增加微博国庆皮肤(优先使用国庆皮肤)。 修复部分CSS代码。...卡片背景图(对应)分类列表右侧图片,看图: 这个图片,你可以直接复制新浪微博的地址,然后粘贴在背景图接口,保存就行了。...前台显示: 蓝天白云,是挺好看的,这个最好都采用新浪微博的套装图片,直接复制粘贴就OK啦,其他设置都是基础了,没有什么难度。

3.8K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Java爬取微博数据(一) 微博主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java爬取微博数据,由于本人是后端Java开发,因此没有研究其他爬取微博数据的方法,比如通过Python爬取微博数据。...在爬取微博数据之前,先声明一下,本人爬取的微博数据仅用于测试Java爬取微博数据的可行性,并不会用于其他非正当地方,另外,爬取的数据也都是每个人都可以通过微博客户端正常看到的,不存在爬取隐秘数据的情况。...Cookie ,这里个人建议使用登录账号后从浏览器拿出的 Cookie,可以获取当前登录账号关注过的用户发布的所有微博数据。...关于有效期,百度搜索关于微博登录账号后的 Cookie 有效期是 30天,个人实测了一次,大概十几天后失效,由于中途可能会有其他影响,不一定准确。有时间的大家也可以测一下。...到这里可能有人会觉得从浏览器拿出登录后的 Cookie 操作显得不太高级,且比较笨拙,想要通过代码模拟微博登录从而获取 Cookie,这里个人给出的建议是微博目前的登录逻辑安全性较高,需要短信验证且有动态图验证

    36710

    基于Java爬取微博数据(三) 微博主页用户数据

    上一篇文章简单讲述了基于Java爬取微博数据(二),那么这篇将讲述如何基于 Java 爬取微博主页用户数据。...数据分析在开始爬取微博主页用户数据之前,我们先对之前基于Java爬取微博数据(一)中的微博主页正文列表数据进行分析,看是否可以从中获取到微博主页用户数据。...首先还是按照基于Java爬取微博数据(一)中的方式获取微博主页正文列表数据内容这样操作的目的主要是为了验证你代码中的登录信息cookies是否已经过期,防止误导后面爬取主页用户数据时爬取不到的原因分析。...爬取数据这里我们重新创建一个 main 函数来单独的获取微博主页用户数据, DemoWeiBoInfo.java,整个类的代码比较简单,直接可以获取微博主页用户数据内容,最终执行的结果如图DemoWeiBoInfo.java..."); }}那么到这里,基于Java 爬取微博用户主页数据的任务就实现了,后续还会继续讲解获取微博正文内容图片、视频等相关内容,敬请关注。

    31320

    基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容

    在通过对微博正文内容中的图片 or 视频内容进行分析后,图片 or 视频 链接是可以直接通过 Java 代码下载或者转存的,那么这样就可以补充我们在 【基于Java爬取微博数据(一) 微博主页正文列表数据...在开始进行微博主页正文列表数据 补充 图片 or 视频内容之前,先来分析一下获取到的微博正文列表数据的内容。...含图片微博正文 以及 含视频微博正文 的数据格式基本的分析及对比就结束了,下面开始在 获取微博正文列表内容 DemoWeiBo 的 main 方法中补充这一块内容的获取。...,补充微博正文内容列表 获取 图片 or 视频的操作就完成了,改造后的 DemoWeiBo.java 代码完整版如下package com.ruoyi.web.controller.demo.controller...写在最后到这里,关于爬取微博数据的整体操作就都完成了,主要包括了微博主页列表数据、微博用户主页数据、微博长文本、微博正文内容的图片 or 视频内容以及微博列表内容的转存等操作,感兴趣的可以尝试吧。

    28810

    Java实现QQ登录和微博登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和微博这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发微博、删微博、加关注等等,很危险。...注意事项 微博接口都有频率限制,不过一般不会超过; 需做好错误兼容; 微博直接返回的uid,可以根据这个uid直达用户微博主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 微博的接口是https,并且是post,需要注意; 相关链接 微博开放平台:open.weibo.com/ 微博登录授权机制:

    4.5K20

    Java实现QQ登录和微博登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和微博这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接。...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发微博、删微博、加关注等等,很危险。...注意事项 微博接口都有频率限制,不过一般不会超过; 需做好错误兼容; 微博直接返回的uid,可以根据这个uid直达用户微博主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 微博的接口是https,并且是post,需要注意; 相关链接 微博开放平台:open.weibo.com/ 微博登录授权机制:open.weibo.com

    3.3K10

    Java实现QQ登录和微博登录

    前言 个人网站最近增加了评论功能,为了方便用户不用注册就可以评论,对接了 QQ 和微博这 2 大常用软件的一键登录,总的来说其实都挺简单的,可能会有一点小坑,但不算多,完整记录下来方便后来人快速对接...,对接第三方登录的关键就是如何确定用户是合法登录,如果确定这次登录的和上次登录的是同一个人并且不是假冒的。...随意发微博、删微博、加关注等等,很危险。...注意事项 微博接口都有频率限制,不过一般不会超过; 需做好错误兼容; 微博直接返回的uid,可以根据这个uid直达用户微博主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 微博的接口是https,并且是post,需要注意; 相关链接 微博开放平台:open.weibo.com/ 微博登录授权机制:open.weibo.com

    3K10

    Python调用微博API获取微博内容

    一:获取app-key 和 app-secret     使用自己的微博账号登录微博开放平台,在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装微博 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪微博SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新微博 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的微博: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

    4.3K41

    微博情绪分析

    使用node.js爬虫每天从「新浪微博」上爬取一定数量的微博。主要实现登录,抓取发布微博,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的微博用户,然后每天爬取他们前一天发布的微博作为本项目的数据源。...由于新浪微博对爬虫有限制,因此爬取用户微博的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而微博爬虫的难点就在于用户登录。...对抓取微博失败的,Retry 5次 2. 放弃非人类 什么是非人类呢?...我在抓取一个人的关注列表的时候发现 原来「北京」并不是一个用户,而是一个话题,打开「北京」页面发现它的Dom结构与普通用户的Dom结构并不相同,于是果断放弃非人类。

    1.5K10

    再谈备份微博

    h5 https://m.weibo.cn/ ,这个扩展也是基于h5微博接口来备份微博的。...之前文章 一键备份微博并导出生成PDF,顺便用Python分析微博账号数据 分析过李健的微博词云图,他的微博关键词为音乐,北京,朋友,歌手,电影,居然还提到了周杰伦。 ?...每个月转发评论点赞总数图,可以看到2016-2018年的微博数据是高峰期。 ? 原创微博和转发微博数据比例。 ? 李健发微博的工具主要为pc网页和iPad。 ?...麋鹿微博工具箱 如果你不想微博哪天被人挖坟,可以将微博批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿微博工具箱。...开始扫描你的微博,微博多的话可能慢点。 ? ? 选择时间段,可以对微博删除,恢复公开,仅自己可见,仅粉丝可见,仅好友圈可见。 ?

    1.8K31
    领券