首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java网络爬虫抓取新浪个人记录

接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名 * @param password...新浪密码 * @return * @throws Exception */ public static String getSinaCookie(String

44540

个人主题建站首选秀模板,仿新浪官网

很久之前就想弄这个仿的模板了,但是时间一直不允许,这不抽空弄出来了,主题简单明了,后台设置简单,无需复杂操作,比起以往的CMS主题要简单的多,太适合做个人博客的网站了,当然这不太适合技术和科技播主们...,毕竟这款娱乐元素居多,可以设置独立的背景图,列表卡片(要知道,这些功能只有会员才能设置)把你上你喜欢的卡片和背景抠出来,复制地址到相关接口就性了。...主题更新日志:(10/08) 删除国庆皮肤。 主题更新日志:(09/30) 增加国庆皮肤(优先使用国庆皮肤)。 修复部分CSS代码。...卡片背景图(对应)分类列表右侧图片,看图: 这个图片,你可以直接复制新浪的地址,然后粘贴在背景图接口,保存就行了。...前台显示: 蓝天白云,是挺好看的,这个最好都采用新浪的套装图片,直接复制粘贴就OK啦,其他设置都是基础了,没有什么难度。

3.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

Python调用API获取内容

一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

3.5K41

情绪分析

使用node.js爬虫每天从「新浪」上爬取一定数量的。主要实现登录,抓取发布,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的用户,然后每天爬取他们前一天发布的作为本项目的数据源。...由于新浪对爬虫有限制,因此爬取用户的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而爬虫的难点就在于用户登录。...对抓取失败的,Retry 5次 2. 放弃非人类 什么是非人类呢?...我在抓取一个人的关注列表的时候发现 原来「北京」并不是一个用户,而是一个话题,打开「北京」页面发现它的Dom结构与普通用户的Dom结构并不相同,于是果断放弃非人类。

1.3K10

再谈备份

h5 https://m.weibo.cn/ ,这个扩展也是基于h5接口来备份的。...之前文章 一键备份并导出生成PDF,顺便用Python分析账号数据 分析过李健的词云图,他的关键词为音乐,北京,朋友,歌手,电影,居然还提到了周杰伦。 ?...每个月转发评论点赞总数图,可以看到2016-2018年的数据是高峰期。 ? 原创和转发数据比例。 ? 李健发的工具主要为pc网页和iPad。 ?...麋鹿工具箱 如果你不想哪天被人挖坟,可以将批量删除、设置仅自己可见、仅好友可见,这里推荐一个工具麋鹿工具箱。...开始扫描你的多的话可能慢点。 ? ? 选择时间段,可以对删除,恢复公开,仅自己可见,仅粉丝可见,仅好友圈可见。 ?

1.6K31

新浪SDKdemo

最近几天做了一下新浪的sdkdemo。其实也就是把管网上给的demo下下来运行一下。顺便看了一些bug。 首先要了解Oauth2.0授权认证,和SSO 登录功能。...(PS:压缩包里面还有一个pdf文件,里面有对源码的一部分注释,可以参考) 整个软件包含如下部分; ------主界面------ <activity android:name=".WBDemoMainActivity...Constants.java 问题: 1.通过Code获取Token部分,WeiboAuth这个类根本没有封装在里面,导致无法响应AuthListener,功能失效 2.短信验证只能3次,3次以后就不能用了 ------<em>微</em><em>博</em>分享...openapi.WBUserAPIActivity" />------获取用户昵称用户信息(粉丝数) ------获取状态...------获取某条的评论列表 <activity android:name=".

1.4K30

python模拟新浪登陆功能(新浪爬虫)

首先我们查看登陆页面源码 ?...由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

3.1K60

中的用户画像:中的用户模型

身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。...经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从的角度出发,对中用户模型的目的、维度和建模任务进行描述,并作为后续用户模型相关文章的总述。...从自身的角度来讲,构建用户模型的目的包括: (1) 完善及扩充用户信息 用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。...接下来主要介绍一下画像中兴趣维度的构建方法。 2. 用户兴趣分析 (1) 标签来源 用户自标签、达人或认证标签、公司、学校、群标签、星座、关键词……这些来源都可能成为用户的标签。...小结 用户画像的目的是将用户信息标签化,本文中介绍针对本身的特点介绍用户画像的构建,该用户画像主要还是从的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。

4K100

新浪王传鹏:推荐架构的演进

两个核心基础点:一是用户关系构建,二是内容传播,推荐一直致力于优化这两点,促进发展。如图1所示: ?...图1 推荐的使命 在推荐发展的过程中遇到体系方向的变化、业务的不断更迭、目标的重新树立,其产品思路、架构以及算法也随之进行变迁。...为了便于理解推荐架构演进,在介绍之前需要陈述一下推荐在流程上的构成,其实这个和本身没有关系,理论上业内推荐所存在的流程基本都是相同的。...针对候选,产生了具有抽象意义的推荐方法集合 4 总结 上文中对推荐架构演进做了较为详实的介绍,在这个演进的过程团队以及个人收益很大,技术与业务的关系在架构中得到了很好的体现。...3) 推广某个框架和工具最好的方式不是行政命令也不是请客吃饭,而是的大家都是参与者,如同开源项目,每个人都是它的主人,这样人人维护,人人使用。

1.7K20
领券