首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java网络爬虫抓取新浪个人记录

接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie(WeiboCN.java) 利用WebCollector和获取的cookie爬取新浪并抽取数据(WeiboCrawler.java) WeiboCN.java import...; /** * 利用Selenium获取登陆新浪weibo.cn的cookie * @author hu */ public class WeiboCN { /** *...获取新浪的cookie,这个方法针对weibo.cn有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名

44140

Python模拟登陆

经过的一天的研究,把模拟登陆基本上弄清楚了,下面就把过程详细说明。...Pycharm 3.浏览器:Chrome 4.使用的库:re, rsa, base64, requests, PIL, urllib ---- 模拟登陆过程 弄清楚所需的数据 首先我们在Chrome浏览器中打开登陆界面...,然后Ctrl+shift+i开启开发者工具,在开发者工具的Network选项里找到Preserve log并勾选,然后登录你的。...我们只需要找到这几个数据就可以模拟登录到,那么怎么找到这些数据呢?接着往下看… 获取servertime,nonce等数据 在登录页面里打开开发者工具,清除Network里的数据。...wvr=5&lf=reg"}}); 提取你自己的uniqueid值放入下列网址中get得到你的主页信息。

1.3K90
您找到你想要的搜索结果了吗?
是的
没有找到

本地Markdown编写更流畅, 新浪图床来帮忙

Markdown写文章, 如果文章中使用了本地配图, 那本地配图就要和文章一起打包,否则别人是看不到图片的 如果把本地图片放到网络服务器, 然后直接把图片的url粘贴到文章里面, 就可以免除图片打包的步骤...新浪的服务有两个为人称道的特色: 一是遇到明星八卦新闻必然崩溃(明星以挤跨为荣!)...二是图片服务器极少崩溃(是个好图床!) 如何获取本地图片的url? 答: 将图片上传到新浪服务器 ?...image 使用方法 登录新浪 ?...当网络环境较差时, 这个圆点的颜色会不太准(会一直保持灰色), 如果你的已经登录了,而且网络正常, 可以尝试上传图片, 不用理会这个圆点的颜色 上传图片 ? ?

70620

Java实现QQ登录和登录

其实这个并不用我们特别操心,就以登录为例,用户登录成功之后会回调一个code 给我们,然后我们再拿code去那换取accessToken,如果这个code是用户乱填的,那这一关肯定过不了,所以,...随意发、删、加关注等等,很危险。...引导用户登录 视觉素材(https://open.weibo.com/wiki/标识下载)下载在这里,页面合适位置放一个登录按钮: function weiboLogin() { let...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

3K10

Java实现QQ登录和登录

其实这个并不用我们特别操心,就以登录为例,用户登录成功之后会回调一个code 给我们,然后我们再拿code去那换取accessToken,如果这个code是用户乱填的,那这一关肯定过不了,所以,...随意发、删、加关注等等,很危险。...引导用户登录 视觉素材(https://open.weibo.com/wiki/标识下载)下载在这里,页面合适位置放一个登录按钮: function weiboLogin(){ let weiboAppId...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:open.weibo.com

2.7K10

Java实现QQ登录和登录

其实这个并不用我们特别操心,就以登录为例,用户登录成功之后会回调一个code 给我们,然后我们再拿code去那换取accessToken,如果这个code是用户乱填的,那这一关肯定过不了,所以,...随意发、删、加关注等等,很危险。...引导用户登录 视觉素材(https://open.weibo.com/wiki/标识下载)下载在这里,页面合适位置放一个登录按钮: function weiboLogin() { let...注意事项 接口都有频率限制,不过一般不会超过; 需做好错误兼容; 直接返回的uid,可以根据这个uid直达用户主页 https://weibo.com/u/xxxxx ,所以可以把用户头像链接到这里...; 其实也有现成的js-sdk,可以根据自己实际需要选择是否使用; 的接口是https,并且是post,需要注意; 相关链接 开放平台:open.weibo.com/ 登录授权机制:

4.2K20

Python调用API获取内容

一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

3.5K41

Python统计 新浪 各种表情使用频率

新浪API积累了广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条里面表情使用情况,统计结构在最后。...无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了...1、调用新浪JAVA API下载广场数据 步骤思路: 初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:...要取得数据就是内容,先练一下手玩玩。 3、Python处理数据 目标:查看用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。...步骤: $ 读取TXT文件,递归处理每一行 $ 单独提取出字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率 $

1K50

Python统计新浪各种表情使用频率

新浪API积累了广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条里面表情使用情况,统计结构在最后。...无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了...1、调用新浪JAVA API下载广场数据 步骤思路: 初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:...要取得数据就是内容,先练一下手玩玩。 3、Python处理数据 目标:查看用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。...步骤: $ 读取TXT文件,递归处理每一行 $ 单独提取出字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率 $

73740

java怎么_如何使用Java编写程序

2)Internet连接 3)管理能力 为了开始编程,我们首先需要下载Java开发套件(JDK)和Java软件。您的计算机可能已经具有JavaRuntimeEnvironment。...这通常被称为JRE,或简称Java。这使您可以运行Java程序,但不能对它们进行编码。为了下载允许您对Java软件进行编程的JDK,您首先需要转到以下网站。您应该在显示的页面上。...步骤4:下载Java开发工具包 最后,我们将开始下载JDK。向下滚动页面;确保接受用户许可协议。接下来,单击适合您计算机的JDK下载的正确版本(X-86或X-64。)...键入以下内容:“cd我的文档\Java编码”。接下来,键入“javacFirstApp.java”。最后,输入“javaFirstApp”。如果正确遵循了指示,则输入的文本应在命令提示符的下一行弹出。...恭喜,您已成功用Java编写了第一个程序!我的程序如下所示。 第10步:但是现在。..? 该程序仅代表可提供的大量成就的一小部分通过Java编程。

3.2K20

java那个软件编,java编译软件 编写java程序什么软件?

现在企业开发软件最多用的就是eclipse,因为他是开源的,而且本身就是JAVA编写的,所以兼容性更好。...java什么编译软件 JCreator或eclipse, Jbuilber占用内存太大 java本身的就是javac和java 常用Java编程软件有哪些 常用的倒是有很多,比如:JDK,NetBases...NetBases是java开发桌面应用程序的。...下面开始你的第一个java程序吧。 java一般什么软件编译 eclipse、NetBeans、Xcode还有很多,如果牛的话,记事本加jdk自带的命令也可以。...文件 7.进入HelloWorld.class的目录下,执行java HelloWorld命令,执行完成后会看到执行结果 java编译软件 JBuilder 或 MyEclipse ,建议MyEclipse

2.9K30

一键备份并导出生成PDF,顺便Python分析账号数据

这里再分享下如何快速导出你的所有数据,然后用Python分析某个账号的数据,比如高赞,转发,评论词云,发布时间轴,以及使用的手机。...,即使炸号的, 只要能登录 https://m.weibo.cn/ 后还能看见自己的就可以备份。...打开软件后登录自己的,这里也可以刷。 ? 打开系统设置可以看到总共条数2695,有269页,抓取时间要2个多小时。 ? 设置下排序规则,是否需要图片,PDF清晰度还有时间范围。 ?...filter为1表示分析原创,如果分析所有填0即可。since_date为从哪天的开始分析,然后就是把上面复制的cookie填到对应位置。 ?...原创和转发数据比例。 ? 李健发的工具主要为pc网页和iPad。 ? 生成的目录下还有所有的图片,视频,txt文件和excel数据。 ?

8.4K41

基于数据 Python 打造一颗“心”

作为程序员,我准备了一份特别的礼物,用以往发的数据打造一颗“爱心”,我想她一定会感动得哭了吧。哈哈 ?...准备工作 有了想法之后就开始行动了,自然最先想到的就是 Python 了,大体思路就是把数据爬下来,数据经过清洗加工后再进行分词处理,处理后的数据交给词云工具,配合科学计算工具和绘图工具制作成图像出来...,涉及到的工具包有: requests 用于网络请求爬取数据,结巴分词进行中文分词处理,词云处理库 wordcloud,图片处理库 Pillow,科学计算工具 NumPy ,类似于 MATLAB 的...查看的总页数是101,考虑到一次性返回一个列表对象太费内存,函数 yield 返回一个生成器,此外还要对文本进行数据清洗,例如去除标点符号,HTML 标签,“转发”这样的字样。...分词处理 从 weibo.csv 文件中读出来的每一条进行分词处理后再交给 wordcloud 生成词云。

85450
领券