首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python模拟新浪登陆功能(新浪爬虫)

domain = logindomain userlogin.setLoginInfo(username,password,domain) userlogin.login() 模拟登录新浪...(Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。...1,获取Cookie 很简单,使用Chrome浏览器的”开发者工具(Developer Tools)“或者Firefox的"HTTPFOX"等插件就可以直接查看自己新浪的Cookie。

3.1K60

python 新浪爬虫

V账号的用户基本信息,如:昵称、地址、头像、关注人数、粉丝数、性别、等级等 def get_userInfo(id): url='https://m.weibo.cn/api/container...说明:"+description+"\n"+"关注人数:"+str(guanzhu)+"\n"+"粉丝数:"+str(fensi)+"\n"+"性别:"+gender+"\n"+"等级:"+str.../0070m4EAly8fpp1pwqq26j3050050jrb.jpg 是否认证:False 说明:知名财经主 头条文章作者 签约自媒体 关注人数:3301 粉丝数:111 性别:m 等级...:11 -----正在爬取第1页,第0条------ -----正在爬取第1页,第1条------ -----正在爬取第1页,第2条------ -----正在爬取第1页,第3条---...--- -----正在爬取第1页,第4条------ -----正在爬取第1页,第5条------ -----正在爬取第1页,第6条------ -----正在爬取第1页,第7条----

1.4K40

新浪小爬虫

不光如此,因为有些用户的简介里有一些特殊符号,®或者笑脸之类的,于是在这里纠结了很久,好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢,开始的时候一个小时能采集大概1.4w条的用户信息...,但是由于我是从每个人的关注列表里采集的,所以很快就会遇到爬到许多已经爬过的用户,所以总的来说效率不是很高,怪不得那个“中国爬盟”要发动群众的力量去爬 而且有些担心爬久了账号被封,我也没敢尝试太久...,name,common): ''''' save_user(uuid,uid,name,common) 用于保存诗句,uuid->uid是用户关系,uuid关注...now)+'\n'+str(point)) fileHandle.close() def creepy_myself(): ''''' 这是用来扫描你自己的关注列表的...def creepy_others(uid): ''''' 扫描制定uid用户的信息 和上面一样代码有冗余 因为要先得到这个用户的关注人数

86040

通过selenium抓取新浪

由于新浪的手机网页的访问加入了验证码,所以抓取新浪的后门行不通了,经过一系列的研究,最终使用selenium工具模仿浏览器行为访问新浪公众号,因为浏览器访问网页时是以访客的形式访问 ,所以避免了用户登录这一过程...,可以顺利的进行指定的内容抓取,selenium的缺点是无法确定页面加载完毕的时间也js执行完毕的时间,所以在抓取效率方面会有所牺牲。...所需要的jar包,导入至工程中,然后下载使用的浏览器对应的驱动,本文中使用的是谷歌浏览器,对应的驱动是一个exe文件,推荐放在谷歌浏览的安装目录下,在代码中配置路径即可,本文以Java开发环境为例,抓取新浪指定的内容...WebDriver driver = new RemoteWebDriver(service.getUrl(), DesiredCapabilities.chrome()); // 让浏览器访问主页...content.contains("转发")) { System.out.println("content:"+content); //抓取评论 if (elements3.get(a

20810

Java网络爬虫抓取新浪个人记录

接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn...有效,对weibo.com无效 * weibo.cn以明文形式传输数据,请使用小号 * @param username 新浪用户名 * @param password...新浪密码 * @return * @throws Exception */ public static String getSinaCookie(String

46340

新浪王传鹏:推荐架构的演进

引言 (Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。...两个核心基础点:一是用户关系构建,二是内容传播,推荐一直致力于优化这两点,促进发展。如图1所示: ?...图1 推荐的使命 在推荐发展的过程中遇到体系方向的变化、业务的不断更迭、目标的重新树立,其产品思路、架构以及算法也随之进行变迁。...为了便于理解推荐架构演进,在介绍之前需要陈述一下推荐在流程上的构成,其实这个和本身没有关系,理论上业内推荐所存在的流程基本都是相同的。...[内部使用的一种数据队列] ?

1.8K20

【爬虫】新浪爬虫——环境部署

通过命令pip install selenium安装selenium,它是自动测试、爬虫的工具 4.然后修改代码中的用户名和密码,填写你自己的用户名和密码 5.运行程序,自动调用Firefox浏览器登陆...注意:手机端信息更加精致简单,而且没有动态加载的一些限制,但是如或粉丝id只显示20页,这是它的缺点; 而客户端可能存在动态加载,如评论和,但是它的信息更加完整。...[源码] 爬取移动端信息 spider_selenium_sina_content.py 输入: 明星用户id列表,采用URL+用户id进行访问(这些id可以从一个用户的关注列表里面获取) SinaWeibo_List_best..._1.txt 输出: 信息及用户基本信息 SinaWeibo_Info_best_1.txt Megry_Result_Best.py 该文件用户整理某一天的用户信息,如2016年4月23...日 [源码] 爬取客户端信息 爬取客户端信息,但是评论是动态加载,还在研究中 weibo_spider2.py

28210

调用新浪显示用户信息

调用新浪显示用户信息 最近需要在开发的安卓项目中添加新浪一件关注的功能, 本来是一个很简单的功能, 就是调用新浪博客户端显示用户信息的 Activity , 然后用户就点击关注按钮就可以了。...本来是很简单的功能, 可以网上找到的几乎都是 JS 的代码, 或者是要注册新浪 SDK 的代码, 这么简单的功能应该不用注册什么 SDK 的, 也不想参合什么 JS , 只要研究一下新浪博客户端的...首先我们需要使用 AXMLPrinter2.jar 反编译新浪的 AndroidManifest.xml , 从中查找显示用户信息的页面, 反编译代码如下: java -jar AXMLPrinter2..., 则直接调用浏览器打开那个地址; 如果用户安装了新浪, 则会显示下面的对话框让用户选择: ?...再次鄙视一下新浪的开放程度, 居然有这个功能都不开放。

60620

wordpress博客添加新浪挂件

我一直想着把我的新浪嵌入到博客中,今天抽空到网上搜索了一下相关的插件,没有找到。后来看到了一篇如何把嵌入WordPress博客的方法,终于实现成功了。感谢分享这些的朋友们。...一直想着把我的新浪嵌入到博客中,今天终于等来了这个功能的实现。 想让你的博客读者顺带看看你的吗?新浪现在可以嵌入到多种博客之中了,这篇讲讲如何在wordpress博客添加新浪挂件。...博客挂件添加地址:http://t.sina.com.cn/person/widget.php (这里不仅可以将新浪添加到WordPress博客,还可以添加到新浪博客、网易博客、qq空间、博客大巴等以及其他一些支持自定义脚本的博客...1、登陆新浪,选择工具–博客挂件,我的博客是 wordpress,选择 wordpress,如图所示: 2、根据自己博客的情况,对挂件进行颜色、大小等的设置,如下图所示,复制代码

36120

后厂村:新浪,只有

“随时随地发现新鲜事”,正如的slogan所说,数亿人用它查看最新体育赛事、关注娱乐新闻、跟踪社会热点新闻。毫不夸张地说,承载了一代人最全面的互联网记忆。...当逐渐变成了新浪的代名词,曾经以“四大门户网站之一”自居的新浪只剩下了一颗“摇钱树”,不得不把厚望都放在一个篮子里的新浪,在今后的发展中必然要面临很多掣肘。...辉煌难继,2021年3月23日,新浪正式从美国纳斯达克退市,宣告新浪称王时代的落幕。 02 新浪最大的倚仗 回头再看,应该是新浪走出的最对的一步棋。...在2020年腾讯关闭后,新浪也彻底删除了“新浪”的前缀,成为的真正话事人,并于2021年12月8日正式挂牌香港联交所,实现二次上市。 至此,行业霸主的地位已然无人质疑。...04 只有新浪何去何从 新浪,只剩下一支主力军,而面临的竞争也早已不局限在短视频赛道。在争抢用户时间的比拼中,长视频、资讯平台、各类社区平台都在挤压着

33520
领券