微博数据分析经常需要和地理位置相关联,比如查看某一话题爬虫下发博人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的微博位置爬虫则是直接以位置为切入点爬取微博,只需要输入一个地名,就能抓取在该地点发过的微博具体信息...这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。...都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理。...,并且是微博原图,清晰度比较高,所以下载比较慢,所以为了快速抓取,默认值为 False,不保存,想要保存的话指定为 True 即可;河南暴雨超话时,很多信息是通过图片发布的,所以图片信息也很重要,可以通过...OCR 技术提取出文本,尝试了下,由于该微博保存的图片是原图,图片里面的文本信息几乎都能解析出来。
调用新浪微博显示用户信息 最近需要在开发的安卓项目中添加新浪微博一件关注的功能, 本来是一个很简单的功能, 就是调用新浪微博客户端显示用户信息的 Activity , 然后用户就点击关注按钮就可以了。...本来是很简单的功能, 可以网上找到的几乎都是 JS 的代码, 或者是要注册新浪微博 SDK 的代码, 这么简单的功能应该不用注册什么 SDK 的, 也不想参合什么 JS , 只要研究一下新浪微博客户端的...首先我们需要使用 AXMLPrinter2.jar 反编译新浪微博的 AndroidManifest.xml , 从中查找显示用户信息的页面, 反编译代码如下: java -jar AXMLPrinter2...uid=3444956000 , 有了这个信息, 通过如下的代码调用新浪微博客户端显示用户信息了: var intent = new Intent(Intent.ActionView); var uri...再次鄙视一下新浪微博的开放程度, 居然有这个功能都不开放。
微博发布动态 微博发布 ...} } } 微博发布...:发布 <!
免 cookie cn 微博话题爬虫 大家好,我是刚下班的并更新了微博话题爬虫的月小水长。...com 话题爬虫 BugFix 其次是更新了 WeiboCom 话题爬虫的 bug,这周刚发布 2021 微博爬虫更新及使用指南 ,有读者留言反馈了以下的 bug 现今暂时修复,但是爬虫不会自动停下来了...修复的爬虫文件,获取方式依然在 2021 新版微博话题爬虫发布,回复同样的口令即可获取更新。...站数据更丰富些; 但是缺点也很明显,不支持高级搜索; weibo.com 的好处是筛选条件更加丰富,时间段颗粒度更细,最细达到了以小时为单位; 缺点是需要经常手动更换 cookie; 这里给新开的微信小店留个位置...,感兴趣的可以看看~ 谢谢大家关注,微博爬虫将持续更新,明早或周一更新微博用户信息爬虫~
今天更新的是微博用户信息爬虫,不是用户爬虫,用户爬虫爬的用户主页发过的微博,用户爬虫用 cn 站的还可以用 一个爬取用户所有微博的爬虫,还能断网续爬那种;而微博用户信息爬虫指的是,根据微博用户 id,抓取用户的阳光信用...、性别、地区、学校、公司等信息。...核心代码是根据 uid 获取 userinfo 信息,如下 def getUserInfo(uid): try: uid = int(uid) except:...比如我们利用 2021 新版微博评论及其子评论爬虫发布 爬取了某一条微博的评论,想要获取这些评论者的所有 userinfo,分析它们的地区分布或者性别比例,下面的代码就是干这个的 def dfAddUserInfo...这个函数会把新加的 user_info 字典以 json 形式加到原来的 csv 中,自动新增一列,列名默认取名 user_info; 至于怎么在加了 user_info 的 csv 中遍历想要的地区,性别,学校等信息
网上有一些关于使用Python爬虫来爬取新浪微博数据的教程,但是完整的介绍以及爬取用户所有数据信息比较少,因此这里分享一篇主要通过selenium包来爬取新浪微博用户数据的文章。...目标 爬取新浪微博用户数据,包括以下字段:id,昵称,粉丝数,关注数,微博数,每一篇微博的内容,转发数,评论数,点赞数,发布时间,来源,以及是原创还是转发。...3.获取用户微博页码 在登录之后可以进入想要爬取的商户信息,因为每个商户的微博量不一样,因此对应的微博页码也不一样,这里首先将商户的微博页码爬下来。...与此同时,将那些公用信息爬取下来,比如用户uid,用户名称,微博数量,关注人数,粉丝数目。 ?...抓取的数据包括,微博内容,转发数量,评论数量,点赞数量,发微博的时间,微博来源,以及是原创还是转发。 ? ?
一:获取app-key 和 app-secret 使用自己的微博账号登录微博开放平台,在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装微博 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪微博SDK 2:python有个简单的安装方式:直接在命令行下键入...2认证,我理解为就是用户访问我的应用后将页面导向新浪服务器然后用户输入信息到新浪服务器后授权给我的应用访问用户数据,这里我将的微博授权给下面的程序了),授权后浏览器中的URL类似:https://api.weibo.com...以下为我的关注用户的微博: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?
全文简介 本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。...环境介绍 Python3 Windows-10-64位 微博移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。...接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下: 打开以后点击网络,网络用来记录浏览器和服务器交换的信息。...接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。
最新的话题爬虫新增了 source 字段,这个字段包含了发布手机、超话等诸多信息,可以去 2021 新版微博话题爬虫发布 获取最新的爬虫文件。...新加了之后,新版话题爬虫的字段已经多达十四个,无论是微博 ID、发布时间,内容等微博信息,还是转发数、点赞数和评论数等社区信息,亦或者是用户名、用户主页等用户信息,还是地理位置、发布手机等其他信息,均可以抓取保存...,看到很多读者在后台留言说想要新增一个发布用户的 UID,其实这个 UID 在字段用户主页 user_link 就体现出来了,user_link 里面的数字串就是 UID。...user_id = user_link[user_link.rindex('/')+1:] 同时,最近使用新版微博话题爬虫时,出现 UnboundLocalError 较多 local variable
想用nodejs写个微博客户端发微博,无奈新浪微博的nodejs sdk是OAuth1.0的。 只能自己根据OAuth1.0 改了改。..._accesstoken, callback); }, /********** statuses *********/ //statuses/repost 转发一条微博信息...//statuses/destroy 删除微博信息 //statuses/update 发布一条微博信息 //statuses/upload 上传图片并发布一条微博 //statuses.../upload_url_text 发布一条微博同时指定上传的图片或图片url //emotions 获取官方表情 repost: function(args, callback) {...,用于statuses/upload 上传图片并发布一条微博 fileinfo: function(file) { var name, content_type;
下饭:微博子域名跳转到腾讯 如图所示: ? 新浪微博子域名 help.weibo.com 解析到 1.1.1.1 并且设置跳转 t.qq.com(腾讯微博)。...起因: 今天找回新浪微博密码时候访问到 help.weibo.com,结果是如下页面。 ?...(发现时是不能访问的,至于跳转到腾讯微博,是后面help.weibo.com做了一些操作。) ? 为什么会这样? 当然最终的锅还是在微博上,(也许他的内网在用1.1.1.1?)...就等同于此人拥有了help.weibo.com的解析权,于是这位就带来了今天的下饭操作:跳转到腾讯微博。可能微博会找实习生背锅吧。 我们应该如何避免? 当然,这种行为是不恰当的。
参考:http://blog.csdn.net/k1988/article/details/6684114
在正题之前,先了解一下java下抓取网页上特定内容的方法,也就是所谓的网络爬虫,在本文中只会涉及简单的文字信息与链接爬取。...在测试爬取网页信息的过程中,本人是使用的jsoup工具,因为该工具不仅仅封装了http访问,还有强大的html解析功能,详细使用教程可参考http://www.open-open.com/jsoup/。...接下来就是新浪微博的抓取,一般的http访问新浪微博网站得到的html都是很简略的,因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门...,也就是访问新浪微博的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪微博的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。...weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪微博的cookie,这个方法针对weibo.cn
首先感谢新浪微博提供的免费图床(对外链无限制),以及吊炸天的cdn图片加速服务,从此妈妈再也不用担心我的图床不能用了 微博图床原理: 访问 http://weibo.com/minipublish...使用新浪微博账号登陆 进入到发微博的界面: ?...不需要发布微博,图片只要上传就会存在于图床中 实用微博图床推荐 新浪微博图床 - Chrome 网上应用店 围脖是个好图床 - Chrome 网上应用店 实用云图床推荐 https网页一建生产图床
使用node.js爬虫每天从「新浪微博」上爬取一定数量的微博。主要实现登录,抓取发布微博,抓取关注人和粉丝的功能,暂时把数据存放在MongoDB中。...对微博进行分词,分词是非常复杂的功能,需要机器学习训练模型,因此采用哈工大开源项目「LTP-Cloud」直接调用现成API。感谢哈工大社会计算与信息检索研究中心 (HIT-SCIR)。...weibo_crawler 第一部分是准备数据,随机爬取50w左右的微博用户,然后每天爬取他们前一天发布的微博作为本项目的数据源。...由于新浪微博对爬虫有限制,因此爬取用户微博的时候采用定时器的方式。 由于只有登录了才能获取某个用户的个人信息和关注粉丝信息,而微博爬虫的难点就在于用户登录。...抓取一定的用户后,每天定时爬取这些用户前一天发布的微博。使用cheerio 对返回的页面信息进行解析。
body' => $body,'headers' => $headers)); } } add_action('publish_post', 'post_to_sina_weibo', 0);//给发布文章增加一个分享微博的动作...$tag->name."#"; } /* 修改了下风格,并添加文章关键词作为微博话题,提高与其他相关微博的关联率 */ $string1 = '【文章发布】' . strip_tags.../** * WordPress发布文章同步到新浪微博(带图片&自定义栏目版) * 文章地址:http://zhangge.net/4947.html * 最后更新:2016年12月18日 */ function...post_to_sina_weibo($post_ID) { /* 鉴于很多朋友反馈发布文章空白,临时加上调试代码,若无问题可删除此行,若有问题请将错误信息在本文留言即可 */ ini_set...$tag->name."#"; } /* 修改了下风格,并添加文章关键词作为微博话题,提高与其他相关微博的关联率 */ $string1 = '【文章发布】' .
参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 微博开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String
方法 1、在微博开放平台创建网站接入的应用。 小提示:境外网站可以使用 ping结果加站长综合查询中ip部分的截图作为证明哦。 2、申请通过后,在接口管理-》申请接口,选中“微博高级写入接口” ?...在下面申请理由中,填写如下信息,提交申请后大概一个工作日即可通过。 希望在微博同步中插入特色图片,特申请微博高级写入权限,望批准,感谢~~ ?...代码 /** * WordPress发布文章同步到新浪微博(带图片&自定义栏目版) * 文章地址:http://zhangge.net/4947.html */ function post_to_sina_weibo...($post_ID) { /* 鉴于很多朋友反馈发布文章空白,临时加上调试代码,若无问题可删除此行,若有问题请将错误信息在本文留言即可 */ ini_set('display_errors'...替换成http,抱着试一试的态度,竟然成功了,添加的代码如下: $url = preg_replace('/https:\/\//i','http://',$url); 参考资料: WordPress发布文章同步到新浪微博失败的问题解决与分享
最近几天做了一下新浪微博的sdkdemo。其实也就是把管网上给的demo下下来运行一下。顺便看了一些bug。 首先要了解Oauth2.0授权认证,和SSO 登录功能。...所谓OAuth(即Open Authorization,开放授权),它是为用户资源授权提供了一种安全简单的标准,也就是说用户在访问第三方web或应用的时候,第三方不会知道用户的信息(登录密码等),现在基本都支持...Constants.java 问题: 1.通过Code获取Token部分,WeiboAuth这个类根本没有封装在里面,导致无法响应AuthListener,功能失效 2.短信验证只能3次,3次以后就不能用了 ------微博分享...(粉丝数) ------获取微博状态 ------获取某条微博的评论列表 ------邀请好友 <activity android
领取专属 10元无门槛券
手把手带您无忧上云