首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

新浪爬虫

python的中文编码实在是非常麻烦,不光如此,因为有些用户的简介里有一些特殊符号,®或者笑脸之类的,于是在这里纠结了很久,好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢...,开始的时候一个小时能采集大概1.4w条的用户信息,但是由于我是从每个人的关注列表里采集的,所以很快就会遇到爬到许多已经爬过的用户,所以总的来说效率不是很高,怪不得那个“中国爬盟”要发动群众的力量去爬...而且有些担心爬久了账号被封,我也没敢尝试太久,最后爬了5w条用户信息,8w条关系数据,我拿着数据目前也没什么用,所以就这样吧 ?...python没看多久,代码有冗余的地方,其实主要就是三个函数save_user(),creepy_myself(),creepy_others() 具体的就看代码的注释吧,下载提示看文章末尾...,和下面的一样(代码有冗余,因为要先爬出来用户的关注数目来计算有多少页) [python] view plaincopy #coding=utf8 import urllib2 import

83740

Python调用API获取内容

一:获取app-key 和 app-secret     使用自己的账号登录开放平台,在开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key...在“开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开左边“应用信息”栏,会看见“App key”和“App Secret”的字样,这两个东西是要在后面程序中使用的。...三:安装 python SDK 有两种安装方式: 1:http://github.liaoxuefeng.com/sinaweibopy/下载新浪SDK 2:python有个简单的安装方式:直接在命令行下键入...: sudo pip install sinaweibopy 四:实例验证,获取当前登录用户及其所关注(授权)用户的最新 这里需要注意的是在浏览器弹出一个页面,要先点击“授权”(这里进行的OAuth...以下为我的关注用户的: ? ? ? ? 拿上边代码为例,这里我们获取的信息有: ?

3.4K41
您找到你想要的搜索结果了吗?
是的
没有找到

Swift 仿列表

前言     鉴于目前Swift的ABI(应用程序二进制接口)、API(应用程序编程接口) 基本稳定,对于Swift的学习有必要提上日程了,这个Swift仿列表的效果是我最近一边学习《Swift入门到精通...图集浏览效果 一、UITextView富文本的实现 标题的富文本显示样式我是参考的:@用户昵称、#话题#、图标+描述、[表情]、全文:限制显示字数,点击链接跳转或查看图片 比如第一条数据的标题原始字符串为...height return ceil(height) } } 二、图片转场和浏览动画 图片的转场动画以及捏合放大缩小、触摸点双击放大缩小、拖拽过渡转场等图集浏览动画 是参考信的效果来实现的...,经过不断反复的去用和观察信的动画,逐渐完善代码逻辑和动画效果。

1.3K30

python 新浪爬虫

/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/7/1 上午3:29 # @Author : BrownWang # @Email.../0070m4EAly8fpp1pwqq26j3050050jrb.jpg 是否认证:False 说明:知名财经主 头条文章作者 签约自媒体 关注人数:3301 粉丝数:111 性别:m 等级...:11 -----正在爬取第1页,第0条------ -----正在爬取第1页,第1条------ -----正在爬取第1页,第2条------ -----正在爬取第1页,第3条---...--- -----正在爬取第1页,第4条------ -----正在爬取第1页,第5条------ -----正在爬取第1页,第6条------ -----正在爬取第1页,第7条----...-- -----正在爬取第1页,第8条------ -----正在爬取第2页,第0条------ -----正在爬取第2页,第1条------ -----正在爬取第2页,第2条-----

1.4K40

python模拟新浪登陆功能(新浪爬虫)

Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。...由于要用的一部分数据用API获取不方便, 所以还是要自己写个爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。...接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #!...很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。...熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

3.1K60

程序·云开发实战 - 迷你

前言 本文将手把手教你如何写出迷你版的一行行代码,迷你版包含以下功能: Feed 流:关注动态、所有动态 发送图文动态 搜索用户 关注系统 点赞动态 个人主页 使用到的云开发能力: 云数据库 云存储...由于社交平台一般不会限制用户的昵称,所以如果每条迷你都存储昵称,那将来每次用户修改一次昵称,就要遍历数据库把所有迷你项都改一遍,相当耗费时间,所以我们不如存储一个 userId,并另外把 id...3.4 addPoster 与 云存储 发送新的迷你,需要一个编辑新迷你的界面,路径我定为 pages/circle/add-poster/add-poster: <view class="app-poster-container...我们先做一个初步版本,因为现在 poster_users 中只有一条数据,所以仅先展示自己的迷你<em>微</em><em>博</em>。...结语 那么关于迷你版<em>微</em><em>博</em>开发实战介绍就到此为止了,更多资料可以直接下载源码查看哦。

11.4K3524

Python 制作抓取 GUI 程序

在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,抓取工具,先来看下最终的效果 整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能 功能布局...我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变 创建 Widget 对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget..."""子进程查询""" class WeiBoQueryThread(QThread): # 创建一个信号,触发时传递当前时间给槽函数 update_data = pyqtSignal...weibo_page = None total_pv = 0 timestamp = str(int(time.time())) def run(self): # 爬虫...,这里就不再展开说明了,我是把所有爬虫的代码都封装好了,这里直接调用暴露的接口即可 ❝对爬虫感兴趣的同学可以点点赞和在看,如果数量可观就专门写一篇文章,谢谢大家 词云制作 对于词云的制作,我们还是先通过

58210

Python selenium实现自动登录

(一)编程环境 操作系统:Win 10 编程语言:Python 3.6 (二)安装selenium 这里使用selenium实现。...如果没有安装过python的selenium库,则安装命令如下 pip install selenium (三)下载ChromeDriver 因为selenium要用到浏览器的驱动,这里我用的是Google...(四)分析登录界面 通常而言,m站的网页结构比pc站要简单的多,咱们可以从m站入手。...m站登录界面的网址是 https://passport.weibo.cn/signin/login 在Chrome浏览器中打开此地址,并右键点击界面的任何位置-->查看网页源代码,发现邮箱/手机号框的...(五)编写python程序 from selenium import webdriver import time browser = webdriver.Chrome("C:\Program Files

1.1K10

Python模拟登陆

经过的一天的研究,把模拟登陆基本上弄清楚了,下面就把过程详细说明。...---- 工具和环境 1.语言:Python3 2.IDE: Pycharm 3.浏览器:Chrome 4.使用的库:re, rsa, base64, requests, PIL, urllib ---...- 模拟登陆过程 弄清楚所需的数据 首先我们在Chrome浏览器中打开登陆界面,然后Ctrl+shift+i开启开发者工具,在开发者工具的Network选项里找到Preserve log并勾选,然后登录你的...我们只需要找到这几个数据就可以模拟登录到,那么怎么找到这些数据呢?接着往下看… 获取servertime,nonce等数据 在登录页面里打开开发者工具,清除Network里的数据。...wvr=5&lf=reg"}}); 提取你自己的uniqueid值放入下列网址中get得到你的主页信息。

1.2K90

爬虫,python用户主页小姐姐图片内容采集爬虫

python爬虫,爬虫,需要知晓用户id号,能够通过抓取用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的! ?...要抓取的地址:https://weibo.com/u/5118612601 BUT,我们实际应用的抓取地址:https://m.weibo.cn/u/5118612601(移动端的地址) ?...----" + "\n") fh.write(f"地址: {str(scheme)}\n内容:{raw_text}\n"...手里头有二份爬虫的源码,不同的爬取地址和思路,一起分享给大家,仅供参考学习! 一份还包含GUI界面,当然这是本渣渣参考的主要来源代码! ? 亲测可运行哈!! 关注本渣渣信公众号:二爷记 ?...后台回复关键字:“爬虫” 获取所有源码

1K20

Python姿势 - # Python网络爬虫之如何通过selenium模拟浏览器登录

Python网络爬虫之如何通过selenium模拟浏览器登录 登录接口很混乱,需要我们通过selenium来模拟浏览器登录。...``` 然后我们需要下载一个浏览器驱动,推荐使用Chrome,下载地址:http://chromedriver.storage.googleapis.com/index.html,下载好后解压放到Python...接下来我们通过代码来模拟登录: ```python from selenium import webdriver driver = webdriver.Chrome() driver.get("https...pl_login_logged"]/div/div[3]/div[6]/a').click() ``` 代码很简单,首先我们通过selenium的webdriver来控制浏览器,然后通过get方法打开首页...通过以上代码我们可以模拟登录,如果遇到登录界面有验证码,我们可以通过打码平台来解决,比如云打码平台,代码示例: ```python from selenium import webdriver

60420

使用Python爬取表情包

表情包是大家聊天的时候的必备,之前在知乎上爬取了一些表情包,但是已经用的久了该换新的了,所以我们再通过爬虫技术去爬一波表情包吧。...本来这个爬虫是想作为讲python异步爬虫的一个例子的,昨天代码写完测试了一下,结果是我账号和ip都直接被封了,然后我去搜了一下别人写的异步爬虫教程,测试用的都是些没啥反爬措施的网站。...于是今天改了下代码,就先整个普普通通的爬虫算了。鉴于之前IP被封,所以这次在在访问的时候我加上了代理。关于选择代理也是让人很烦恼的事,网上的代理太多了,靠谱的太少。...StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); 访问除了像代理和一些反爬机制需要我们做好以外并没有什么难度...,到此这篇关于Python模拟登录并爬取表情包的文章就介绍到这了,大家有哪些意见可以发出来一起交流交流。

1K20

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券