首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏作者
174
文章
274449
阅读量
108
订阅数
Python 101:如何从RottenTomatoes爬取数据
今天,我们将研究如何从热门电影网站Rotten Tomatoes爬取数据。你需要在这里注册一个API key。当你拿到key时,记下你的使用限制(如每分钟限制的爬取次数)。你不要对API进行超限调用,这可能会使key失效。最后,阅读你将要使用的API的文档是一个好办法。这里有几个链接:
大数据弄潮儿
2018-05-14
2.2K0
Scrapy递归抓取简书用户信息
好久没有录制实战教程视频,大邓就在圣诞节后直接上干货。 之前写过一期【视频教程-用python批量抓取简书用户信息】的文章,是自己造的轮子,今天我趁着刚入门scrapy和xpath,操刀重写这个任务。 一、实战项目简介递归 我们要大批量获取简书网站上的用户数据,最直接的办法是给一个初识的用户url,从这个用户的关注的和粉丝中再抽取url,循环往复,周而复始。这其实就是递归。 数据项 获取到的url,我们需要对其进行请求,解析出想要的数据 📷 昵称-nickname 关注数-followed 粉丝数- fol
企鹅号小编
2018-01-26
1.3K0
Python自学笔记——多线程微信文章爬取
# -*- coding: utf-8 -*- """ Created on Tue Dec 26 10:34:09 2017 @author: Andrew """ #线程1专门获取对应网址并处理为真是网址,然后将网址写入队列urlqueue中,该队列专门用来存放具体文章的网址 #线程2与线程1并行,从线程1提供的网址中依次爬取对应文章信息并处理,处理后将我们需要的结果写入对应的本地文件中 #线程3主要用于判断程序是否完成。因为在此如果没有一个总体控制的线程,即使线程1、2执行完,也不会退出程序 #在
企鹅号小编
2018-01-25
5840
python3.6抓取100知乎用户头像详解(四)
因公众号编辑器对代码不友好 在手机上阅读体验不佳 建议前往文末我的知乎文章链接 目标:抓取知乎最高点赞者的关注者的头像,并下载于本地文件夹。 我们采用:requests(获取)——json——urlretrieve(下载) 废话不多说,先上结果与代码: 📷 📷 前言: :请求头(headers) 知乎对爬虫进行了限制,需要加上headers才能爬取。 请求头信息承载了关于客户端浏览器、请求页面、服务器等相关信息,用来告知服务器发起请求的客户端的具体信息。 对比知乎的请求头信息和常见的请求头信息,发现知乎请求
企鹅号小编
2018-01-15
8300
python学习手册-爬爬那些年咱没见过的校花图片
上边这张截图就是这个例子在启动后获取的图片。 下面咱们就开始来写这个例子。 我本的开发的环境: 1、IED开发工具:使用是的Pycharm 2、python 版本使用是3.6版本。 一、打开pytharm创建一下python工程 1. 打开软件,点击左上角“文件(File)”—>“创建新工程(New Project)”; 2. 选择弹出界面左上角的“创建项目(Create Project)”界面中,修改保存的工程路径和工程名称“Loaction”; 3. 点击右下方“创建(create)”进入工程界
企鹅号小编
2018-01-15
6990
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
QiqiHe
腾讯产品运营
Python爬取哔哩哔哩实时直播弹幕
用Python爬取哔哩哔哩直播弹幕,关键在于找到哔哩哔哩网站的一个POST网址,和应该POST的数据。代码不长,十分简单。关键在于浏览器开发者工具的使用。希望对于新入门的萌新有一定的借鉴意义。 1.找到POST的网址 先找到一个直播间,点击进去【感觉是废话】。 打开开发者工具【F12】,差不多是这样。 📷 然后刷新【F5】,并点击方法翻到最上面,或者最下面,在这里可能会弹出两三个POST数据【如下图所示】,不要管有几个POST格式的文件,找到下图中标记的哪一个!! 📷 这个文件就包含了我们需要的弹幕。但是,
企鹅号小编
2018-01-15
7770
数据科学工具 Jupyter Notebook 教程(二)
Jupyter Notebook 是一个把代码、图像、注释、公式和作图集于一处,实现可读性分析的交互式笔记本工具。借助所谓的内核(Kernel)的概念,Jupyter Notebook 可以同时支持包括R、python2、python3、Ruby 在内超过50多种不同编程环境。 基于 Kernel,Jupyter Notebook 可以支持的编程语言: (其实 Jupyter Notebook 可以支持的编程语言,远不止这几种。下图只是个不完全列表。) 📷 说了那么多,开始今天的主题:如何在 Jupyter
企鹅号小编
2018-01-12
1.7K0
加速python科学计算的方法(二)
好久不见。有一年了。 很久没有更推文了,我的错。额,进入正题吧。到了年底,很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据,并在其中进行较多的数据挖
企鹅号小编
2018-01-08
1.5K0
数据挖掘敲门砖-Python爬虫入门
企鹅号小编
2018-01-08
9240
python 斗鱼爬虫
本文介绍了一种基于Python的斗鱼直播信息抓取方法,使用requests和BeautifulSoup库获取指定游戏分类的直播间列表,并利用Selenium库进行翻页操作。最后,将获取到的直播间信息保存到文本文件中。需要注意的是,在爬取过程中要遵循网站的robots协议,尽量不频繁访问,避免给服务器带来压力。
企鹅号小编
2018-01-04
1.8K0
我是这样开始写Python爬虫的
企鹅号小编
2017-12-28
2.4K0
功能式Python中的探索性数据分析
这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。 在Py
大数据弄潮儿
2017-12-21
1.4K0
在Python中什么时候用Yield什么时候用Return
在Python中,使用yield和return的关键字来定义生成器函数,生成器函数可以用于避免一次性计算所有值,而是在需要时生成它们。生成器函数使用yield语句来暂停和恢复其执行,并允许保存状态信息。当恢复时,生成器函数从上次yield语句的位置继续执行,并继续生成值。生成器函数可以包含多个yield语句,以产生一系列值。生成器函数还可以使用return语句来提前终止,并返回一个值。在Python中,生成器函数是一种非常强大的工具,可以帮助程序员节省内存,提高代码的效率。"
大数据弄潮儿
2017-12-21
2.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档