腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据

多年海量数据处理经验，化数据为力量

专栏作者

174

文章

274449

阅读量

108

订阅数

Python 101：如何从RottenTomatoes爬取数据

python 数据库

今天，我们将研究如何从热门电影网站Rotten Tomatoes爬取数据。你需要在这里注册一个API key。当你拿到key时，记下你的使用限制（如每分钟限制的爬取次数）。你不要对API进行超限调用，这可能会使key失效。最后，阅读你将要使用的API的文档是一个好办法。这里有几个链接：

大数据弄潮儿

2018-05-14

2.2K0

Scrapy递归抓取简书用户信息

scrapy python 爬虫

好久没有录制实战教程视频，大邓就在圣诞节后直接上干货。之前写过一期【视频教程-用python批量抓取简书用户信息】的文章，是自己造的轮子，今天我趁着刚入门scrapy和xpath，操刀重写这个任务。一、实战项目简介递归我们要大批量获取简书网站上的用户数据，最直接的办法是给一个初识的用户url，从这个用户的关注的和粉丝中再抽取url，循环往复，周而复始。这其实就是递归。数据项获取到的url，我们需要对其进行请求，解析出想要的数据 📷 昵称-nickname 关注数-followed 粉丝数- fol

企鹅号小编

2018-01-26

1.3K0

Python自学笔记——多线程微信文章爬取

python 大数据爬虫

# -*- coding: utf-8 -*- """ Created on Tue Dec 26 10:34:09 2017 @author: Andrew """ #线程1专门获取对应网址并处理为真是网址，然后将网址写入队列urlqueue中，该队列专门用来存放具体文章的网址 #线程2与线程1并行，从线程1提供的网址中依次爬取对应文章信息并处理，处理后将我们需要的结果写入对应的本地文件中 #线程3主要用于判断程序是否完成。因为在此如果没有一个总体控制的线程，即使线程1、2执行完，也不会退出程序 #在

企鹅号小编

2018-01-25

5840

python3.6抓取100知乎用户头像详解（四）

因公众号编辑器对代码不友好在手机上阅读体验不佳建议前往文末我的知乎文章链接目标：抓取知乎最高点赞者的关注者的头像，并下载于本地文件夹。我们采用：requests（获取）——json——urlretrieve（下载）废话不多说，先上结果与代码： 📷 📷 前言：：请求头（headers）知乎对爬虫进行了限制，需要加上headers才能爬取。请求头信息承载了关于客户端浏览器、请求页面、服务器等相关信息，用来告知服务器发起请求的客户端的具体信息。对比知乎的请求头信息和常见的请求头信息，发现知乎请求

企鹅号小编

2018-01-15

8300

python学习手册-爬爬那些年咱没见过的校花图片

上边这张截图就是这个例子在启动后获取的图片。下面咱们就开始来写这个例子。我本的开发的环境： 1、IED开发工具：使用是的Pycharm 2、python 版本使用是3.6版本。一、打开pytharm创建一下python工程 1. 打开软件，点击左上角“文件(File)”—>“创建新工程(New Project)”； 2. 选择弹出界面左上角的“创建项目(Create Project)”界面中，修改保存的工程路径和工程名称“Loaction”； 3. 点击右下方“创建（create）”进入工程界

企鹅号小编

2018-01-15

6990

关注专栏作者，随时接收最新技术干货

大数据弄潮儿

腾讯产品运营

花落花飞去

腾讯社区运营

腾讯产品运营

Python爬取哔哩哔哩实时直播弹幕

用Python爬取哔哩哔哩直播弹幕，关键在于找到哔哩哔哩网站的一个POST网址，和应该POST的数据。代码不长，十分简单。关键在于浏览器开发者工具的使用。希望对于新入门的萌新有一定的借鉴意义。 1.找到POST的网址先找到一个直播间，点击进去【感觉是废话】。打开开发者工具【F12】，差不多是这样。 📷 然后刷新【F5】，并点击方法翻到最上面，或者最下面，在这里可能会弹出两三个POST数据【如下图所示】，不要管有几个POST格式的文件，找到下图中标记的哪一个！！ 📷 这个文件就包含了我们需要的弹幕。但是，

企鹅号小编

2018-01-15

7770

数据科学工具 Jupyter Notebook 教程（二）

kernel python anaconda

Jupyter Notebook 是一个把代码、图像、注释、公式和作图集于一处，实现可读性分析的交互式笔记本工具。借助所谓的内核（Kernel）的概念，Jupyter Notebook 可以同时支持包括R、python2、python3、Ruby 在内超过50多种不同编程环境。基于 Kernel，Jupyter Notebook 可以支持的编程语言： (其实 Jupyter Notebook 可以支持的编程语言，远不止这几种。下图只是个不完全列表。) 📷 说了那么多，开始今天的主题：如何在 Jupyter

企鹅号小编

2018-01-12

1.7K0

加速python科学计算的方法（二）

好久不见。有一年了。很久没有更推文了，我的错。额，进入正题吧。到了年底，很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据，并在其中进行较多的数据挖

企鹅号小编

2018-01-08

1.5K0

数据挖掘敲门砖-Python爬虫入门

爬虫 python 数据挖掘

企鹅号小编

2018-01-08

9240

python 斗鱼爬虫

爬虫 scrapy python

本文介绍了一种基于Python的斗鱼直播信息抓取方法，使用requests和BeautifulSoup库获取指定游戏分类的直播间列表，并利用Selenium库进行翻页操作。最后，将获取到的直播间信息保存到文本文件中。需要注意的是，在爬取过程中要遵循网站的robots协议，尽量不频繁访问，避免给服务器带来压力。

企鹅号小编

2018-01-04

1.8K0

我是这样开始写Python爬虫的

爬虫 scrapy python

企鹅号小编

2017-12-28

2.4K0

功能式Python中的探索性数据分析

python 数据处理

这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。在Py

大数据弄潮儿

2017-12-21

1.4K0

在Python中什么时候用Yield什么时候用Return

在Python中，使用yield和return的关键字来定义生成器函数，生成器函数可以用于避免一次性计算所有值，而是在需要时生成它们。生成器函数使用yield语句来暂停和恢复其执行，并允许保存状态信息。当恢复时，生成器函数从上次yield语句的位置继续执行，并继续生成值。生成器函数可以包含多个yield语句，以产生一系列值。生成器函数还可以使用return语句来提前终止，并返回一个值。在Python中，生成器函数是一种非常强大的工具，可以帮助程序员节省内存，提高代码的效率。"

大数据弄潮儿

2017-12-21

2.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态