首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏成员
174
文章
284146
阅读量
108
订阅数
爬虫无烦恼,大牛教你怎么简单爬36kr网,带源码
抓取36kr网站数据 爬虫代码和数据sql脚本在下方链接,抓取过程主要是抓包找到url递归解析的规律,三个主要的函数 以及 表结构脚本如下: #建表语句(写爬虫时候忘记添加user_url 后续数据处理时候update补全了这个字段)CREATE TABLE `36kr` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键id', `column_id` varchar(255) DEFAULT NULL COMMENT '专题id', `tag` varc
企鹅号小编
2018-01-31
7440
小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多,还好有Ansible,而且等幂特性扩容回滚 So Easy!! 安装Ansible: 好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。 整体目录如下: 📷 Group_vars: 里面定义全局使用的变量 Roles: 存放所有的规则目录 Roles/common :所有服务器初始化配置部署 Roles/common/filters :需要使用的文件或者文件夹 Roles/common/task:部署任务(main.yml为入口必须要有) R
企鹅号小编
2018-01-30
1.1K0
scrapy如何顺序执行多个爬虫
scrapy如何单线程顺序执行多个爬虫,刚开始我天真的以为将多个excute顺序罗列就能依次执行每个爬虫了,代码如下所示: 📷 谁料,在执行完第一个爬虫之后,整个程序就停止运行了。到底是什么原因呢?笔者在 Stack Overflow 上找到了类似的问题( https://stackoverflow.com/questions/24875280/scrapy-cmdline-execute-stops-script )。得知问题的原因在于 方法中的最后一句代码是 ,所以当程序执行完一个execute语
企鹅号小编
2018-01-29
2.1K0
Scrapy递归抓取简书用户信息
好久没有录制实战教程视频,大邓就在圣诞节后直接上干货。 之前写过一期【视频教程-用python批量抓取简书用户信息】的文章,是自己造的轮子,今天我趁着刚入门scrapy和xpath,操刀重写这个任务。 一、实战项目简介递归 我们要大批量获取简书网站上的用户数据,最直接的办法是给一个初识的用户url,从这个用户的关注的和粉丝中再抽取url,循环往复,周而复始。这其实就是递归。 数据项 获取到的url,我们需要对其进行请求,解析出想要的数据 📷 昵称-nickname 关注数-followed 粉丝数- fol
企鹅号小编
2018-01-26
1.3K0
Python自学笔记——多线程微信文章爬取
# -*- coding: utf-8 -*- """ Created on Tue Dec 26 10:34:09 2017 @author: Andrew """ #线程1专门获取对应网址并处理为真是网址,然后将网址写入队列urlqueue中,该队列专门用来存放具体文章的网址 #线程2与线程1并行,从线程1提供的网址中依次爬取对应文章信息并处理,处理后将我们需要的结果写入对应的本地文件中 #线程3主要用于判断程序是否完成。因为在此如果没有一个总体控制的线程,即使线程1、2执行完,也不会退出程序 #在
企鹅号小编
2018-01-25
6170
关注专栏作者,随时接收最新技术干货
花落花飞去
腾讯社区运营
微博爬虫
全文简介 本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。所以,不要难为别人,到最后其实是在难为你自己。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧! 环境介绍 Python3 Windows-10-64位 微博移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图: 📷 在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加
企鹅号小编
2018-01-18
1.4K0
何为正则表达式?要他有何用?
文章不好,作为学习,差不多就行了。 平常大家都会使用word,记事本之类的文字编辑软件,也会经常使用复制粘贴,把从知网下载下来的论文粘贴到自己的文章里面,一篇课程结业论文就轻而易举地完成了,emm,轻而易举,? 你使用查找替换的次数有多少次?一篇3000字的论文可能只需要10次查找替换,但如果是一万字,100万字呢,? 假设你要把一篇文中“我喜欢XXX”,“我真的喜欢XXX”,“我就是喜欢XXX”,“我特别喜欢XXX”,“我啊,一直喜欢XXX”全部替换为“我不知道”。 你是不是得要搜索五个关键词,让后一个一
企鹅号小编
2018-01-16
6620
python3.6抓取100知乎用户头像详解(四)
因公众号编辑器对代码不友好 在手机上阅读体验不佳 建议前往文末我的知乎文章链接 目标:抓取知乎最高点赞者的关注者的头像,并下载于本地文件夹。 我们采用:requests(获取)——json——urlretrieve(下载) 废话不多说,先上结果与代码: 📷 📷 前言: :请求头(headers) 知乎对爬虫进行了限制,需要加上headers才能爬取。 请求头信息承载了关于客户端浏览器、请求页面、服务器等相关信息,用来告知服务器发起请求的客户端的具体信息。 对比知乎的请求头信息和常见的请求头信息,发现知乎请求
企鹅号小编
2018-01-15
8740
python学习手册-爬爬那些年咱没见过的校花图片
上边这张截图就是这个例子在启动后获取的图片。 下面咱们就开始来写这个例子。 我本的开发的环境: 1、IED开发工具:使用是的Pycharm 2、python 版本使用是3.6版本。 一、打开pytharm创建一下python工程 1. 打开软件,点击左上角“文件(File)”—>“创建新工程(New Project)”; 2. 选择弹出界面左上角的“创建项目(Create Project)”界面中,修改保存的工程路径和工程名称“Loaction”; 3. 点击右下方“创建(create)”进入工程界
企鹅号小编
2018-01-15
7200
Python爬取哔哩哔哩实时直播弹幕
用Python爬取哔哩哔哩直播弹幕,关键在于找到哔哩哔哩网站的一个POST网址,和应该POST的数据。代码不长,十分简单。关键在于浏览器开发者工具的使用。希望对于新入门的萌新有一定的借鉴意义。 1.找到POST的网址 先找到一个直播间,点击进去【感觉是废话】。 打开开发者工具【F12】,差不多是这样。 📷 然后刷新【F5】,并点击方法翻到最上面,或者最下面,在这里可能会弹出两三个POST数据【如下图所示】,不要管有几个POST格式的文件,找到下图中标记的哪一个!! 📷 这个文件就包含了我们需要的弹幕。但是,
企鹅号小编
2018-01-15
8130
Python爬虫之urllib库—爬虫的第一步
第一个爬虫代码的实现我想应该是从urllib开始吧,博主开始学习的时候就是使用urllib库敲了几行代码就实现了简单的爬数据功能,我想大多伙伴们也都是这么过来的。当时的感觉就是:哇,好厉害,短短几行竟然就可以搞定一个看似很复杂的任务,于是就在想这短短的几行代码到底是怎么实现的呢,如何进行更高级复杂的爬取呢?带着这个问题我也就开始了urllib库的学习。 首先不得不提一下爬取数据的过程,弄清楚这到底是怎样一个过程,学习urllib的时候会更方便理解。 爬虫的过程 其实,爬虫的过程和浏览器浏览网页的过程是一样的
企鹅号小编
2018-01-11
6760
数据挖掘敲门砖-Python爬虫入门
企鹅号小编
2018-01-08
9610
python 斗鱼爬虫
本文介绍了一种基于Python的斗鱼直播信息抓取方法,使用requests和BeautifulSoup库获取指定游戏分类的直播间列表,并利用Selenium库进行翻页操作。最后,将获取到的直播间信息保存到文本文件中。需要注意的是,在爬取过程中要遵循网站的robots协议,尽量不频繁访问,避免给服务器带来压力。
企鹅号小编
2018-01-04
1.8K0
我是这样开始写Python爬虫的
企鹅号小编
2017-12-28
2.5K0
Scrapy入门
QiqiHe
2017-12-21
1.6K1
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档