首页
学习
活动
专区
工具
TVP
发布

钱塘大数据

专栏成员
1204
文章
1384947
阅读量
141
订阅数
知乎大神爬了这些网站的数据,发现价值巨大!
一个网站背后的数据是一座巨大的宝库,对于如何爬取数据,如何利用好这些数据,很多人还是一头雾水。在知乎的提问“有哪些网站用爬虫爬取能得到很有价值的数据?”中,@何明科为读者分享了自己的爬虫经验:
钱塘数据
2018-07-30
1.8K0
爬了知乎 200 万数据,图说程序员都喜欢去哪儿工作
作者:gaga salamer 因为最近和朋友吃饭,大家都到了大三季,都在纠结自己该以哪里作为自己职业发展的起点?也想看看自己的背景,能不能找到靠谱的师哥师姐帮忙,那么师哥师姐都在哪里发光发亮呢?
钱塘数据
2018-03-06
7930
【QQ空间大数据】爬取3000万用户,玩转大数据分析
作者:Freebuf QQ空间就像是互联网上的城乡结合部,兼具博客论坛时代的土气和微博微信时代的洋气,拥有让写字楼里的薇薇安、杰西卡、莱斯利一秒变回“葬爱家族”的魔力。这个城乡结合部给了我们一个机会,可以重新审视过去的自己。 你有多久没有更新QQ空间,甚至不再登录上去看一眼? 短则几个月,长则一两年,我们常用的APP几乎就要更新一遍。在这个“但见新人笑,哪闻旧人哭”的互联网时代,面对令人眼花缭乱的产品,有多少人还记得十多年前红极一时的QQ空间? 本文是一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。程序
钱塘数据
2018-03-06
1.7K0
数据分析师薪资有多高?爬了29个城市的数据告诉你答案
想要从事数据分析师这个岗位,那自然首先需要对这个岗位有所了解。最直接、最真实的方式就是从企业那里获得需求讯息,这样才最能够指导自己的学习方向和简历准备。本文即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息,然后进行一些探索和分析,以数据分析来了解‘数据分析’。 数据来源 本项目所使用的数据集全部来自拉勾网,是通过集搜客这一网络爬虫工具来爬取的。之所以选择拉勾网作为本项目的数据源,主要是因为相对于其他招聘网站,拉钩网上的岗位信息非常完整、整洁,极少存在信息的缺漏。并且几乎所有展现出来的信息都是非常规范化的,极
钱塘数据
2018-03-06
3K0
【上帝视角看微信】用 Python 爬取自己的微信朋友
微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证,拥有它就能在移动互联的世界行止由心。本文作者利用 Python 爬取了自己微信好友的信息后,像打开了一扇新世界的大门。一起来围观他的爬取过程吧。
钱塘数据
2018-03-06
1.8K0
【数说】用python爬下6万共享单车数据,谈谈单车热潮中的城市
共享经济的浪潮席卷着各行各业,而出行行业是这股大潮中的主要分支。如今,在城市中随处可见共享单车的身影,给人们的生活出行带来了便利。相信大家总会遇到这样的窘境,在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里。有些车不知道藏到了哪里;有些车或许是在高楼的后面,由于有GPS的误差而找不到了;有些车被放到了小区里面,一墙之隔让骑车人无法获得到车。 那么有没有一个办法通过获得这些单车的数据,来分析这些车是否变成了僵尸车?是否有人故意放到小区里面让人无法获取呢?带着这些问题,笔者开始了研究如何获取这些数
钱塘数据
2018-03-05
1.4K0
关于爬虫与反爬虫,这些“套路”你必须知道
爬虫与反爬虫,是一个很不阳光的行业。这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。 第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同
钱塘数据
2018-03-05
1.7K0
【推荐收藏】33款可用来抓数据的开源爬虫软件工具
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接
钱塘数据
2018-03-05
4.3K0
【数说】爬取QQ空间3000万用户,玩玩大数据分析
这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,
钱塘数据
2018-03-05
1.2K0
【数说】从知乎320万用户爬取的信息分析与数据可视化
art 1: 动机 作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为什么知乎这个社区的群体素质偏高呢,这些用户究竟都是干什么的,来自哪里,从事什么职业,爱好什么话题呢,有多少名校的学生?等等,这些有趣的问题都是我所关心的。 Part 2: 数据 我用scrapy http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html http://pyth
钱塘数据
2018-03-05
8560
【钱塘号】用R语言爬取美国总统的twitte进行数据分析
Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。 本文是关于如何使用Twitter R包获取twitter数据并将其导入R,然后对它进行一些有趣的数据分析。 第一步是注册一个你的应用程序。 为了能够访问Twitter数据编程,我们需要创建一个与Twitter的API交互的应用程序。 📷 注册后你将收到一个密钥和密码: 📷 📷 获取密钥和密码后便可以在R里面授权我们的应用程序以代表我们访问Twitter:
钱塘数据
2018-03-05
2.4K0
爬虫技术 —— 大数据时代的“宠儿”
1. 政治角逐 前两周我们被美国大选刷屏了。 2016年这场美国总统竞选被媒体称作“第一次数字化竞选”,希阿姨和川大大都组建了庞大的技术团队,将大量资金花在获取和使用投票者的信息上。民意调查结果,一直
钱塘数据
2018-03-02
1.3K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档