钱塘大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

钱塘大数据

专栏成员

1204

文章

1384947

阅读量

141

订阅数

知乎大神爬了这些网站的数据，发现价值巨大！

爬虫大数据

一个网站背后的数据是一座巨大的宝库，对于如何爬取数据，如何利用好这些数据，很多人还是一头雾水。在知乎的提问“有哪些网站用爬虫爬取能得到很有价值的数据？”中，@何明科为读者分享了自己的爬虫经验：

2018-07-30

1.8K0

爬了知乎 200 万数据，图说程序员都喜欢去哪儿工作

作者：gaga salamer 因为最近和朋友吃饭，大家都到了大三季，都在纠结自己该以哪里作为自己职业发展的起点？也想看看自己的背景，能不能找到靠谱的师哥师姐帮忙，那么师哥师姐都在哪里发光发亮呢？

2018-03-06

7930

【QQ空间大数据】爬取3000万用户，玩转大数据分析

大数据爬虫 python

作者：Freebuf QQ空间就像是互联网上的城乡结合部，兼具博客论坛时代的土气和微博微信时代的洋气，拥有让写字楼里的薇薇安、杰西卡、莱斯利一秒变回“葬爱家族”的魔力。这个城乡结合部给了我们一个机会，可以重新审视过去的自己。你有多久没有更新QQ空间，甚至不再登录上去看一眼？短则几个月，长则一两年，我们常用的APP几乎就要更新一遍。在这个“但见新人笑，哪闻旧人哭”的互联网时代，面对令人眼花缭乱的产品，有多少人还记得十多年前红极一时的QQ空间？本文是一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。程序

2018-03-06

1.7K0

数据分析师薪资有多高？爬了29个城市的数据告诉你答案

数据分析爬虫 python

想要从事数据分析师这个岗位，那自然首先需要对这个岗位有所了解。最直接、最真实的方式就是从企业那里获得需求讯息，这样才最能够指导自己的学习方向和简历准备。本文即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息，然后进行一些探索和分析，以数据分析来了解‘数据分析’。数据来源本项目所使用的数据集全部来自拉勾网，是通过集搜客这一网络爬虫工具来爬取的。之所以选择拉勾网作为本项目的数据源，主要是因为相对于其他招聘网站，拉钩网上的岗位信息非常完整、整洁，极少存在信息的缺漏。并且几乎所有展现出来的信息都是非常规范化的，极

2018-03-06

3K0

【上帝视角看微信】用 Python 爬取自己的微信朋友

微信爬虫 python

微信作为一款拥有将近9亿用户的超级APP，已经成为很多人生活中不可或缺的一部分，聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证，拥有它就能在移动互联的世界行止由心。本文作者利用 Python 爬取了自己微信好友的信息后，像打开了一扇新世界的大门。一起来围观他的爬取过程吧。

2018-03-06

1.8K0

【数说】用python爬下6万共享单车数据，谈谈单车热潮中的城市

python 自动化数据分析爬虫

共享经济的浪潮席卷着各行各业，而出行行业是这股大潮中的主要分支。如今，在城市中随处可见共享单车的身影，给人们的生活出行带来了便利。相信大家总会遇到这样的窘境，在APP中能看到很多单车，但走到那里的时候，才发现车并不在那里。有些车不知道藏到了哪里；有些车或许是在高楼的后面，由于有GPS的误差而找不到了；有些车被放到了小区里面，一墙之隔让骑车人无法获得到车。那么有没有一个办法通过获得这些单车的数据，来分析这些车是否变成了僵尸车？是否有人故意放到小区里面让人无法获取呢？带着这些问题，笔者开始了研究如何获取这些数

2018-03-05

1.4K0

关于爬虫与反爬虫，这些“套路”你必须知道

爬虫与反爬虫，是一个很不阳光的行业。这里说的不阳光，有两个含义。第一是，这个行业是隐藏在地下的，一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队，甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的，与技术无关。第二是，这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年，积攒了大量的经验，但是悲哀的发现，这些经验很难兑换成闪光的简历。面试的时候，因为双方爬虫理念或者反爬虫理念不同，也很可能互不认可，影响自己的求职之路。本来程序员就有“文人相轻”的倾向，何况理念真的大不同

2018-03-05

1.7K0

【推荐收藏】33款可用来抓数据的开源爬虫软件工具

爬虫大数据

要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接

2018-03-05

4.3K0

【数说】爬取QQ空间3000万用户，玩玩大数据分析

大数据爬虫数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周，目前总共爬了3000万QQ数据，其中有300万包含用户（QQ号，昵称，空间名称，头像，最新一条说说内容，最新说说的发表时间，

2018-03-05

1.2K0

【数说】从知乎320万用户爬取的信息分析与数据可视化

数据可视化爬虫数据分析

art 1: 动机作为一个知乎的重度用户，我深深的被知乎社区的高素质群体所吸引，这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为什么知乎这个社区的群体素质偏高呢，这些用户究竟都是干什么的，来自哪里，从事什么职业，爱好什么话题呢，有多少名校的学生？等等，这些有趣的问题都是我所关心的。 Part 2: 数据我用scrapy http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html http://pyth

2018-03-05

8560

【钱塘号】用R语言爬取美国总统的twitte进行数据分析

r 语言数据分析爬虫

Twitter是一个流行的社交网络，这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。本文是关于如何使用Twitter R包获取twitter数据并将其导入R，然后对它进行一些有趣的数据分析。第一步是注册一个你的应用程序。为了能够访问Twitter数据编程，我们需要创建一个与Twitter的API交互的应用程序。 📷 注册后你将收到一个密钥和密码： 📷 📷 获取密钥和密码后便可以在R里面授权我们的应用程序以代表我们访问Twitter：

2018-03-05

2.4K0

爬虫技术 —— 大数据时代的“宠儿”

爬虫大数据数据库

1. 政治角逐前两周我们被美国大选刷屏了。 2016年这场美国总统竞选被媒体称作“第一次数字化竞选”，希阿姨和川大大都组建了庞大的技术团队，将大量资金花在获取和使用投票者的信息上。民意调查结果，一直

2018-03-02

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态