前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据采集从入门到放弃【介绍】

数据采集从入门到放弃【介绍】

作者头像
小歪
发布2019-03-07 16:08:22
6480
发布2019-03-07 16:08:22
举报

花了两天时间研究了下,最终确定写一个关于爬虫教程,名字叫做数据采集从入门到放弃,会寄托在Github Pages上,使用mkdocs创作和管理。

源码:https://github.com/zhangslob/docs

在线阅读:https://zhangslob.github.io/docs/

内容介绍

本书会介绍我目前所知的所有关于爬虫的东西,更像是我的技能清单,仔细把其中所有的内容过一遍,目标是传播知识。

大概会分为这么几个大方向:

  1. 爬虫介绍、就业情况
  2. HTTP协议介绍
  3. Requests使用
  4. 解析器Xpath介绍
  5. MongoDB与MySQL
  6. 多线程爬虫
  7. Scrapy介绍
  8. Scrapy-redis介绍

可能还会增加一些别的,主要是看心情。如:

  1. 简单验证码处理(这个我也在学)
  2. IOS逆向
  3. Chrome断点调试和加密分析
  4. Docker使用
  5. Selenium与Appnium、pyppeteer
  6. 布隆过滤器
  7. Charles、mitmproxy抓包
  8. 全站爬取思路
  9. Spark相关
  10. 其他语言如Go、JAVA爬虫

这其中的每一点都需要花很多时间去研究,希望我们一起进步。

我不会讲Python基础语法那些,建议去BeginnersGuide 和 documentation 看。

开发环境

  1. Python3系列
  2. 建议macOS或Linux系统
  3. PyCharm开发

说说标题

先解释下标题,为什么是入门到放弃。

首先这并不是一句调侃的话,而是我现在的内心感受。我做爬虫快两年了,是从运营转过来的。我觉得我对爬虫有这三个阶段:

  • 喜欢。刚开始还没有真正接触到真实企业需求时,由于知乎的渲染(你懂得),我对爬虫真的超级感兴趣,打开的每个新网站都想去试试如何爬取,有什么反爬没。这个阶段持续到开始做实际项目,就慢慢地转变为下个阶段。这里我想说下,肯定有别人和我一样对爬虫保持有很高的热情,喜欢去爬取一些网站的数据,有一个关键点就是数据的问题。很多时候数据不完整,或者数据不持久,没有持续的数据分析,你爬取的数据就是没有价值的,这是我做了几个长期项目的感受。
  • 无感。爱好变为职业是一个很痛苦的事情,之前做运营时超级羡慕爬虫工程师们,感觉他们好幸福。当自己真正开始做了,刚开始还是挺好的,过一年心态就会发生变化,原因很多,这个有时间再慢慢说吧。这首歌就是红玫瑰:得不到的永远在骚动,被偏爱的都有恃无恐,自行体会吧。
  • 放弃。阶段二与阶段三是同时会有的感受,因为对爬虫没有之前那么多兴趣,就会慢慢的想开始去做别的事情。我的博客中的描述是“数据采集、数据处理、机器学习”,数据采集知识第一步,数据处理、机器学习才是重点(高薪职业),是未来有前景的方向。所以我才会去学Spark,去学Scala,也是希望在未来的某个时候可以转行去真正接触“数据”,研究数据。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档