爬虫学到什么程度可以去找工作

爬虫学到什么程度可以去找工作

最近很多朋友问我,我在自学爬虫,学到什么程度可以去找工作呢?

这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考。

学到哪种程度

暂且把目标定位初级爬虫工程师,简单列一下吧:

(必要部分)

  1. 语言选择:一般是了解Python、Java、Golang之一
  2. 熟悉多线程编程、网络编程、HTTP协议相关
  3. 开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
  4. 反爬相关,cookie、ip池、验证码等等
  5. 熟练使用分布式

(非必要,建议)

  1. 了解消息队列,如RabbitMQ、Kafka、Redis等
  2. 具有数据挖掘、自然语言处理、信息检索、机器学习经验
  3. 熟悉APP数据采集、中间人代理
  4. 大数据处理(Hive/MR/Spark/Storm)
  5. 数据库Mysql,redis,mongdb
  6. 熟悉Git操作、linux环境开发
  7. 读懂js代码,这个真的很重要

如何提升

随便看看知乎上的教程就可以入门了,就Python而言,会requests当然是不够的,还需要了解scrapy和pyspider这两个框架,scrapy_redis也是需要理解原理的。

分布式如何搭建、如何解决其中遇到内存、速度问题。

参考 scrapy-redis 和 scrapy 有什么区别?

image.png

什么叫全站爬取

最简单的拿拉钩来举例,搜索关键词,有30页,不要以为把这30页爬完就是全站爬取了,你应该想方法把所有数据全部爬下来。

什么办法,通过筛选缩小范围,慢慢来就OK了。

同时,每个职位还会有推荐职位,再写一个采集推荐的爬虫。

image.png

这个过程需要注意的是如何去重,Mongo可以、redis也可以

参考 Scrapy中如何提高数据的插入速度

实际项目经验

这个面试中肯定会被人问道,如:

  1. 你爬过哪些网站
  2. 日均最大采集量是多少
  3. 你遇到哪些棘手问题,如何解决
  4. 等等

那么怎么找项目呢?比如我要爬微博数据,去Github中搜索下,项目还算少吗?

image.png

语言选择

我自己建议是Python、Java、Golang最好都了解,Java爬虫的也很多,但是网上教程几乎都是Python的,悲哀。

最后说下Golang,Golang真的很牛逼,说个数字,Golang可以每分钟下载网页数量 2W ,Python可以吗~~

image.png

宣传下自己的刷题项目 Leetcode Solutions By All Language

关于反爬

常见的 UA、Refer等需要了解是什么东西,有些验证的ID如何产生的,是否必要;关于IP池这块我不了解,不多说,需要注意的是如何设计拉黑机制;模拟登陆也是必要的,fuck-login 可以研究下代码,或者提PR。

image.png

如何判断能力足够

很简单,给个任务,爬取知乎上所有问题。

你会如何思考并设计这个项目?

欢迎留言指出

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Golang语言社区

一个调度系统的开发与性能优化

背景:随着Go的不断发展,流行度越来越高,业界对Go的认可度也越来越高,所以很多团队或者公司在遇到性能问题时都会尝试使用Go来重构系统,尤其是云计算领域,大家期...

1921
来自专栏ThoughtWorks

流水线即代码|洞见

2016年11月份的技术雷达中给出了一个简明的定义:流水线即代码(Pipeline as Code)通过对持续集成/持续交付(CI/CD)运行工具进行编码而非配...

3985
来自专栏Java技术栈

爱上 Java 的10 大理由,Python 弱爆了!

Java和JVM已经存在了很长一段时间了,基于这个事实,一些程序员开始将很多事情视为理所当然。今天我们就来说一说“Java之所以能够成为并将继续是软件项目领先平...

1334
来自专栏嵌入式程序猿

嵌入式系统开发过程中的常见问题和解决方法

1. Bootloader如何写入Flash ? 初学者一般都会遇到如何将程序写入处理器的问题。对于不同的处理器,可以采用不同的方法。例如Intel的Xscal...

3597
来自专栏数据和云

【云和恩墨大讲堂】SQL玩转AWR裸数据

作者简介: ? 罗海雄 云和恩墨优化专家 ITPUB论坛数据库管理版版主,2012 ITPUB全国SQL大赛冠军得主,他还是资深的架构师和性能优化专家,对 SQ...

3915
来自专栏牛客网

BAT面经

因为也许我当时因为要实现梦想只有一条途径,可如果你选择了一条路,这并不意味着你要放弃其他的方式。——《跳出我天地》

1783
来自专栏Python专栏

继万字谏言后,Python Web 怎么学,看这篇就够了!

之前那篇「万字谏言,给那些想学Python的人,建议收藏后细看!」得到很多后台读者的留言,表示想再来点,甚至说万字系?你知道万字有多少么?不要杠我根本没有万字!...

1301
来自专栏编舟记

架构整洁之道导读(三)

上回说到组件聚合,反映的是组件内部的“基本元素”的选择标准。第14章介绍的组件耦合则是指组件和组件之间的关系,这些依赖关系有些是好的,有些是不好的,我们即将看到...

1543
来自专栏云加头条

智能云上手指南:如何接入腾讯云的自然语言处理能力?

本文将为广大云开发者介绍如何介入腾讯开放的自然语言处理能力,即文智自然语言处理。

8250
来自专栏帘卷西风的专栏

开源CEGUI编辑器之二(MFC重写的ImagesetEditor)

转载请注明出处:帘卷西风的专栏(http://blog.csdn.net/ljxfblog)

1031

扫码关注云+社区

领取腾讯云代金券