1分钟了解你最关心的爬虫问题

邀请了

猴子数据分析社群会员

、擅长Python爬虫的唐亦六安,上周我和猴子发起了《知识众筹第10期:如何利用Python爬取数据 | 开始分红报名》,有1412人参与提问。

我花了1周左右的时间,把问题基本都做了答复。大家的问题有个性,也有共性。除了单独回答每个人的,我把比较多问的3类问题整理出来。

第1类问题:数据分析的思路是什么?

唐亦六安:对于这个问题,先看看是打算往偏业务的数据分析师发展还是偏数据挖掘的数据分析师发展。如果是偏业务的数据分析师需要掌握的数学知识没有很大要求,可以看下《深入浅出统计学》这本书。如果对于往数据挖掘方面发展的,可以从《商务与统计分析》这本书入手。

其实数据挖掘属于数据分析里面细化的一部分了。我更喜欢这样的分类和学习路线计划,先学习数据分析,然后学习机器学习,最后再深度学习。如果现在还没有入门,建议从数据分析入门开始。

唐亦六安:这个问题很广,建议看下《增长黑客》这本书,或者之前老师在社群里分享过的一个教材《喜马拉雅如何做到1亿用户》。

唐亦六安:这个问题是针对数据分析流程中数据清洗的提问。聊聊我处理数据的经验:

1)先对数据进行描述性统计,看看缺失值多不多。然后判断是将缺失值全部删除还是填补缺失值,是用算法填补还是直接平均数填补。

2)完成了缺失值处理后,检查是否数据存在异常值,对于异常值,如果不多,可以选择定位整行删除。

3)画出表达自己观点的图和做数据分析报告,其实是数据可视化的运用以及PPT制作。Python可以用notebook做出很好的可视化报告。如果是用R做数据分析报告,建议先去hadley的官网看他的可视化文章,先弄明白什么情况用什么图,然后去实践。

我是先在草稿纸上画出横坐标纵坐标,先确定颜色代表什么,数据大小代表什么,然后进行画图。

唐亦六安:对于这个问题,我觉得最好的解决办法是看业务部门的需求,即业务部门想得到什么结果,多和负责需求的人沟通,然后再看有哪些途径可以实现你的需求。

唐亦六安:数据准确性的验证需要用到一定的统计学知识,并将它用代码实现,比如在处理缺失值异常值之后的检验。我觉得数据的软肋可能就是能不能将数据效益最大化。

唐亦六安:对于爬取中如何去伪存真,这个问题我目前没有碰到过,就不作回答了,要说爬取过程要避开的坑,那就是要有一定的反爬措施,比如修改User-agent,模拟登录,降低爬取频率等。

第2类问题:怎么学习数据分析最有效?

唐亦六安:当然可以学好,前提还是先确定方向,python中你打算往哪一方面发展,或者先学哪一方面,爬虫,数据分析,前端,后端,每一条路后面都需要投入大量的时间成本,所以在开始前一定要先确定主线。避免广而不精。

唐亦六安:数据量越来越大,那就得使用Python或者R这样的数据分析技术来处理了。具体学习路线猴子老师之前说的很清楚,我就不多说了,可以看这个:

唐亦六安:爬虫学习本质就是从网页获取你想要的数据。是否学习爬虫看你的需求:

1)如果想成为专业的爬虫工程师,那当然是爬虫基础到高级都必须好好学。

2)如果是数据分析中爬虫的应用,个人认为只要达到能爬取网页数据,能绕开简单的反爬措施就行了。那些需要破解验证码的,爬取千万级数据的还是先看看吧。

3)如果目前没有用到爬虫的需求,可以先不学习,但是要从整体上知道爬虫是个啥东东就行,别以后有人聊天说到爬虫,却不知道是什么,其他数据分析入门的基础知识是要学习的。

第3类问题:遇到这些爬虫技术问题,怎么解决?

唐亦六安:新闻内容去重是运用python的simhash算法,判断两篇文章的相似度,具体可以参考这篇文章:http://blog.csdn.net/leiting_imecas/article/details/55261875

唐亦六安:可以通过爬虫来实现,采集数据时通过正则判断标题是否符合某种规则,符合就采集,不符合就放弃。

唐亦六安:模拟登陆可以分为两种,一种是真的模拟登陆通过代码实现浏览器登陆过程中的各项逻辑(各种加密等)一种是利用 cookies 实现登陆。

唐亦六安:爬虫数据400报错是因为网址被禁止爬取,具体可以看看下面这张图片

唐亦六安:答案是可以的,python功能只有想不到,没有实现不了的,对这个问题有两个方面,不知问的是指做搜索引擎实现分类爬取还是多网页批量爬取,具体操作步骤可以看看爬虫相关书籍。

还有一些其他的问题,我准备在这次课程中详细和你一起聊聊

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180113A0LGLN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

同媒体快讯

扫码关注腾讯云开发者

领取腾讯云代金券