数据挖掘敲门砖--Python爬虫入门

WHAT

数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。

数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此)

  • 数据分析方向:需要数理知识支撑,比如概率论,统计学等
  • 数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作
  • 科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法

但是看完简介,好像和爬虫没什么关系? 接着往下看。

要开始数据挖掘之路,可以先从培养数据分析能力开始。 数据分析的常见步骤是:

  1. 数据准备
  2. 数据观察(找规律)
  3. 数据建模
  4. 数据挖掘(将得到的模型选择合适的算法应用到数据上,验证并得出结论)

WHY

据统计,数据准备占整个数据分析70%的时间. 我们把数据准备的步骤进行细分:

  1. 数据获取: 数据爬虫, 数据仓库
  2. 数据清洗: 去掉无用的数据
  3. 数据整理: 将数据规格化
  4. 数据存储: 先存储为CSV等文件, 最后再将数据进行整理和归档
注释: CSV, 全称Comma-Separated Values,即逗号分割值. 
     是将数据以逗号分隔开的一种纯文本文件, 实际上逗号可以是用其他符号代替.
(若手机显示不全,请右滑)

数据仓库通常是企业级的应用, 对于我们这种初学者获取的难度较高. 而数据爬虫的门槛就很低了, 甚至对于没接触过编程的其他专业的朋友也没有很高的门槛, 这得益于一门语法简单的语言-----Python的流行.

这就是为什么把Python爬虫称作敲门砖的原因啦

HOW

现在我们的目标变成两个, 先会Python, 再会用Python爬虫

Python入门

选择一个合适的教程可以让你少走一些弯路, 在Google上搜索Python教程, 可以收到42万条结果, 排名靠前的菜鸟教程, 廖雪峰的Python教程, 以及简明Python教程, 都是适合入门的免费教程

  • 菜鸟教程 http://www.runoob.com/python/python-tutorial.html
  • 廖雪峰的官方网站 https://www.liaoxuefeng.com/
  • 简明Python教程 https://bop.mol.uno/

感觉没时间先完全系统地学习? 可以先把下面这些Python知识先掌握, 以后再把其他补上!

  • list,dict(列表, 字典):用来序列化你爬的东西
  • 切片:用来对爬取的内容进行分割,生成
  • 条件判断(if等):用来解决爬虫过程中哪些要哪些不要的问题
  • 循环和迭代(for while ):用来循环,重复爬虫动作
  • 文件读写操作:用来读取参数、保存爬下来的内容等

了解爬虫

发送请求——获得页面——解析页面——下载内容——储存内容, 这是通常爬虫的五步走. 再简化一下步骤, 就是 分析目标, 解析页面, 存储内容

  • 分析目标

我们要分析的目标----网页, 它里面的信息只有两种呈现方式:

  1. HTML
  2. JSON

这些信息是我们先向服务器发送请求, 随后服务器返回信息给我们. 有点像我们平时在餐馆吃饭, 你既要POST跟服务器'点菜', 也要GET等服务器'上菜'

你可以学习Python的一个基础库Request http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 通过它来模拟发出POST和GET请求

相关知识连接:(若手机显示不全请右滑)
HTML: 
http://www.w3school.com.cn/h.asp

JSON: 
http://www.runoob.com/json/json-intro.html

GET与POST: 
http://www.cnblogs.com/hyddd/archive/2009/03/31/1426026.html
  • 解析页面

解析页面有两把利器: 一个是正则表达式, 另一个是选择一些库来帮助我们解析,比如Beautiful Soup

相关知识连接:(若手机显示不全请右滑)
Beautiful Soup: 
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

正则表达式:
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
  • 存储内容 最后我们通过文件的读写把爬取的内容存储到CSV等文件,或者数据库中. 在一开始, 你也可以选择直接打印到屏幕上,

实践项目

爬取豆瓣电影Top250 https://zhuanlan.zhihu.com/p/20423182

把项目完成之后, 相信你会对爬虫有更好的理解.

欢迎大佬指出错误, 欢迎技术交流, QQ:994342122


今日作者: 光光同学_

不爱看电影的摄影师不是好的程序员

原文发布于微信公众号 - 程序员的碎碎念(gh_53e607dd4782)

原文发表时间:2018-01-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网数据官iCDO

高级谷歌分析的技巧与窍门

译者:Nic 本文长度为1831字,预估阅读时间3分钟。 我们今天要向大家分享高级谷歌分析的技巧与窍门。 Google Analytics(分析)影响到搜索引擎...

2686
来自专栏大数据文摘

解密千万密码:透过密码看人性

1232
来自专栏极乐技术社区

「附近的小程序」增加新分类 | 小程序搜索大升级

轻松一刻 ? 漫画来自于西乔《神秘的程序员们》 01 「附近的小程序」增加新分类,「门店小程序」增加红色「店」字标志 附近的小程序在几个月前曾经被爆出在分类栏目...

2278
来自专栏V站

ThemeKing丨WordPress简洁风主题Pithy亮相!

Pithy主题,一款风格酷似新浪的主题,由西顾连同1梦携手完成。初步完成,三头两天都会进行必要的更新,Pithy主题,只为享受!

793
来自专栏七夜安全博客

python基础教程第一课

925
来自专栏PHP技术

PEAR简介:用PEAR来写你的下一个php程序

你可能已经是个PHP的老手了,写了很多非常棒的代码。但是,如果你现在要把它们加入到你现在的项目中去,是否有些吃力?你的朋友想使用你的代码作为他的项目中的一个模块...

2577
来自专栏华章科技

密码又泄露?大数据告诉你什么样的密码最牢靠!

乌云漏洞报告平台近日宣布网易邮箱数据泄露,目前网易与乌云的撕逼大战虽然还没有一个确切的结果,但已让亿万邮箱用户惊出一身冷汗,也顺带反思自己的邮箱密码是否够牢靠。...

712
来自专栏互联网杂技

我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言

看了不少朋友圈里推荐的Python爬虫文章,都觉得太小儿科,处理内容本来就是PHP的强项,Python唯一的好处估计也就天生的Linux自带,和Perl一样,这...

3487
来自专栏知晓程序

小程序无法联网,发生什么事了?| 小程序问答 #6

1032
来自专栏杨建荣的学习笔记

初识Python (r10笔记第52天)

现在的技术发展,海量服务器,批量任务,让原本精细化,几台服务器上的维护工作一下子有了指数级的提升,于是很多人就提出了自动化运维,而Python似乎也是“应运而生...

33011

扫描关注云+社区