从网络爬虫到机器学习该如何学习?

很多同学选择了Python作为其学习编程的首选语言,而Python也以其容易上手的语法、广泛的应用领域、不断旺盛的市场需求回报着每一个学习者和应用者。

今天我们来说说Python的一个热门的应用领域——数据科学。

数据科学领域涵盖了数据的获取、数据的处理、数据的分析和数据的挖掘这4个方面。而这4个方面,Python都能够轻松的胜任。

数据获取——仰赖于Python在网络爬虫领域的诸多优势,很多人对于Python的第一印象就是用来写爬虫的。使用Python,我们可以轻松地获取到互联网上的大量数据,无论是使用requests请求静态网页和API接口,还是借助Selenium采集复杂网站上的数据,或是应用PyQt来对某些限制类型的网站进行曲线采集,Python在数据采集方面的能力都值得称道。

数据处理和分析——随着Python数据科学应用模块的逐渐丰富,Python也逐渐取代R语言,成为越来越多的数据分析工作者首选的工作编程语言。凭借着Numpy、Pandas、Scipy等第三方模块的诞生和完善,Python面对大量数据的处理和分析能力逐渐增强,使用Python进行数据分析变得简单、方便和高效。

数据挖掘——大数据如何进行运用,如何高效地运用。如何从大数据从发现大商机?如何依靠大数据解决现实问题?这都是数据挖掘需要解决的问题,很不好意思的是,Python依靠于丰富和完善的机器学习模块,在数据挖掘和机器学习方面,也是令人称道的。不管是传统的机器学习,还是新兴的深度学习,都能够在Python中完整的调用和实现。

Python在这三大块的应用,单独拎出来都可以大书特书几大本,市面上也有很多对Python网络数据采集、Python数据分析、Python机器学习的书籍、教程和视频。

但是如何衔接从数据爬取到数据处理再到数据挖掘机器学习应用的过程呢?

去年,我写了一本《Python网络爬虫实战与机器学习应用》,面向于Python初学者,从HTTP协议开始讲起,涉及了网络爬虫中的网络请求、数据解析、图片处理、模拟登录、并发采集和数据存储,数据分析中的数据处理、数据筛选和数据可视化,机器学习中的分类、回归和聚类三大主题。

书中包含了各个基础概念和模块的介绍并实战讲解了:

  • 腾讯新闻的爬取
  • 模拟登录懒人模板实现模板下载
  • 表情包图片的批量采集下载
  • 今日头条数据API接口的寻找和请求
  • 微信公众号文章的采集
  • 图片电话的OCR识别
  • MySQL的使用和数据存储
  • 百度歌单的爬取和数据分析、可视化
  • 对爬起的表情包图片进行机器学习聚类分析
  • 对垃圾短信数据的分类识别

如今,本书已经上线百度阅读

大家可以在百度阅读(https://yuedu.baidu.com/)上搜索得到:

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2018-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

服务拆分与架构演进|洞见

本文首发于InfoQ: http://www.infoq.com/cn/articles/service-split-and-architecture-evol...

3694
来自专栏云计算D1net

云计算专家希望获得可用性、集成性和成长空间

调研机构最近对IT决策者进行了一项调查,以了解他们如何推进存储战略和投资,其中包括数据备份、私有云、混合云,以及多云计划。为了满足当前和未来的存储需求,他们正在...

912
来自专栏养码场

360数据平台副总监王景正独家解析:大数据平台从0到1的演进历程,深度解构QDAS以及...

在大数据的风口,起飞的为什么是360?这也许是很多人的疑问,作为大数据业界的弄潮儿,360大数据平台是如何演进的,QDAS是缘何诞生,以及再次变革的原因又是什么...

1342
来自专栏原创

DT时代下[个推3.0]遵循的四个法则

DT(Data Technology),是以服务大众、激发生产力为主的技术。从IT时代走向DT时代,我们要思考如何用互联网技术、理念、思想去与传统行业进行交融和...

3516
来自专栏人工智能头条

感动!有人将吴恩达的视频课程做成了文字版

8433
来自专栏DevOps时代的专栏

你所不了解的 DevOps

1664
来自专栏智能计算时代

[ 数据架构 ]MIKE2.0方法 : 一种信息开发的开源方法

以下显示的是信息成熟度(IM)QuickScan的示例输出。 IM QuickScan用作评估企业级组织中数据治理级别的第一步。

1021
来自专栏数据的力量

说说网站用户的生命周期价值

1504
来自专栏奇点大数据

资源!吴恩达视频文字版及笔记整理

不过,这种视频在线课程也有其弊端,就跟很多人不喜欢微信语音一样,想要在视频中查找和回顾相关的知识点并不方便。

1211
来自专栏程序员的SOD蜜

架构重构改善既有代码的设计

(本文摘自2010技术应用计划相关章节)     当架构模型进行迭代的过程中,必然伴随着对模型进行修改和改进。我们如何防止对模型的修改,又如何保证对模型进行正确...

3186

扫码关注云+社区