前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python学习路线

python学习路线

作者头像
hankleo
发布2020-09-16 15:34:26
7580
发布2020-09-16 15:34:26
举报
文章被收录于专栏:Hank’s Blog

爬虫

1.基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

2.HTML基础、网络请求模块:requests(必学),urllib(可以了解)

3.需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

4.网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

5.动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

6.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

7.网络抓包分析(选学)

8.爬虫框架:Scrapy(选学),pyspider(选学)

9.分布式爬虫(选学)

数据分析与处理

1.基础知识:python(函数、模块、面向对象),正则表达式,JSON(必学)

2.上述爬虫相关:

·基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

·HTML基础、网络请求模块:requests(必学),urllib(可以了解)

·需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

·网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

·动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

·数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

3.数据分析相关库:Pandas,Numpy,Scipy,结巴分析等(必学)

4.图表绘图与可视化:Matplotlip,词云(必学)

大数据(数据挖掘、机器学习)

1.基础知识:python(基础+进阶)(必学)

2.金融学、统计学、计量经济学、投资学(必学)

3.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

4.数据分析相关库:Pandas,Numpy,Scipy,结巴分词(必学)

5.图表绘图与可视化:Matplotlip等(必学)

6.机器学习相关模型知识:朴素贝叶斯、决策树、Logistic回归、线性回归、KNN算法、SVM、

Boosting、聚类、推荐系统、pLSA、LDA、GDBT、Regularization、异常检测、EM算法、Apriori、

FP Growth等(必学)

7.机器学习相关库:sklearn(必学)、keras、statsmodels、tensorflow(选学)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-01-20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档