R 语言数据分析师养成计划——从零开始的 14 个任务

CDA数据分析师

发布于 2018-02-26 17:17:28

1K0

发布于 2018-02-26 17:17:28

文章被收录于专栏：CDA数据分析师

作者 CDA数据分析师

1992年，肉丝（Ross Ihaka）和萝卜特（Robert Gentleman）两个人在S语言（贝尔实验室开发的一种统计用编程语言）的基础上开始构思一种新的用于统计学分析的开源语言，直到1995年第一个版本正式发布（和各位年龄相仿）。因为他们名字的第一个字母都是R，所以这门语言就被叫做R。这两个人都是统计学教授出身，再加上R语言的生父S语言，所以R语言在统计学方面有着纯正的血统！

如果你平时的工作会涉及到统计学，那么接触R语言实在是太正常不过了。因为R语言本身为统计而生，所以你能想到的所有统计相关的工作，R都可以非常简洁的用几行命令（甚至1行命令）帮你完成。

在R官网有这样几句介绍：“R provides a wide variety of statistical (linear andnonlinear modelling, classical statistical tests, time-series analysis,classification, clustering, …) and graphical techniques, and is highlyextensible. One of R's strengths is the ease with whichwell-designed publication-quality plots can be produced, including mathematicalsymbols and formulae where needed.”

* R高度的可扩展性正是体现在它那1万多个包上，你想做的几乎所有事情都可以用现有的R包来辅助完成（当然，有些工作即便能完成但也不适合）。

* R另一个杀手锏就是其强大的绘图功能，正如上面的英文介绍所言，R可以画图，画各种各样的图，画各种各样高逼格的图，画各种各样高逼格可以直接出版的图。

* 完善的统计学功能再加上强大的绘图功能，就是你学习的最大理由。

C君推荐：扎扎实实的养成R语言数据分析师！

R语言数据分析师养成计划——从零开始的14个任务

本课程主要是面向小白人士，课程将回答为什么要学习数据分析？如何学习数据分析？并且从R语言安装、数据结构探索、R基本语句以及数据可视化、决策树等内容重点剖析14个任务的操作，并在课后有相应作业的布置、修改，使零基础的学员完全掌握R语言，完成数据分析师计划的学习。

大纲

引言——关于数据分析学习的3个问题

（1）为什么要学习数据分析

（2）如何学习数据分析

（3）如何理解我们的课程大纲

任务1 走进R语言与Rstudio

任务1是整个课程的开篇，主要介绍R的下载与安装、R包的管理，帮助学员快速掌握编程界面。

任务2 R的数据结构探析

任务2中，我们主要学习向量、矩阵、列表、数据框、因子等数据类型，学习数据类型的相互转换。

任务3 熟悉R的基本语句

任务3中，循环、条件、自定义函数是我们的主要学习内容，这里我们会用到while, for, if, function等命令，这些命令将让我们处理数据变得游刃有余。

任务4 数据可视化——R的基本作图

可视化是数据分析的核心之一，毕竟大多数人没有数据分析基础，也很难从海量数据中直接提炼信息，这时我们就需要运用散点图、直方图、饼图等可视化工具来帮助我们发现数据规律，展示模型结果。

任务5 数据可视化——R的可视化进阶

地理信息可视化，简单的说就是在地图上做数据展示，我们将用Remap等功能包，让你的可视化效果变得十分酷炫。

任务6 多元线性回归——上市企业盈率的影响因素分析

多元线性回归是所有数据分析模型的入门级模型，它能有效的帮助我们对进行影响因素分析，客户价值评估等工作。这一任务中，我们将用尽可能通俗的语言来阐述原理，并以案例的方式进行模型实践。

案例摘要：市盈率往往是评价上市企业的重要指标，但市盈率=每股市价/每股收益，股价在很大程度上由投资者和市场决定，有投机的因素存在，时常偏离这支股票的内在价值，对企业来说，通过改善每股收益来改善市盈率更为实际。因此，我们的案例将选择把每股收益作为被解释变量进行分析。

任务7 主成分分析——上市公司财务数据的主成分分析

主成分分析的作用有很多，其中最常用的就是降维、处理多重共线性、构造指标排名。在这一任务中，我们将结合主成分的基本原理来阐述和实践。

案例摘要：为了分析财务状况是如何影响企业市盈率的变化，我们整理了128 家该板块的公司财务报表，但由于财务数据众多，而且存在多重共线性问题，所以我们运用主成分方法，将各种财务比率变量降维，再建立回归模型进行研究。

任务8 聚类分析——基于能力指标的基金经理人分类

物以类聚，人以群分。在互联网2.0时代深耕细分市场是大多企业的共识。那么如何进行有效的分类才能在这一讲中我们将讲述聚类的基本方法，其中包括均值聚类和密度聚类。

案例摘要：我们对基金经理人能力指标数据进行了整理，我们在案例中将对经理人按照其能力指标进行分类，给投资者提供参考。

任务9 逻辑回归——网贷平台信用风险影响因素与识别

逻辑回归是最常用的分类模型之一，它最大的优势在于不但能够分类，而且等给出属于哪个分类的概率，其影响因素可以分别进行单调性分析。

案例摘要：本案例以国内85家P2P平台为研究样本（已屏蔽平台名称），从运营时间（月），平均年化收益率，注册资金（万元），平台高管人数，高管信息详细比例等来评价影响P2P平台出现问题的原因，并对平台进行风险识别。

任务10 决策树 —— 银行贷款风险识别

决策树是最为直观的决策模型，在这一节中，我们将介绍信息熵，信息增益等概念来帮助大家快速理解决策树。在案例方面，我们将介绍主流的CART和C5.0模型的应用。

案例摘要：贷款违约风险是银行面对的主要风险之一，一笔正常的贷款，银行的利润是10%左右的利息，但是一笔违约的贷款，银行则需要付出100%的本金。在我们的案例中，我们将给出如何应用决策树来进行风险识别的解决方案。

任务11 支持向量机（SVM）——智能投顾方案设计

支持向量机（SVM，Support vector machines）技术是以数学和统计这两门学科为基础支持的学习算法。在业务场景下，SVM通常被用来进行目标识别，样本分类和回归分析。在机器学习领域，“机”（machine）表示算法的意思。虽然同属监督学习算法，但与神经网络、决策树不同，支持向量机有着明显的数学运算和优化技术的基因。

案例摘要：对于股票投资者，选股是基于自身对于市场情况判断等人为因素来筛选市场中的优质股票，即在当下买入这些优质股持有一定的时间段中，也就是说在选择时找出自己未来看涨的股票。用SVM来选股的核心在于设计样本股票的指标，为了能够综合不同证券分析方法，本案例SVM模型的特征选择会从各个角度选取股票样本的输入变量。

任务12 关联分析——互联网投资标的的智能推荐

关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。进入互联网时代，关联分析的应用已经被各类平台发挥得淋漓尽致，其主要应用场景包括：

网购商品的智能推荐。（互联网零售）

电信产品的捆绑销售。（电信运营商）

互联网投资标的的智能推荐。（互联网投资平台）

音、视频节目的智能推荐。（音、视频平台）

案例摘要：随着互联网金融的飞速发展，在互联网金融平台上寻找投资标的，进行资产投资，已经成为了越来越多投资者的选择。然而，在互联网金融平台上进行投资通常需要面对以下三方面特征（以P2P网贷为例）：（1）一个标的（一笔借款）需要多个投资人（出借人）投标才能满足；（2）投资人通常不具备专业知识；（3）互联网金融市场的单个标的金额较小，通常一个标的（一笔借款）金额都被限定在1万元-10万元之间，而每个投资人都投资每个标的的一部分，那么投资人就需要完成多个的投标行为才能达成自己的投资需求。因此在互联网金融平台上，投资人的决策成本较高。

那么从平台的角度，除了强化风险管理和提高信息透明度以外，还有那些工作可以吸引投资者，降低投资者决策成本，提高平台效率呢？投资标的的智能推荐就是一个不错的选择，下面我们就基于关联算法来介绍一个投资标的的智能推荐案例。

任务13 神经网络—— P2P网贷的逾期风险识别

神经网络是目前最为热门的模型，它是通往深度学习的基石，这里我们将详细介绍神经网络的基础知识，为大家的进一步学习后期的深度学习打下坚实的基础。

案例摘要：在互联网金融蓬勃发展的环境下，P2P 网贷在我国迅速发展起来。P2P网贷是指通过借助专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续的网络借贷，是一种将小额度的资金聚集起来借贷给有资金需求人群的商业模型。对P2P信用风险进行识别是一个十分有意义的研究主题，它能够帮助P2P网贷投资者降低投资风险，也在一定程度上促进P2P行业的发展。本案例就将基于神经网络对P2P网贷中的信用风险进行识别。

任务14 朴素贝叶斯与文本分析—— 散户投资者情绪识别

朴素贝叶斯分类方法是一种十分简单的分类算法。之所以这个方法叫做朴素贝叶斯分类方法，是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础可以简单的表述为：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

案例摘要：投资者情绪识别是业界和学界共同关心的话题。我们认为，当投资者表现出乐观（正面）情绪，这种情绪将转化为做多行为，这有助于股票价格上涨；反之，当投资者表现出悲观（负面）情绪，这种情绪将转化为做空行为，这有助于股票价格下跌（相关的文献对于这方面观点仍有各自的表述）。在这个案例中，我们并不研究情绪与股价的关系，而是希望通过模型来识别论坛中的评论情绪类型。这项工作是后期各种基于情绪指标的交易策略的前提和基础。

任务15 总结

（1）对所有学习的模型进行综述

（2）对后期学习给出建议

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-19，如有侵权请联系 cloudcommunity@tencent.com 删除

r 语言