Again—模型总结及R学习心得

我就在这里等你关注,不离不弃

——A·May

R-55T-68

模型篇再总结

1.甄别模式

待补充

无监督的甄别模式

非均衡数据的处理方法

2.关联算法

待补充

关于复杂网络的分析

3.分类

待补充

详细的决策树

分类回归树

详细的SVM支持向量机

4.聚类

待补充

EM聚类

BIRCH聚类

SOM网络聚类

DBSCAN聚类

5.回归模型

主成分

时间序列

待补充

完整的时序分析过程

假设检验(差异分析)

学习心得

R语言有多难?学学就知道。

最开始,以为R语言只是数据分析软件,学会运用R中的共享包就可以了。谁知道,R里面有那么多包,每个包里还有数量不等的函数,每个函数里还有数量不等的参数。然后就觉的我以为的我以为,还只能是我以为。如果,你有那种越学越发现自己学的知识R语言中的一丁点东西,那么恭喜你,因为你已经在敲R的大门了。如果,你发现R怎么这么难学,怎么学也记不住,可能有的东西理解都是问题,这也恭喜你,因为这样的你已经在R的世界开始里撞车了。

那么,怎样才能算学好R呢?这个标准我现在也说不清。在我看来,R世界里最顶尖的人物,就是能够参加R会议的那些大佬们,不知道你们有没有看他们的主题演讲稿,真的是厉害。然后,还有在统计之都和R语言中文社区的中发文的超级牛人。明显感觉他们的研究层次是S级的话,我现在在做的事也就是个C级,可能C级的水平还不到。

在思考这个问题的过程中,我给自己制定了3个关于学好R语言的标准——流畅的数据管理编码书写、能够表清意义的绘图操作和有目的性的数据分析。

流畅的数据管理的编码书写,如何实现这个标准呢?我的答案也有三点,首先,做好基本数据管理的练习,基本数据管理的练习包括十个方面,参考R语言 Again—新发现2;其次,熟练掌握sqldf的使用,也就是SQL语言的使用,这也是我学习SQL的主要原因,sqldf可以实现数据管理的绝大部分操作,在一定程度上代替自定义函数不是问题;最后,是懂得apply族函数,因为这一类函数能应用自定义函数,学习R,不学习R编程,你会感觉少一步,质的飞跃,无论怎样,建议学习。

能够表清意义的绘图操作。一方面,利用plot函数实现在数据探索性分析和描述性分析过程中的绘图操作,请参考R语言基础绘图&探索性分析【1】等一系列文。另一方面,专注ggplot2三十年不动摇,没有什么原因,这是应该的。

有目的性的数据分析,实际上这句话再加上一个实用性,是最好的不过了。这里的数据分析是指CRISP-DM整个数据挖掘流程,而非是狭义的建模分析,这个过程我觉的需要训练三个方面的内容:第一,理解案例。这个东西需要不断的看案例,独立分析案例,可以不用R实现分析过程,但是需要懂得一个案例存在什么问题、能够分析什么问题、这些问题有哪些分析方法、这些方法的适用性和限制条件、以及如何评价,这是金字塔原理的S部分。第二,懂得统计学和建模原理。培养对有关数字或者数据问题统计学意义的敏感度,简单问题的原理,我们可能不需要掌握,但是一些有深度的模型,其建模的参数和其原理是联系在一起的,你不学?不学的话,做出模型看不懂呀!第三,在类别问题和处理类别问题的模型上要有侧重,比如聚类问题,最易懂的层次聚类是一定要学好的,但是高级的方法比如SVM或者B-P神经网络,也要掌握一个,这个掌握的程度是能够直接写出模型的编码来!!!。但是一定要所有的方法都会用么?不用的,懂得原理就好了,用的时候,我可以来公众号里查,当然你们也行。

学海无涯,无论学好R的标准究竟是什么,学习始终是一件不能停下来的事,即使现在的我可以做到上面的三个标准,但是还有例如R的爬虫等一系列的方法等着我去掌握。

其实,学R也不难,有决心,能坚持,就够了。

我是May,明天见!

R语言前部分的总结

都在下面

学习数据挖掘交流平台

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180112G0G2I100?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区