R 家族又添新丁,5个数据科学专用包,怀着探索的心态来使用吧

李垠序编译 出处:雪晴数据网

R生态体系有其非常之美,在于它的新包贡献系统,而这也可能是R使用者显著增加的根本原因。这一特点与坚如磐石的基础包版本库(CRAN)结合,给了R一个非常优越的条件。任何有足够专业技术的人,通过合适的方法都可以为CRAN贡献包。

仅仅关注CRAN可能无法发现其优秀的地方:事实上,对R的初学者而言,开源会让他们遇到很多麻烦。怎样通过一个有机的包系统来构造高质量的集成软件?学习这些需要花费许多时间和精力。不过即使是相对新手的人来说,发现那些支撑R语言发展的基础包并不难。那些可靠地为R语言增加价值的包已经出现在CRAN’s package dependency network。发现一个新包,并且最终有用是另一件重要的事情。出于探索精神,这里有5个可靠的新包,我认为数据科学家会对其感兴趣。在CRAN上,这些包都没有经过长时间的检验,因此请以合作的心态去探索他们吧。

AzureML V0.1.1

云计算对每个实践数据科学家都很重要(或者即将变得很重要)。微软的AzureML为R(和Python)程序员提供了一个非常丰富的机器学习环境。如果你还不是一个Azure的使用者,这个包花了大工夫来克服上手这一环境的困难。它提供了函数来将R代码从你的本地环境推送到Azure云端,并将函数和模型发布为web服务.图文教程会一步一步地教你,从获得试用账号和必要的证书到发布你的第一个简单的实例。

distcomp V0.25.1

对大数据集的分布式计算是非常棘手的,尤其是在不能或很难共享集群间数据的环境当中。Distcomp聪明地包执行了一个局部似然算法(详见:paper by Narasimham et al)使得在非聚合的数据集上建立一个复杂的统计模型成为可能。更多详细的信息可以参考早期博文。

rotationForest V0.1

介于其在多种数据集上稳定良好的表现,森林算法对许多数据科学家来说是一个必选的组合方法。它的一个新变种,基于特征空间随机子集的主成分分析有着非常好的应用前景。paper by Rodriguez et. al解释了PCA对特征空间旋转的意义,并将旋转森林算法与标准随机森林、Adaboost算法进行了比较。

rpca V0.2.3

给定一个兼有低秩性和稀疏性的矩阵,rcpa使用稳健PCA方法来弥补这一特性。Netflix数据科学家发布了这个算法(基于paper by Candes et al)。今年早些的时候,他们公布了这一算法在异常检测问题上的惊人成功。

SwarmSVM V0.1

支持向量机也是一个主流的机器学习算法。SwarmSVM 基于聚类方法,提供了三个组合算法来训练支持向量机(详见paper by Gu and Han)。程序包的图文教程提供了一个实例来介绍该方法。

原文:5 New R Packages for Data Scientists

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-08-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【我不再使用TensorFlow的5大原因】谷歌最受欢迎深度学习框架日渐式微?

【新智元导读】一篇叫做“TensorFlow Sucks”的文章火了。上线不到两年便成为Github最受欢迎深度学习项目,谷歌开源深度学习框架TensorFlo...

4307
来自专栏人工智能快报

谷歌开源机器学习框架TensorFlow 1.0

据外媒报道,在美国加利福尼亚州山景市举行的首届TensorFlow开发峰会上,谷歌发布了代表人工智能发展趋势的TensorFlow深度学习开源框架1.0版。谷歌...

3125
来自专栏ATYUN订阅号

Berkeley共享自主研究:人-机组合应用model-free RL,优化无人机实时辅助控制

想象这样一个场景,无人机驾驶员远程操控一架四旋翼飞行器,用机载摄像头进行导航和着陆。不熟练的飞行动态、陌生的地形和网络延迟都会影响这个系统,使得人很难对其进行控...

1105
来自专栏AI研习社

这些关于TensorFlow问题的解答,你不能错过

作为目前最普及的深度学习框架,TensorFlow 实不必多做介绍。 无论国内外,有相当数量程序员以 TensorFlow 入门深度学习开发,逐步走上职业机器学...

4676
来自专栏钱曙光的专栏

AI 重新定义 Web 安全

目前近 90% 的企业都已经开始使用云计算(包括公有云、私有云等),这说明大规模云化对于企业而言已经不只是趋势,更是确凿的既成事实,云化普及的同时也给安全带来很...

4370
来自专栏BestSDK

百度上线深度学习工具Visual DL,提供独立的Python SDK

百度PaddlePaddle & ECharts团队宣布上线深度学习可视化工具Visual DL,该工具可以使得深度学习任务变得生动形象,实现可视分析。百度希望...

3829
来自专栏AI研习社

万事开头难!入门TensorFlow,这9个问题TF Boys必须要搞清楚

作为目前最普及的深度学习框架,TensorFlow 实不必多做介绍。 无论国内国外,有相当数量的程序员以 TensorFlow 入门深度学习开发,逐步走上职业机...

38415
来自专栏人工智能头条

声纹识别技术助力远程身份认证

3112
来自专栏量子位

软件2.0时代来了!特斯拉AI负责人说:神经网络正在改变编程

原作:Andrej Karpathy 安妮 编译自 Medium 量子位 出品 | 公众号 QbitAI 本文作者Andrej Karpathy,现任特斯拉人工...

3735
来自专栏量子位

谷歌大脑发布神经架构搜索新方法:提速1000倍

岳排槐 发自 LZYY 量子位 出品 | 公众号 QbitAI ? 去年,谷歌大脑团队发布神经网络自动架构搜索(NAS)。这个方法理论上能够更好地、自动化地设计...

36810

扫码关注云+社区

领取腾讯云代金券