从R迁移到Python过程中需要知道的几个包

还没关注?

快动动手指!

为什么使用 Python

我喜欢用 Python 来处理机器学习问题的一个重要原因是 Python 吸取了 R 社区的优点,同时还将其进行了优化打包。我一直认为编程语言的能力取决于它的软件库,因此本文将着重介绍我经常使用的一些关于机器学习算法的 R 包和 Python 中的替代包。

glm, knn, randomForest, e1071 -> scikit-learn

R 语言的一个缺点是每个机器学习算法都有一个相应的软件包,这大大提升了用户的学习成本。Python 中的scikit-learn 软件包则完美地解决了这个问题,scikit-learn 为许多常用的机器学习算法提供了一套相同的 API 接口。利用这个软件包,我们仅需要一行代码就可以将 LogistiRegression 模型切换成 GradientBoostingMachines 模型。

reshape/reshape2, plyr/dplyr -> pandas

pandas 吸取了 R 语言中数据清洗功能的优点并将其引入到 Python 中。该库中实现了数据框的功能和其他的一些常用操作方法,它基本包含了 reshape/reshape2plyr/dplyr 中的精华之处。

ggplot2 -> ggplot + seaborn + bokeh

在绘图方面,R 语言一直做得比 Python 好。即便如此,Python 的绘图功能已经趋于成熟了,如果你喜欢 ggplot 风格的代码,你可以尝试 Yhat 开发的 ggplot ;如果你倾向于绘制统计图,那么你可以使用 seaborn;如果你想体验一些更高级的功能,那么你可以尝试下 bokeh

stringr -> re+string

R 语言自带的字符串操作函数非常难用,每次当我需要处理字符串时,我都会做以下两件事:

  • 向大神 Hadley Wickham 表示感谢
  • 导入 stringr

stringr 绝对是一个大救星,该软件包非常友好,我们可以轻易地安装并利用它快捷地处理字符串数据。但是对于 Python 来说,它本身就能够非常快速地处理字符串数据,所以我们不需要类似于 stringr 的第三方软件包!Python 中拥有正则表达式库re,和一个内置的字符串软件包 string

RStudio -> Rodeo

对于许多用户来说,RStudio 是 R 语言中一款非常友好的编辑器。对于 Python 来说,以前可能没有比较好用的编辑器,但现在情况已经不一样了。在几年前就发布了 Rodeo 的第一个版本,并在之也发布了适用于 Windows, OSX 和 Linux 的 2.0 版本。

Knitr -> Jupyter

在 R 语言中,我们可以利用 knitr 来创建可重复的可视化分析报告,RStudio 中很早就包含了这个功能。在 Python 中,最相近的软件库是 Jupyter。Jupyter notebooks 为多种编程语言提供了一个创建可重复的可视化分析报告的交互式环境。

sqldf -> pandasql

sqldf 是 SQL 用户在 R 中轻松操作数据的一个好方法。在我刚开始喜欢使用 R 语言的时候,我经常利用 sqldf 来处理数据。据我所知,Yhat 开发了一个类似的 Python 软件库,pandasql。这两个软件库拥有同样的功能:利用 SQL 语句来操作数据框并返回相应的数据框。

每天进步一点点:数据分析1480

长按扫码关注我

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

基于深度学习的花卉识别(附数据与代码)

前几天,想必大家都忙着过女神节,但送礼物这件事情还是让不少直男苦恼,口红色号那么多,花还有那么多品种,一个不小心选错就容易踏入雷区,下面就教大家用机器学习来识别...

78570
来自专栏机器之心

效果惊人:上古卷轴III等经典游戏也能使用超分辨率GAN重制了

图像超分辨率是指从观测到的低分辨率图像重建出相应的高分辨率图像,这种重建不仅指令图像变得清晰锐利,同时还表示模型需要利用图像的高级语义信息重建出丢失的信息。因此...

8430
来自专栏人工智能头条

AI 预测性取向,化妆等因素并不影响判断

2017 年,斯坦福大学的一篇《深度学习通过面部识别判断性取向超越人类》曾引发了极大争议,其通过 AI 算法仅需「看面相」即可判断一个人是不是同性恋的方法让众人...

9220
来自专栏WOLFRAM

Wolfram 语言和Mathematica 版本12 发布了

我们很高兴地宣布Mathematica 和 Wolfram语言英文版本 12 今天发布了!这是一次重大的版本更新,新版本在诸多领域引入了数百个新功能,范围涵盖数...

43950
来自专栏人工智能头条

PAKDD 2019 中国企业深兰科技夺冠:AutoML 如何推动 AI 应用落地?

PAKDD 2019 AutoML3+ 挑战赛在 4 月 17 日公布了最终结果。Feedback phase 和 AutoML phase 的 Top3 排名...

10030
来自专栏人工智能头条

极大似然估计法的理解指南

极大似然估计是 1821 年由高斯提出,1912 年由费希尔完善的一种点估计方法。

14520
来自专栏人工智能头条

请收下这份 NLP 热门词汇解读

编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Transformer、BERT、无监督机器翻译,这些词汇仿佛在一夜之间就进入了人们的视野。你知...

10930
来自专栏人工智能头条

同样是罪犯,36岁比19岁危害小,这是算法的逻辑?

我们可以看到它们在世间发挥作用,我们知道它们正塑造我们周遭的各种事物,但我们大多数人并不知道算法是什么——或者算法如何影响我们。

9220
来自专栏机器之心

ICLR 2019论文解读:深度学习应用于复杂系统控制

20 世纪,控制论、系统论、信息论,对工业产生了颠覆性的影响。继 2011 年深度学习在物体检测上超越传统方法以来,深度学习在识别传感(包含语音识别、物体识别)...

24740
来自专栏机器之心

发文最多的机构与作者是谁?2018 ML和NLP学术会议统计

今年的统计数据包括以下会议/期刊:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 和 A...

13310

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励