我们做数据建模工作,需要一个建模工作环境。
我基于公司申请的Ubuntu20.10系统的服务器搭建过可供多人使用Jupyter Hub建模平台,支持Python工作、R工作和Linux工作三种方式,同时,也可以做账户管理、权限管理、共享管理等。我也基于自己的本地机器,在Win系统上面搭建建模工作环境,支持Python工作和R工作。顺便说一下,我在金融科技行业做数据科学工作,Python语言和R语言,我都会使用。我从不做语言的好坏选择,只看语言是否有利于我解决问题。
在这里,我分享下如何快速而高效地在本地机构建建模环境?
软件下载链接:
https://www.anaconda.com/products/individual
下载到本地后,逐步安装即可。
软件下载链接:
https://cran.r-project.org/bin/windows/base/old/ 选择一个版本安装就可以了,你可以安装R4.0.0
下载到本地后,逐步安装即可。
软件下载链接: https://www.jetbrains.com/zh-cn/pycharm/download/#section=windows 你可以下载一个提供30天试用期的专业版软件。
首先,启动Anaconda Prompt,进入R的安装路径下的bin文件夹,输入R
,进入到R控制台
其次,执行如下安装命令
install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools',
'uuid', 'digest'))
devtools::install_github('IRkernel/IRkernel')
最后,配置R核
IRkernel::installspec(user = FALSE)
第一步:打开PyCharm软件 第二步:进入File-New Project可以创建数据项目,命名建议以任务为导向,例如Prod_App_Credit_Score_Model,如下图所示:
Python解释器的配置,你可以在上图中第2个红色方框里面完成,找到你已经安装的Anaconda软件下的python.exe解释器。
在数据项目Prod_App_Credit_Score_Model,启动Jupyter Lab
启动方式,如下图所示。
执行命令
jupyter-lab
成功启动后,如下图所示。
这个时候,就可以使用Python工作方式或者R工作方式,针对数据项目开展数据建模工作了。
在Jupyter Lab下,打开Python的notebook,做如下测试用例。
执行如下命令
!pip list
部分结果如下图所示:
写入如下代码
import toad as td
import scorecardpy as sc
print(td.__version__)
print(sc.__version__)
结果如下图所示:
在Jupyter Lab下,打开R的notebook,做如下测试用例。
写入如下代码
library(tidyverse)
installed.packages() %>%
as.data.frame() %>%
dplyr::select(Package, Version)
部分结果如下图所示:
写入如下代码
if(!require(scorecard)){
install.packages("scorecard")
require(scorecard)
}
# 查看R包的帮助信息
help(package="scorecard")
结果如下图所示:
俗话说,“工欲善其事,必先利其器”。
搭建一个高效建模工作环境,有利于我们开展数据建模工作。