专栏首页CDA数据分析师机器学习和 AI 领域必须了解的工具

机器学习和 AI 领域必须了解的工具

关于数据科学,工具可能并不是那么热门的话题。人们似乎更关注最新的聊天机器人技术以及深度学习框架。

但这显然是不合理的。为什么不花些时间,挑选合适的工具呢?毕竟好的工具能够让你事半功倍。在本文中介绍了机器学习和 AI 方面的优质工具。

应该使用哪种语言?

这是一个有争议的问题。存在很多不同的观点。我个人的观点可能不那么常见,我认为越多越好。你应该同时使用 R 语言和 Python。

为什么?R语言更擅长数据可视化,并且有大量的统计数据包。另一方面,Python可以帮助你将模型部署生产,并更好地与团队中其他开发人员合作。

基本的软件包

我们应该充分利用的优秀开源社区。首先让我们回顾一下数据科学工作的主要流程。

典型的机器学习工作流程

最重要的步骤是:数据获取、数据清洗、可视化、建模、沟通。这些过程都需要用到库。

数据清洗

针对数据清洗,R语言中有一个出色的包——dplyr。无可否认,它的语法有些奇怪。注意 %>% 与* nix中的(|)运算符的工作原理相同,前一个操作的输出成为下一个操作的输入。这样,只需几行代码,你就可以构建相当复杂且可读的数据清洗操作。

另一方面,Python中可以用到 Pandas。这个库很大程度上借鉴了R语言,特别是数据框的概念(当中行是观测,列是特征)。这需要一定的学习过程,但在习惯了之后,你可以在数据处理中做很多事情(甚至可以直接写入数据库)。

数据可视化

针对数据可视化,R语言中有 ggplot2plotly 。ggplot2 非常强大,但级别较低。同样它的语法很奇怪,你需要通过图形语法来进行理解。plotly是一个较新的库,具有 ggplot 的功能,只需要一行代码就能进行交互。

Python中进行可视化的基础包是 matplotlib。但它的语法有些奇怪,默认颜色也不那么理想,因此我建议你使用新的 seaborn 软件包。Python缺少对模型性能的可视化,这里可以使用 yellowbrick 解决。你可以使用它来创建漂亮的图表分类器进行评估,查看特征,甚至绘制文本模型。

使用 seaborn 对 iris 数据集进行绘制

API

使用R语言进行机器学习常常会遇到一个问题。几乎所有模型都有不同的API,除非你记住所有的内容,如果你只想测试不同算法,那么就需要打开好几个文档标签。这个缺陷可以用 caret mlr 解决,后者较新。我推荐用mlr,因为它更结构化,维护也更积极。而且功能强大,具有分解数据、训练、预测和性能评估功能。

Python中相应的库是 scikit-learn。这也是我最喜欢的库,同时 scikit-learn 也备受一些科技公司的青睐 。它有一致的API,超过150种算法(包括神经网络),出色的文档,主动维护和教程。

Python中的ROC/AUC图,使用yellowbrick

集成开发环境

对于R语言来说,RStudio 是一个非常棒的工具,而且没有其他的竞争工具。我们希望在Python中找到相应的工具,我筛选了十几个(Spyder,PyCharm,Rodeo,spacemacs,Visual Studio,Canopy等等),主要推荐当中的两个工具: Jupyter LabAtom + Hydrogen

Jupyter Lab 很棒。但它仍然继承了Jupyter Notebook 中存在的一些缺点,比如单元状态,安全性,以及最严重的VCS集成问题。出于这个原因,我建议使用 Atom + Hydrogen。你可以用它完成各种数据科学任务,比如检查数据框和变量,绘图等。

Atom + Hydrogen

EDA 工具

为什么需要?在数据科学过程中,尤其是起步阶段,我们需要快速地探索数据。在进行可视化之前,我们需要探索,并通过最少的技术投入来实现。因此写一大堆 seaborn、ggplot 代码并不是最佳选择,你需要使用 GUI 界面。因为不涉及任何代码,业务人员也可以使用。有两个非常棒的跨平台工具,并且免费——Past Orange。前者更侧重于统计分析,后者更侧重于建模。两者都可以做很棒的数据可视化,因此完全符合我们的目标。

用Orange你能够进行的操作

结语

通过对工具进行优化,你能够更高效地完成数据分析工作(但也不要以此为借口不去工作哦)。

原文链接:

https://towardsdatascience.com/optimal-tooling-for-machine-learning-and-ai-e43495db59da

本文分享自微信公众号 - CDA数据分析师(cdacdacda),作者:CDA 编译团队

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 跟面部识别开愚人玩笑?做一个时尚口罩就能实现

    目前,人脸识别的使用率正在不断上升,随之而来关于面部识别道德问题的争论也愈发激烈。从机场到社交媒体,面部识别的应用无处不在。因此,想让自己的脸不被扫描几乎是不可...

    CDA数据分析师
  • 学会10种方法,用Python轻松实现数据可视化

    引言 艺术之美根植于其所传达的信息。有时候,现实并非我们所看到或感知到的。达芬奇(Da Vinci)和毕加索(Picasso)等艺术家都通过其具有特定主题的非...

    CDA数据分析师
  • 干货 | 19款最好用的免费数据挖掘工具大汇总

    数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为...

    CDA数据分析师
  • Python数据分析和可视化,提升Python和数据应用能力(可供下载)

    我刚开始学习Python的时候,找了一本Python书籍,一边阅读,一遍抄写书中代码,并且对代码进行不同的“折腾”,充分地发挥自己的想象力,多问几个这段代码可以...

    陆勤_数据人网
  • 大数据可视化——这些必须知道的工具!

    人们常说,数据是组织的生命线。然而,解析这些数据并有效地使用仍然是一个挑战。 ? 大数据可视化 假设拥有一个巨大的金矿,但不能使用。那么,作为一个金矿的拥有者有...

    企鹅号小编
  • 全栈 - 2 序言 数据工程和编程语言

    张宏伦
  • 弈聪软件卓建超:大数据可视化分析技术决定大数据商业驱动力

    传统企业在数字化转型中,大数据分析技术对数据有效的展示能够极大提高对信息的洞察力。目前虽然已有大量的大数据可视化工具可供使用且很多大数据企业也正在使用这些工具,...

    西安弈聪软件公司
  • 干货 | 19款最好用的免费数据挖掘工具大汇总

    数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为...

    CDA数据分析师
  • 【智能】如何成为数据科学家:权威指南

    你好!我是Jose Portilla,Udemy的讲师,有超过25万名学生注册了各种各样的课程,包括Python的数据科学和机器学习、R编程的数据科学、Pyth...

    陆勤_数据人网
  • 【干货】推荐19款最常用的数据挖掘工具

    数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为...

    1480

扫码关注云+社区

领取腾讯云代金券