前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何开始用R进行机器学习(一周获得结果)

如何开始用R进行机器学习(一周获得结果)

作者头像
anthlu
修改2018-02-07 17:17:33
1.1K0
修改2018-02-07 17:17:33
举报
文章被收录于专栏:AIAI

你如何开始用R进行机器学习?

R是一个庞大而复杂的平台。对于最好的数据科学家来说,它也是世界上最流行的平台。

在这篇文章中,您将探索可以在R平台上使用机器学习进行预测建模的分步过程。

这些步骤非常实用,非常简单,您可以在一周后建立准确的预测模型。

在这个过程里假设你是一个开发人员,了解一点机器学习,并且实际上会做这个工作,但是这个过程确实能够提供结果。

让我们开始吧。

如何开始用R进行机器学习  照片来自Sebastiaan ter Burg,保留一些权利。
如何开始用R进行机器学习 照片来自Sebastiaan ter Burg,保留一些权利。

学习R的错误方法

下面是我认为你不怎么应该在R上学习机器学习。

  • 步骤1:真正擅长R编程和R语法。
  • 步骤2:了解您可以在R中使用的每种可能算法的深层理论。
  • 步骤3:详细研究如何在R中使用每个机器学习算法。
  • 步骤4:只是稍微了解如何评估模型。

我认为这是错误的方式。

  • 它告诉你,你需要花时间学习如何使用单独的机器学习算法。
  • 它并没有教给你在R中建立预测机器学习模型的过程,你可以在实践中使用它来进行预测。

不幸的是,这是在在R中教学机器学习的方法,我在几乎所有有关该主题的书籍和在线课程中都能看到。

你不想在R上甚至在机器学习算法上成为一个牛人。你想成为用R建立准确预测模型的一个牛人。这就是上下文。

您可以花时间详细学习单个机器学习算法,只要它帮助您更可靠地构建更准确的预测模型。

在R上进行机器学习的好背景

你可以直接跳入R。去找它。

在我看来,如果你有一些背景的话,我想你会从中得到更多。

R是一个先进的平台,作为一个初学者,你可以从那里得到很多。但是,如果你有一点机器学习和一点编程的基础,R将很快会成为建立精确预测模型的超级工具。

一般建议

这里有一些关于如何从R开始机器学习入门的建议。我认为对于一个对机器学习感兴趣的现代开发人员来说,这是合理的。

知道如何编程的开发者。这是有帮助的,因为了解R的语法并不是什么大事,有时候这可能会有些奇怪。知道可以完成这个或那个任务的脚本或脚本(小脚本)的人也很有帮助的。R毕竟是一种编程语言。

对预测性建模机器学习感兴趣。机器学习是一个涵盖各种有趣算法的大领域。预测建模是一个子集,只关注构建对新数据进行预测的模型。没有解释数据之间的关系,也没有从一般的数据中学习。我想预测性建模是R真正成为机器学习平台的亮点。

熟悉机器学习基础知识。您将机器学习理解为感应问题,其中所有算法实际上只是试图从输入空间到输出空间来估计和映射底层函数。所有的预测性机器学习都是通过这个镜头来实现的,就像搜索最佳机器学习算法,算法参数和数据转换的策略一样。

具体建议

我在下一节中的布局的方法也会对您的背景做出一些假设。

你不是机器学习的完全初学者。你可能是,而且这种方法可能适用于你,但如果你有一些额外的建议背景,你会从中得到更多的东西。

你想使用自上而下的方法来学习机器学习。这是我教的方法,而不是从理论和原则开始,最终碰到实际的机器学习,如果有时间的话,你开始的目标是通过一个项目端到端的工作和研究的细节,你需要他们为了交付更好的结果。

您熟悉预测性建模机器学习项目中的步骤

特别是:

  1. 定义问题
  2. 准备数据
  3. 评估算法
  4. 改善结果
  5. 当前结果

你可以在这里了解更多关于这个过程和这些步骤:

您至少熟悉一些机器学习算法。或者您可能知道如何快速提取它们,例如使用算法描述模板方法。我认为学习机器学习算法是如何以及为什么是学习如何像在R这样的机器学习平台上使用这些算法的单独任务的细节。他们通常在书本和课程中混合在学习的决定因素中。

您可以在这里了解更多关于如何使用模板方法学习任何机器学习算法:

如何在R上学习机器学习

本部分介绍了一个可用于在R平台上开始构建机器学习预测模型的过程。

它分为两部分:

  1. 将机器学习项目的任务映射到R平台上。
  2. 使用标准数据集进行预测建模项目。

1.将机器任务映射到R上

你需要知道如何在R平台上做一个机器学习的具体任务。一旦你知道如何使用该平台完成一个离散的任务,并可靠地得到结果,你可以在项目之后一次又一次地在项目中做到这一点。

这个过程很简单:

  1. 列出预测性建模机器学习项目的所有离散任务。
  2. 创建方法来可靠地完成任务,您可以复制粘贴作为未来项目的起点。
  3. 添加和维护方法是你对平台和机器学习提高的理解。
预测建模任务

以下是您可能想要映射到R平台的预测建模任务的最小列表,并创建配方。这不完整,但覆盖了广泛的平台:

1. R语法概述

2. 准备数据

i. 加载数据

ii. 使用数据

iii. 数据汇总

iv. 数据可视化

v. 数据清理

vi. 功能选择

vii. 数据转换

3. 评估算法

i. 重采样方法

ii. 评估指标

iii. Spot-Check算法

iv. 模型选择

4. 改善结果

i. 算法调优

ii. 合并方法

5. 当前结果

i. 敲定模型

ii. 做出新的预测

您会注意到第一个任务是R语法的概述。作为开发人员,您需要先了解该语言的基础知识,然后才能做任何事情。如赋值,数据结构,流程控制和创建和调用功能。

离线方法库

我建议创建离线的方法。这意味着每个配方是一个完整的程序,它具有完成任务和产生输​​出所需的一切。这意味着您可以将其直接复制到未来的预测建模项目中。

您可以将方法存储在一个目录或GitHub上。

2.小​​型预测建模项目

用机器学习的常见预测建模任务的配方是不够的。

再次,这是大多数书籍和课程停止的地方。他们会把这些方法拼凑成端到端的项目。

你需要把方法拼凑成端到端的项目。这将教导和展示如何使用平台实际提供结果。我建议只使用来自UCI机器学习库的小的完全了解的机器学习数据集。

这些数据集可作为CSV免费下载获取,大多数数据集可通过加载第三方库直接在R中获得。这些数据集非常适合练习,因为:

  1. 它们很小,意味着它们适合记忆,算法可以在合理的时间内对它们进行建模。
  2. 他们表现良好,这意味着你通常不需要做很多特色工程来获得好的结果。
  3. 有标准,这意味着许多人以前使用过它们,你可以得到好算法的一些想法来尝试和你应期待的好结果。

我推荐至少三个项目:

  1. Hello World Project(鸢尾花)。这是一个快速通过项目,数据集里没有太多的调整或优化的步骤,从而广泛使用作为机器学习的hello world(更多的鸢尾花数据集)。
  2. 二进制分类端到端。通过二元分类问题的每个步骤(例如皮马印第安人糖尿病数据集)。
  3. 回归端到端。使用回归问题(例如波士顿房屋数据集)处理每个步骤的过程。

添加和维护方法

用R进行机器学习并不能停留在一些小的标准数据集上。你需要面对更多不同的挑战。

  • 标准数据集:您可以从UCI机器学习库中练习其他标准数据集,克服不同问题类型的挑战。
  • 竞赛数据集:您可以尝试通过一些更具挑战性的数据集,比如过去的Kaggle竞赛或过去的KDDCup挑战。
  • 你自己的项目:理想情况下,你需要开始通过自己的项目工作。

一直以来,您都会沉浸在帮助之中,调整脚本并学习如何从R上学习更多的机器知识。

将这些知识折叠回机器学习方法目录是非常重要的。这将使您能够快速利用这些知识,并在开发预测模型方面大大提高您的技能和速度。

这个过程的结果

你可以在一个周末里完成这个过程。到周末结束时,您将拥有可用于使用R中的机器学习来建模自己的问题的方法和项目模板。

您将从对R机器学习感兴趣的开发人员转到具有资源和能力的开发人员,这些开发人员可以使用R端到端地处理新的数据集,并开发预测模型进行展示和部署。

具体来说,你会知道:

  • 如何实现R中预测建模问题的子任务
  • 如何在R学习新的和不同的子任务
  • 如何得到R的帮助
  • 如何通过一个小到中等大小的数据集进行端到端的工作。
  • 如何交付一个模型,可以预测新的未知的数据。

从这里开始,您可以开始深入了解所使用的功能,技术和算法的具体细节,以便学习如何更好地使用它们,从而以更短的时间更可靠地提供更准确的预测模型。

概要

在这篇文章中,您发现了一个循序渐进的过程,您可以使用它来学习和开始机器学习。

这个过程的三个高级步骤是:

  1. 将预测建模过程的步骤映射到R平台上,并使用可重复使用的方法。
  2. 通过小型标准机器学习数据集来将方法拼凑成项目。
  3. 通过更多不同的数据集,理想情况下你自己的,并添加到您的方法库。

你也发现了他背后的哲学理念,以及为什么这个过程是你最好的过程。

下一步

你想用R学习机器学习吗?

  1. 立即下载并安装R。
  2. 使用上面的流程大纲,限制自己到一个周末,并尽可能地去做。
  3. 回报。发表评论。我很想听听你是做得如何。

关于这个学习过程有什么问题?留下评论,我将尽力回答。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学习R的错误方法
  • 在R上进行机器学习的好背景
    • 一般建议
      • 具体建议
        • 如何在R上学习机器学习
          • 1.将机器任务映射到R上
          • 2.小​​型预测建模项目
          • 添加和维护方法
          • 这个过程的结果
        • 概要
          • 下一步
          相关产品与服务
          腾讯云 TI 平台
          腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档