专栏首页机器人网人工智能工程师学习学习路线图

人工智能工程师学习学习路线图

入门前需要的几种技能:

统计学

要深入理解机器学习,必须要有扎实的统计学基础知识,这涉及到几个方面:

1、度量模型是否成功的各种方法(精确度、召回率、ROC曲线下面积等)。损失函数和评估指标的选择是如何**偏离模型的输出**的。

2、如何理解**过拟合**和**欠拟合**,以及**偏差/方差折衷**。

3、你对模型的结果有什么样的**信心**。

机器学习理论

在训练神经网络的时候,实际上发生了什么?是什么使得某些任务可行,而其他任务不可行?要弄清楚这些问题,最好的方法不是深入研究理论知识,而是试着通过图形和示例来了解机器学习。

需要理解的概念范围包括:不同的**损失函数**的工作原理是什么、为什么**反向传播**是有用的、**计算图**是什么。而对于**如何建立一个功能模型**,以及**如何跟团队里的其他人员进行有效地交流**,这些都需要深入地理解。

另一个基本技能是阅读、理解和实施论文的能力。这个一开始做起来可能会感觉比较困难,所以最好的方法就是阅读附带代码的论文(例如,研究GitXiv上的论文),并试着去理解它是如何实现的。

数据处理

如果你去问任何一个数据科学家他们的主要工作是什么,他们会告诉你,90%的工作是数据处理。这与应用AI同样重要,因为模型的成功与否与数据的质量(和数量)强相关。数据工作包含多个方面,但可归纳为下面几类:

数据采集(包括:找到好的数据源、准确度量数据的**质量**和**分类**、获取和推断标签)数据预处理(**缺失数据**填补、**特征工程**、数据**增强**、数据**规范化**、交叉验证分割)数据后处理(使模型的输出可用、清理工作、处理**特殊情况**和**异常值**)熟悉数据处理工作最好的方法是获取一个数据集并试着使用它。有很多在线数据集,以及很多提供API的社交媒体和新闻媒体网站。基于上面提到的几个步骤,我们可以这样进行学习:获取一个开源的数据集,并对其进行检查。它有多大(点和特征的数量)?数据如何分布?是否存在缺失值或异常值构建一个将原始数据转换为可用数据的转换流程。如何填补缺失值?如何正确处理异常值?如何规范化数据?能创造出更多的表现特征吗?

软件工程

许多的应用机器学习允许你充分发挥自己在软件工程方面的技能,虽然有时也会有一点小改变。这些技能包括:

测试流水线的各个方面(数据的预处理和增强、输入输出的整理、模型推理时间)。基于**模块化**和可重用的原则来构建代码。在训练过程中的不同点对模型进行备份(**设置检查点**)。配置一个**分布式的基础架构**,这样能更加有效地进行训练、超参数搜索或者推演。

本文分享自微信公众号 - 机器人网(robot_globalsources)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 常见的大数据术语表(中英对照简版)

    大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客...

    机器人网
  • 理解了这些机械原理动图, 你就是个合格工程师

    作为机械工程师,你见识的巧妙结构、机构越多,设计思路也就越开阔。齿轮、梁板、凸轮、滑轨……看似简单的零部件,被天才工程师巧妙地组合到一起,就能精确完成各类复杂的...

    机器人网
  • 谁是世界上最美的人?看神经网络为每人按颜值魅力打分

    「魔镜魔镜告诉我,谁是世界上最美的女人?」这句伴随童年的话也有现实版哦~神经网络可以预测人脸颜值,这方面也出现了不少研究。今年年初华南理工大学的研究者发布论文,...

    机器人网
  • 【干货】郭朝晖:工业大数据的特征、方法与价值创造

    本文长度为11700字,建议阅读25分钟 本讲座选自宝钢中央研究院首席研究员郭朝晖于2015年12月30日在清华大数据“技术·前沿”讲座上所做的题为《工业大数据...

    数据派THU
  • 从3D人脸到自动驾驶,CVPR2020十个顶级开源数据集

    CVPR2020上开源的十个最有用的数据集,用数据来构建更好的人工智能,数据搬运工从来不应该缺席!下面就是十个数据集的分别解释:

    3D视觉工坊
  • 大数据是把万能钥匙,就看你想打开什么样的“宝盒”

    中国大数据应用大会的举办地并不是“常规选项”北上深,而是位于中国国家战略“一带一路”节点之上的四川成都。在过着“安逸巴适”的生活的同时,四川已经拥有了各类产业园...

    BestSDK
  • 从3D人脸到自动驾驶,CVPR2020十个顶级开源数据集

    CVPR2020上开源的十个最有用的数据集,用数据来构建更好的人工智能,数据搬运工从来不应该缺席!下面就是十个数据集的分别解释:

    OpenCV学堂
  • 【R应用】R 语言企业级数据挖掘应用

    有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 三月底参加了中国人民大学统计学院海峡两岸数据挖掘研讨会,和大家简单聊了聊R语...

    小莹莹
  • 开发 | 数据预处理和挖掘究竟该怎么做?硅谷网红告诉你

    Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

    AI科技评论
  • 大数据的定义与概念

    来源 | https://www.leiue.com/big-data-definitions-and-concepts

    我脱下短袖

扫码关注云+社区

领取腾讯云代金券