从零开始:AI产品经理-机器学习(1)

写在前面:

人工智能时代的软件和互联网时代的软件发生了翻天覆地的变化,人工智能时代的产品比你更懂你,可这些人工智能产品如何设计出来的?人工智能产品和软件产品的差别在哪儿?壹赫为了了解这方面的知识,可以去了西单图书大厦翻遍了所有的书也没有太理想的。索性,自己搞。

未来的半年中,壹赫将2年来AI产品经理的学习经历、AI技术应用经历给大家做一个分享,以产品经理的角度分享对人工智能的理解:什么是AI、什么是AI产品、AI知识体系构成、如何构建AI产品、AI产品实例五个层面为大家详细解读,希望能对互联网产品经理向AI产品经理转型提供帮助。由于AI涉及的技术内容较多,壹赫预估全文会有X万字,未来将通过系列文章向大家描述,本文主要介绍AI知识体系构成中的,AI是如何完成学习的,即机器学习的概述。

全文原创,So,可以转发,严禁转载,转载时请通知作者。谢谢。

首先了解一下AI产品和传统软件产品的差异:

图:传统软件的逻辑结构

对于传统软件,产品经理或需求分析师针对业务进行分析,根据已有的业务逻辑设计出软件功能,开发工程师根据该业务逻辑进行实现,从输入到输出过程的运算是固定的。

AI产品对比互联网产品或传统软件产品,其优势在于AI产品是自动化了程序结构的构建。AI产品通过机器学习算法反复从数据中进行学习,不需要告诉计算机业务逻辑,就可以找到隐含在其中的规律和意义。

图:AI产品的逻辑结构

人工智能系统则是将训练数据(输入数据+结果数据)放入人工智能算法中,得出一个模型,这个模型替代了由产品经理在软件时代设计的软件。

从上图可以明显看出,机器学习与传统软件方式的差异是非常大的,机器学习颠覆了原有的程序思路。传统的程序思路是人对数据已经有了分析,寻找到规律,通过数据数据+规律验证,得到最终结果;而机器学习无需人对数据本身的分析和判断,而是将分析和判断的工作全部交给了机器,输入训练数据后,机器根据算法找到隐含在数据中的规律,并可以将这些规律进行实际的应用。

-------

机器学习越来越火,可机器学习到底是什么,却没有几个人能够描述清楚。很多专家把机器学习归纳为一门多领域交叉学科,因为机器学习涉及到概率论、统计学、算法理论等多门学科。热门一点的机器学习的定义有下面几种:

“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。

“机器学习是对能通过经验自动改进的计算机算法的研究”。

“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

壹赫认为,理解机器学习没有必要从复杂拗口的方式入手,而是从一个简单易懂的概念去理解,也许会更事半功倍。壹赫一直认为“机器学习是一种数据分析的方法”。

当今的时代,不提大数据都不好意思出门跟人打招呼,有些企业总是给自己冠名为大数据企业,但是随着数据积累的量越来越多,而如何利用数据变现成为了企业最头疼的问题,所以有些企业干脆直接卖起来原始数据。但在笔者看来,未经处理的原始数据其实是没有太大使用价值的,有价值的数据是通过正确的分析技术,获得更丰富的数据认知、更明确的场景洞察和更精准的数据画像,进而帮助决策。而机器学习作用就是针对庞大的数据进行分析,挖掘其意义和价值的。

理论上数据分析有如下四类:

1、现状描述:根据现有数据,描述现状。

2、异常诊断:根据现有数据发现其中的异常,更进一步还可以了解为什么会出现这些异常。

3、未来预测:以时间为轴查看数据趋势,利用历史变化,预测未来发生的概率。

4、 行为规范:考虑如何改变现状或未来的数据来满足对未来的预期。

如果对机器学习有些了解的话,立刻就会有反应,机器学习涉及到的相关算法不正是为了解决这些问题的嘛?

前文曾提到人工智能系统是将训练数据(输入数据+结果数据)放入人工智能算法中,得出一个模型,这个模型替代了由产品经理在软件时代设计的软件。从上图可以明显看出,机器学习与传统软件方式的差异是非常大的,机器学习颠覆了原有的程序思路。传统的程序思路是人对数据已经有了分析,寻找到规律,通过数据数据+规律验证,得到最终结果;而机器学习无需人对数据本身的分析和判断,而是将分析和判断的工作全部交给了机器,输入训练数据后,机器根据算法找到隐含在数据中的规律,并可以将这些规律进行实际的应用。

根据训练的方式,机器学习共有四大学习模式,分别是有监督学习、无监督学习、半监督学习和强化学习。这四种学习方式的根本区别在于对于数据的训练模式。

1、监督学习:有训练样本用于训练→得模型→利用这个模型,对未知数据分类。

2、无监督学习:事先没有任何训练数据样本,而直接对数据进行建模

3、半监督学习:半监督学习训练中使用的数据,只有一小部分是标记过的,而大部分是没有标记的。

4、强化学习:强化学习也是使用未标记的数据,但是可以通过某种方法知道你是离正确答案越来越近还是越来越远。

监督学习非常好理解,是按照人类制定的规范,通过机器学习不断训练以便于在这个规范下达到最优解,而为什么会出现非监督学习呢?未经训练而进行自动化的建模会不会走了歪路?举个简单的例子,就像笔者对于音乐一窍不通,但是我恶补了一些乐曲后,无需专业的学习,自然就能分清楚古典、现代、爵士各个派别,虽然我仍然听不出来作曲家到底要表达什么内容。同样的,我们把不同时代,不同类型的音乐都交给机器,机器可以从中找到音乐的特点并完成分类,而无需我们提前告诉机器哪个音乐是什么类型。

机器学习的算法很多,但归纳来讲可以分为分类、回归、聚类、降维等几种。常见的有监督学习算法,如支持向量机、K-近邻算法、决策树、朴素贝叶斯、逻辑回归、线性回归、神经网络等。而像聚类、EM算法等都属于无监督学习。

什么是分类、回归、聚类、降维?

1、分类(classification):给定一个样本特征,我们要预测其对应的标记值,如果属性值是离散的,那么这就是一个分类问题。

2、回归(classification):给定一个样本特征,我们要预测其对应的标记值,如果属性值是连续的,那么这就是一个回归问题。

3、聚类(clustering):给定一组样本特征,我们没有对应的标记值,而是想发掘这组样本在空间的分布,比如分析哪些样本离得近,哪些样本离得远,那么这就是一个聚类问题。

4、 降维(dimensionality reduction):给定一组样本特征,如果需要用维数低的子空间来表示原来高维的特征空间,那么这就是降维问题。

作为产品经理,壹赫建议要对机器学习的学习模式有深入了解,并且了解各类学习模式主要用来做什么就可以了,也只有对这些内容有了解,才可以和工程师们进行沟通,否则真成了鸡同鸭讲。

下期,壹赫将针对有监督学习、无监督学习、半监督学习、强化学习进行详细描述,这四种学习是什么?有什么特征,常用算法等。

原创声明:本文为壹赫原创,严谨个人私自转载或引用。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180620G1MSQO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券