如何用机器学习满足产品需求

关于机器学习有太多的文章介绍了,如果还对机器学习一知半解的可以参考一下其他文章,我的其他文章中也有简单介绍了机器学习。本文主要介绍机器学习的应用以及我们如何使用机器学习满足产品需求,尽量不说废话。

作为AI产品经理,不仅需要知道技术的边界,还要对应用场景的有足够的理解。谈到谈到机器学习,有些人还不清楚机器学习和深度学习、人工智能之间的关系,甚至以为是一回事。其实不是这样的。下面这个图可以帮助大家梳理这三者之间的关系。

人工智能是个很泛的概念,有很多不同的方向,50年代-70年代,人们认为赋予机器推理能力就能够使得机器具有智能,具有代表性的工作是图灵奖得主A.Newell和H.SImon的“逻辑理论家”程序。随着研究的逐渐深入,人们意识到仅有逻辑推理还是远远达不到智能的,必须要有先验知识。这阶段人们试图将人类的知识抽象成规则输出到机器,也就是所谓的专家系统。显然,知识是浩瀚的海洋,很快人们就遇到了瓶颈,几乎不可能准确的去概括所有知识。例如语音识别,一开始人们把字词的发音做成模板,通过模板匹配的方式做识别,可想而知由于不同的人的发音习惯,加上不同的口音,语速等等,使得识别率一直都很差。关于语音的特征,是很难人工去刻画的。于是就有学者提出了让机器自己学习的思路,并进行了相关的研究,这就是机器学习。而深度学习是机器学习的一个方向,得益于计算能力的提升和互联网发展带来的大量数据累积,往往只要调节好参数,就能得到不错的性能。深度学习并没有严格的理论基础,可以说是“大力出奇迹”的一种方法,降低了了机器学习应用的门槛。

一、什么时候可以使用机器学习?

首先我们要明白什么为智能?广义上来说,只要是能够根据先验知识,通过决策对外部刺激做出合理反馈的行为都可以称为智能。互联网产品在这几年的发展大多数是基于流程化,是一种对于信息的重新组织和优化。一般来说只要有一个输入,我们就能够得到一个预期的输出。直观上就是“不智能”。仔细想一下是不是和人工智能最开始的“逻辑推理”阶段有点像?互联网刚开始兴起的时候,流程优化、打破信息不对称,提升了社会效率,积累了大量的数据。同样的,现在信息的高度流通,也达到了一个“瓶颈”,那么如何进一步提升效率呢?机器学习给出了一个答案,现在的大数据就相当于“先验经验”,通过机器学习,让信息触达能够做到“千人千面”,降低了无效信息的损耗,让资源得到更加合理的配置。所以使用机器学习的第一个目标,就是要帮助产品突破“瓶颈”,提高效率。

现在回答什么时候使用机器学习?或者说是具备了什么样的条件的业务适合使用机器学习?

1.业务目标清晰(抽象为分类/回归问题)

在使用机器学习之前,要明确业务目标。单独的机器学习在目前是很难直接支撑其一个场景产品的(区别于工具产品),所以机器学习的业务目标一般散落在产品业务的各个角落。例如向用户推送营销信息,如果全量推送,既无法保证转化率,又会骚扰用户,这是一种“低效率”的方式,可以使用机器学习找出可能会对营销信息感兴趣的用户推送。其实大多数适用机器学习的业务场景都能够过抽象为分类(离散化)/回归(连续化)的问题。

常见的分类问题:识别问题(人脸识别、指纹识别、花草识别)

常见的回归问题:预测问题(点击率预测、转化率预测)

2.机器学习的成果能够作用于业务

在某项业务中使用机器学习,机器学习的成果要能够反过来作用于业务(提升转化率、提高用户体验等等)。举个例子,假设你拿到大量的个人数据,可以准确预测出某个人的购物喜好,但是这份数据并没有这些人的联系方式,则预测的结果实际上是没办法作用到业务的。再举个例子,如自动摘要,如果自动摘要出来的结果准确率不高,则这些结果是没有什么价值的,同样不能满足“能够作用于业务”。

3.具备“特征”

具备特征是很重要的一点。如垃圾邮件识别,可能具备的特征有:无规则的邮箱地址、含有生僻字、发信时间等等。那么很显然可以使用机器学习解决。反例,通过长相预测年收入,仔细想想年收入高的人在长相上具备什么“特征”吗?这个是个谜。或许还真有,但是不好说,但是如果使用机器学习去做这样的预测,除非是做学术研究,否则在生产环境中是不太适合的。

4.具备“样本”

无论是统计机器学习还是深度学习,都是需要样本的。而样本获取可以是基于业务经验收集,如第3点的垃圾邮件识别,根据经验我们就可以收集邮箱地址、发信时间等等维度的特征。如果没有业务经验,也可以进行全量的收集,特征不是越多越好,特征太多就会造成过拟合。如果新加入的特征让准确率提升不大但是让模型的复杂度提升很大,我们就认为这个特征是不必要的。

二、如何撰写机器学习产品需求文档?

除了常规的界面需求、流程需求之外,涉及到机器学习的产品需求还应包括:

1.业务场景描述

作用是让算法人员理解业务场景,更好的理解输入与输出的需求,可以包含对业务经验的描述。

以垃圾邮件识别为例:在用户接收的邮件后,推送提醒之前,对邮件进行判定,如果为垃圾邮件,则不推送提醒,将邮件转移到放入”垃圾邮件“文件夹。

2.目标(输出)定义

什么样的邮件才是垃圾邮件?含有广告信息?含有欺诈信息?不同的人都有不同的定义。但是总是能够找得到一个共识。定义和特征类似,不是越完整越好,越完整的定义,泛化能力就越差。例如你把广告信息定义为垃圾邮件,但是有用户爱好奇特,喜欢看广告,对于他们来说就不是垃圾邮件。

明确的定义主要是用来指导标注,关于标注那些事儿在我的上篇文章已经详细介绍,有兴趣可以翻阅。

关于垃圾邮件,可以列出几条定义如:无内容、内容杂乱、明显的黄暴信息等等。

如果是回归问题,如预测销售量,定义销售量=受众群体数×转化率。受众群体数一般可知,则预测转化率即算出销售量。

3.指标要求

关于机器学习的四个指标,简单提一下,许多文章都有介绍了。查准率(Precision)、查全率(Recall)、精确度(Accuracy)、F值。这是封闭测试集中的指标,如果是生物识别问题,还涉及错误接受率、错误拒绝率、等错率等指标。产品需要根据业务需要,或者是充分的数据分析来确定指标要求。

4.样本提供

样本越全,对于机器学习的性能的提升的帮助越大。样本需要客观、准确。有全量样本是最好的,如果没有,要使用抽样样本,要保证抽样样本的分布构成和实际保持一致。

本文来自企鹅号 - 花样亭媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | NLP解决方案是如何被深度学习改写的?

AI 科技评论按:英特尔人工智能产品事业部,数据科学主任 Yinyin Liu 近日撰写了一篇文章,介绍了深度学习为自然语言处理带来的种种变化。有趣的大趋势是首...

873
来自专栏专知

深度学习并非万能:你需要避免这三个坑

本文是人工智能专家George Seif撰写的博文,介绍了在当前深度学习比较火热的情景下需要避免的三个坑。

951
来自专栏AI研习社

NLP 解决方案是如何被深度学习改写的?

AI 研习社:英特尔人工智能产品事业部,数据科学主任 Yinyin Liu 近日撰写了一篇文章,介绍了深度学习为自然语言处理带来的种种变化。有趣的大趋势是首先产...

1112
来自专栏AI科技评论

专访百度硅谷AI实验室Greg Diamos:基于GPU的深度学习的可扩展性

编者按:百度首席科学官吴恩达在ISC大会上谈到了超级计算能力如何在人工智能领域里应用,他的同事,百度硅谷人工智能实验室高级研究员Greg Diamos在参加纽约...

3336
来自专栏AI科技大本营的专栏

2017深度学习展望

---- 作者: James Kobielus 编译: AI100 原文地址: http://www.kdnuggets.com/2016/12/ibm-...

2425
来自专栏人工智能头条

专家展望未来5年深度学习发展趋势

1764
来自专栏计算机视觉战队

Deep Learning的展望

随着2017年的到来,深度学习技术也迎来了新的一年。深度学习是一门基于多层神经网络的技术,此项技术是许多颠覆性技术(如人工智能、认知计算、实时数据流分析等)的基...

3559
来自专栏PaddlePaddle

【EasyDL应用】图像识别解决海量家居图分类难题

EasyDL作为一款图像和声音的定制训练和服务平台,只要根据页面文字提示进行简单的拖拽操作,最快10分钟即可训练出定制化的深度学习模型。

1483
来自专栏AI科技评论

学界 | 深度学习与强化学习相结合,谷歌训练机械臂的长期推理能力

AI 科技评论按:机器人如何能够学到在多样且复杂的真实世界物体和环境中能够广泛使用的技能呢?如果机器人是设计用来在可控环境下进行高效的重复工作,那么这个任务就相...

741
来自专栏有趣的Python

5-机器学习启蒙- 商品推荐系统1

5- 商品推荐系统 github: https://github.com/mtianyan/graphLabStartedML 推荐商品 有大量的商品和用户,想...

4148

扫码关注云+社区