前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何把业务问题变成机器学习的问题?

如何把业务问题变成机器学习的问题?

作者头像
企鹅号小编
发布2018-01-15 16:13:54
7080
发布2018-01-15 16:13:54
举报

机器学习的投入

这就是我们MVP的第二步:在可控的人力、金钱投入下,构建一个有效的机器学习模型。

那什么是可控呢?1-3人月的投入,更多就会风险太高。我们会期望获得什么提升?Case by case,不同的业务不一样,有些业务比如说广告,1%的收入就是好几百万,而有些问题可能要提升好几倍才有商业价值。

在机器学习成本分配中,最大比例在机器学习本身,调参、特征工程、模型评估、模型上线这些工程的事情占了大量的时间,而问题的定义、数据的采集占的时间非常小,我们认为这是有问题的。我们认为一个机器学习的项目,无论通过合作还是使用第三方平台的方式,应该把大钱花在采集好的数据,定义好的问题上去,甚至这要超过一半的时间。而另一半的时间,才是真正做机器学习模型的时间。

降低数据的成本

那我们怎么降低数据的成本呢?我给大家一些思考。

第一,除非必要,只使用采集好的数据。因为数据采集是一个有成本的事情,当一个公司的体系越复杂,它采集数据的成本就越高,所以除非这个数据采集起来很轻松,或者已经有了,你才会去考虑。

第二,如果你要开发新的数据,首先要考虑的是成本。开发新的数据源是有风险的。机器学习最怕的是说不清楚这是算法的问题,还是数据问题,还是问题定义的问题,所以让 MVP 环节中能出问题的环节越少越好。

前面我们介绍了问题定义的问题如何避免,而算法一般是不太容易出问题的,除非用错,而数据其实是很容易出问题的,所以我们尽量用简单、可靠、成熟的数据。

第三,我们讲到在建模的过程中,尽量使用成熟的工具。真正在数据处理,特征计算,和算法训练的这些过程中,大量的工作是可标准化,甚至可以用算法自动优化的,大量的坑其实也是可总结,或者说可以在产品引导中避免的。我们一直在研发的第四范式先知建模平台,就是在努力将建模过程中的know-how封装到产品中,让用户操作更简单,而且少踩坑,更有效的获得好模型。

总结一下,这一步总的思想是,能不制造新的风险点,就不制造风险点,能降低不确定性就降低不确定性。

如何Review机器学习的模型?

好了,做好了前面介绍的两步,我们已经有了机器学习的MVP,机器学习对业务的影响已经初见结论,如果业务有明显提升,那么祝贺你,找到了新的价值增长点,优化后一定还会有更大的提升潜力;而如果效果不明显,我们这里再给大家一些关于如何review,如何检查MVP的建议:

首先要 Review 问题的方向是不是对的,模型的效果是否符合预期,模型的优化目标是否有明显的变化,比如优化的目标是西瓜好不好,优化之后是不是买到的西瓜好的变多了。

如果不是,那就是这个问题没有解决。那还会有什么原因?是不是指定了错误的目标,用在了错误的环境,或者数据有问题。其实说白了,要么是目标有错,要么是模型用错,要么是数据有问题,基于这 3 点来检查。

在现实业务中,解决了一个问题,有时也会带来新的问题。比如说新闻推荐的系统,现在点击的人多了,那么是不是由于推荐,新闻变得更加娱乐化了,是不是新闻的点击变得更集中化了,这可能并不是业务上非常希望的,需要继续想办法来优化。第二步是 Review 数据,这些数据里面哪些起了关键作用,哪些数据是经验上认为会有作用的,但实际上没有的。那么重新检查这些数据,看是不是数据质量的问题,使得没有发挥应该发挥的作用。还可以看下一步我们可以引入哪些新的数据,数据最好一批一批引入,我加入一批,一次性开发结束。

第三步,当我 Review 上面的事情后,我要制定下一步的方案,往往是我会有新的、更多的数据。我也可能会调整目标,有可能是目标错了要改,也可能是增加目标,原来一个目标不够了,我要加入好几个新的指标,使模型变得更平衡。还有就是在工程上,看性能能不能优化等。

本文来自企鹅号 - 产品运营共享小咖媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 产品运营共享小咖媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档