如何把业务问题变成机器学习的问题?

机器学习的投入

这就是我们MVP的第二步:在可控的人力、金钱投入下,构建一个有效的机器学习模型。

那什么是可控呢?1-3人月的投入,更多就会风险太高。我们会期望获得什么提升?Case by case,不同的业务不一样,有些业务比如说广告,1%的收入就是好几百万,而有些问题可能要提升好几倍才有商业价值。

在机器学习成本分配中,最大比例在机器学习本身,调参、特征工程、模型评估、模型上线这些工程的事情占了大量的时间,而问题的定义、数据的采集占的时间非常小,我们认为这是有问题的。我们认为一个机器学习的项目,无论通过合作还是使用第三方平台的方式,应该把大钱花在采集好的数据,定义好的问题上去,甚至这要超过一半的时间。而另一半的时间,才是真正做机器学习模型的时间。

降低数据的成本

那我们怎么降低数据的成本呢?我给大家一些思考。

第一,除非必要,只使用采集好的数据。因为数据采集是一个有成本的事情,当一个公司的体系越复杂,它采集数据的成本就越高,所以除非这个数据采集起来很轻松,或者已经有了,你才会去考虑。

第二,如果你要开发新的数据,首先要考虑的是成本。开发新的数据源是有风险的。机器学习最怕的是说不清楚这是算法的问题,还是数据问题,还是问题定义的问题,所以让 MVP 环节中能出问题的环节越少越好。

前面我们介绍了问题定义的问题如何避免,而算法一般是不太容易出问题的,除非用错,而数据其实是很容易出问题的,所以我们尽量用简单、可靠、成熟的数据。

第三,我们讲到在建模的过程中,尽量使用成熟的工具。真正在数据处理,特征计算,和算法训练的这些过程中,大量的工作是可标准化,甚至可以用算法自动优化的,大量的坑其实也是可总结,或者说可以在产品引导中避免的。我们一直在研发的第四范式先知建模平台,就是在努力将建模过程中的know-how封装到产品中,让用户操作更简单,而且少踩坑,更有效的获得好模型。

总结一下,这一步总的思想是,能不制造新的风险点,就不制造风险点,能降低不确定性就降低不确定性。

如何Review机器学习的模型?

好了,做好了前面介绍的两步,我们已经有了机器学习的MVP,机器学习对业务的影响已经初见结论,如果业务有明显提升,那么祝贺你,找到了新的价值增长点,优化后一定还会有更大的提升潜力;而如果效果不明显,我们这里再给大家一些关于如何review,如何检查MVP的建议:

首先要 Review 问题的方向是不是对的,模型的效果是否符合预期,模型的优化目标是否有明显的变化,比如优化的目标是西瓜好不好,优化之后是不是买到的西瓜好的变多了。

如果不是,那就是这个问题没有解决。那还会有什么原因?是不是指定了错误的目标,用在了错误的环境,或者数据有问题。其实说白了,要么是目标有错,要么是模型用错,要么是数据有问题,基于这 3 点来检查。

在现实业务中,解决了一个问题,有时也会带来新的问题。比如说新闻推荐的系统,现在点击的人多了,那么是不是由于推荐,新闻变得更加娱乐化了,是不是新闻的点击变得更集中化了,这可能并不是业务上非常希望的,需要继续想办法来优化。第二步是 Review 数据,这些数据里面哪些起了关键作用,哪些数据是经验上认为会有作用的,但实际上没有的。那么重新检查这些数据,看是不是数据质量的问题,使得没有发挥应该发挥的作用。还可以看下一步我们可以引入哪些新的数据,数据最好一批一批引入,我加入一批,一次性开发结束。

第三步,当我 Review 上面的事情后,我要制定下一步的方案,往往是我会有新的、更多的数据。我也可能会调整目标,有可能是目标错了要改,也可能是增加目标,原来一个目标不够了,我要加入好几个新的指标,使模型变得更平衡。还有就是在工程上,看性能能不能优化等。

本文来自企鹅号 - 产品运营共享小咖媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Miguel三先生

今天,大家都在搜“爸爸”

17250
来自专栏深度学习之tensorflow实战篇

推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别

概念 个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 为什么要个性化推荐? - 商品个数和种类快速增长,顾客需要花费大...

41550
来自专栏技术翻译

学习R编程的前5门课程

越来越多的程序员正在学习R编程语言以成为一名数据科学家,这是全球最热门,最高薪的技术工作之一。

16030
来自专栏AI科技大本营的专栏

终于能用Google的TPU跑代码了,每小时6.5美元

AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs ...

499100
来自专栏ATYUN订阅号

谷歌推出开源强化学习框架Dopamine

强化学习研究在过去几年取得了许多重大进展。这些进步使得智能体以超越人类的级别玩游戏,值得注意的例子包括DeepMind的DQN玩Atari游戏,AlphaGo,...

22330
来自专栏CSDN技术头条

深度解析京东个性化推荐系统演进史

在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。 京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐...

55790
来自专栏新智元

Twitter 开源增强学习框架Torch-twrl ,可与OpenAI 无缝对接

【新智元导读】大公司关于增强学习的开源项目目前还不多,Twitter 这次走在了前面。增强学习除了玩游戏以外,在解决现实问题上也可以得到应用,比如,高自由度的机...

33160
来自专栏Spark学习技巧

深度解析京东个性化推荐系统演进史

作者 | fisherman、Davidxiaozhi ? 本文摘自《决战618:探秘京东技术取胜之道》,两位作者时任京东推荐系统负责人和系统架构师。 在电商领...

341100
来自专栏企鹅号快讯

这10个开源人工智能项目,你必须了解!

来自:开源中国 链接:https://my.oschina.net/editorial-story/blog/1592254 推荐 10 个饱受好评且功能独特的...

30490
来自专栏新智元

【重磅】Facebook首次公开内部机器学习平台,启动AI帝国

【新智元导读】Tensorflow凭“谷歌”“开源”两个标签自2015年底发布以来便名震深度学习圈。而前年底Facebook就打造其专属ML平台FBLearne...

68280

扫码关注云+社区

领取腾讯云代金券