如何为初创公司的产品使用机器学习

有一个误解是,要利用机器学习,你需要成为数学天才。实际上,大多数机器学习应用程序都使用了良好的,经过充分测试的现成算法。

对于许多开发人员,尤其是初创公司的开发人员来说,真正的挑战在于培训数据。克服这一挑战需要巧妙的产品开发并关注用户体验。

你真的需要机器学习吗?

机器学习可以让好的产品变得更好:更具吸引力,响应更快,更有效。但是,在解决机器学习之前,我们要确定自己算法是否适合产品。

在进入机器学习之前,开始用人类测试学习方面。这会让你更好地理解结果是否真的有用。测试机器学习也会给你一个关于什么时候应该参与人的想法,以及什么时候机器学习应该接管。

通常情况下,产品的平衡点位于人工和机器学习之间的自动化之间。当算法超出其深度或者计算机帮助人类进行缩放时,人类可以帮助计算机。例如,克拉拉实验室通过了解哪些任务对算法有好处以及何时需要真人进行区分,从而使其调度助手具有差异性。这种混合方法帮助克拉拉实验室将自己与仅限AI的虚拟助手区分开来,这些虚拟助手在AI上不去。

一旦您确定您的产品将受益于机器学习并知道机器学习的正确性,那么标签数据就会面临挑战。

标记数据

如果没有高质量的标签化培训数据,机器学习的准确性会受到限制。标签确保模型可以准确预测,分类或分析数据。

手动标记数据是一个不讨好的,相对较低级别的工作。最好的机器学习产品找到了将标签集成到应用程序整体体验中的方法。

标签的交易价值

对于训练算法所需的标签数量来说,手动标签通常太耗时。相反,精心设计,周到的应用程序通常会利用用户来完成大部分标签。目标是完成人类擅长的任务,将知识传递给应用程序并让应用程序接管。

例如,reCAPTCHA是来自Google的免费服务,有助于保护网站免受垃圾邮件和滥用。用户必须识别图像以证明他们不是机器人。与此同时,reCAPTCHA正在训练算法来识别真实世界的物体。图像本身就是训练数据,当用户识别对象时,数据就会得到所需的标签。

这里有一个警示故事。贴标签不能成为目的。如果您用来训练数据的任务没有价值,或者用户长时间不会看到该值,那么用户将不会参与其中。即使reCAPTCHA对安全性和质量有明显的好处,也会带给互联网用户累赘 - Google一直在努力解决这个问题。

如果用户要标注数据,则标签必须清晰且直接有价值。一般来说,有两种类型的价值。首先是让行动本身有价值。例如,我们愿意为Facebook照片添加标签,因为它可以让我们的朋友和家人知道他们在图片中。借助这些标签,Facebook开始识别人脸,从而更容易在将来查找图片中的人物。虽然Facebook的算法可能需要一段时间才能识别出你最好的朋友的脸,但标签行为本身就具有价值。

第二个价值来自标签立即产生影响。Netflix公司要求用户排列电影的承诺,它将有助于改善电影的建议。为了明确价值,Netflix立即根据您刚刚给出的评级提出新的建议。

另一个策略是为游戏添加标签。Foursquare成功地让用户通过激励位置检入来提供位置数据。专业用户在竞争“徽章”和“市长”时提供了有关地点的有价值标签。

由于被动定位追踪,Foursquare不再需要使用签入功能,竞争签到方面依然存在于Foursquare Swarm中,并且在所有这些签到时提供给FourSquare的信息为位置增加了更多背景信息。

尽管将标签过程与明确的价值挂钩是争取用户培训数据的有效方式,但也有一些策略不需要用户积极参与。

从行为中派生

围绕用户主动标注数据的一种方式是观察他们的行为。从行为中获取标签的好处是用户不需要主动参与标签处理。这消除了很多可能会损害用户体验的缺陷。

例如,亚马逊观察你的购买行为来推荐产品和交易。我们监控数据使用情况,例如哪些报告最常用,哪些SQL查询正在编写,以帮助分析师为手头的任务找到正确的数据集。

没有老师的学习

在不久的将来,用户可能不像培训数据那么重要。模拟提供了一个包含环境和标记数据的完美方式。Chess,Go和Pong都是可以很容易模拟的游戏,可以运行数千甚至数十万个场景。谷歌的Alpha Zero能够自学国际象棋,击败领先的国际象棋程序。

虽然棋盘游戏是封闭的环境,但模拟也有助于培训打算在真实世界中运行的设备。自主车辆开发商Waymo正在使用模拟来训练自驾车。该公司正在使用基于真实世界的虚拟环境来训练车辆以实现真实驾驶。虽然非常新颖,但仿真提供了无需人工干预即可创建标签的潜力。

用户体验至关重要

机器学习可以帮助制作更具吸引力的响应式产品。如果价值不在那里,并且经验不具吸引力,用户不会提供他们的数据或耐心地训练算法。无论用户是直接标记数据,间接标记数据还是根本不涉及 - 用户体验都是至关重要的。

对于创业公司来说,这需要另一层设计思维。产品本身不仅需要很好,而且如果用户为机器学习做出贡献,那么数据收集和培训过程必须同样引人注目。但是,这正是推动创造力的障碍。

  • 发表于:
  • 原文链接https://thenextweb.com/contributors/2018/03/25/use-machine-learning-startups-product

扫码关注云+社区

领取腾讯云代金券