为什么基于机器学习的产品很难见到?

作者:赵国栋,现任中关村大数据产业联盟秘书长,CCF大数据专委委员,北邮特聘导师,著有《大数据时代的历史机遇》一书。

大数据甚嚣尘上了三四年,如今创业不讲机器学习和数据挖掘都不好意思跟投资人介绍。但现实情况是,你在市面上见过多少套已经产品化的基于机器学习的软件?凤毛麟角。恐怕很多满嘴术语的从业者都不明白,作不到预测的机器学习都是在忽悠。而能实现预测的产品,说难不难,可是门槛不低,能做出来的创业团队不多见。

那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

你觉得深度学习很牛啊,连图片和声音识别都搞得很好了,搞些文本识别有啥意思。可很少有人坦白告诉你,到目前为止,深度学习尚未在自然语言处理中有突破进展,NLP比图像和语言识别实际上更难。图像和语音识别出来是啥?还是文本。现在企业里至少95%以上的重要数据还是文本,做产品的能不去覆盖?

现在做数据挖掘和机器学习的人员供不应求,BAT3四处高薪挖角,用过几个开源库的就号称是熟手,价码高得离谱。一提机器学习不就是聚类分类嘛。“聚类我懂啊,k-means天天用。”还不说让你改进算法,你真尝试过用它做个产品出来吗?拿个开源的模块攒出一个Demo,到客户那里实测。一个相同的测试数据集,产品跑三遍,聚类结果没有相同的。用户当时就蒙了,相同的数据还能有不同结果?你振振有词地解释:“k-means算法就这样啊,运算前要猜分类的个数,干脆就给个随机数,另外,也得给几个随机初始中心点,这样下来,每次跑聚类结果不一样太正常不过了。这是你不懂。我在哪哪哪就是这么用的!”用户合情合理的对产品常见的基本要求一下就被你归到无理那类去了。

互联网公司自己使用的机器学习引擎,都尚未产品化,甚至连产品化预期都没有。隔段时间修修补补,换一个训练和测试集,改两个算法细节,调三个参数,这些在产品研发里十分忌讳的行为司空见惯。反正系统也不会拿出去用,一般用户都只能接触到一点点运算结果,学术界也还在摸着石头过河,是不是有稳定结果也无所谓,财大气粗的deep learning随随便便搞上千个计算节点,只要召回率有改善就是极大的胜利。在这样氛围里工作的工程师出来自己创业能做出产品来吗?

那个知乎上得票第一的回复说,看完公开课的水平已经足够应付湾区的工作了。是,完全同意,如果你只想当一辈子底层码农,只想当大公司大项目里一颗可有可无的螺丝钉,不想有机会主持一个产品的设计和实现。要知道,那些大公司里也有很多研究统计和AI科班出身的。

想做机器学习的产品,不会调算法那是不可能的,基础的数学不过关根本理解不了算法还谈什么调整。很少有人能告诉你在某个特定场景下针对特定数据集用哪个算法更合适,这是个全新的领域,需要你自己去理解业务特征并选择试验不同算法以获得最优结果。如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。

是,更多的数据胜过更好的算法。你要做网络行为异常分析用以侦测攻击,觉得采集了大数据就已经胜利在望。可是很不幸的,你手里的大数据基本全是正常行为,异常只是很少数。然后,你意识到正统的分类算法对类别平均分布的训练数据学习效果好,对这种不平衡的训练集很容易出现偏差(能意识到这点已经不容易了,常见的都是直接调开源库硬上)。这时候不懂理论怎么搞?还有,海量数据的特征维度太多,你到底应该选哪些特征用以计算?接下来让你构建一个分类器实时预测网络攻击,只能拿到一个时间窗口里的数据,这跟大数据有啥关联?到这里,你就会发现扎实的基本功是做机器学习产品的必要基础。

Gartner说数据分类是以数据为中心的安全的基础,最近拿了那么多融资的Digital Guardian也把数据分类一直挂在口头,可它做出来了基于机器学习的分类器吗?用户手里拿着上亿条数据使用的日志,完全不知道哪些才是关键数据,必须借助分类器才可以发现风险。根据实际的大客户案例,基于自然语言处理和机器学习的产品,才能真正有效实现数据分类。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

详解:无人机中超声波原理

近年来,消费类无人机越来越受欢迎,多用于拍摄震撼的片段、运送救援物资,多数无人机使用各种传感技术实现自主导航、碰撞检测。而你又是否知道,超声波传感尤其有助于无人...

812
来自专栏华章科技

机器学习进阶路上的五个境界

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上...

833
来自专栏CreateAMind

以学习常识为目标的自动驾驶-commaai第三篇

791
来自专栏AI科技大本营的专栏

AI是万能的吗?当前AI仍面临的难题是什么?

【导读】谈到人工智能(特别是计算机视觉领域),大家关注的都是这一领域不断取得的进步,然而人工智能到底发展到什么程度了?AI 已经成为万能的了吗?Heuritec...

842
来自专栏机器之心

学界 | Science介绍新型好奇心算法:基于强化学习摸索世界

选自Science 作者:Matthew Hutson 机器之心编译 参与:吴攀、李亚洲 好奇心一直被一些科学家认为是智能的基本属性之一,为机器赋予好奇心自然...

3307
来自专栏量子位

新年快乐!这是份值得收藏的2017年AI与深度学习要点大全

若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去。 过去的一年里,有很多值得梳理记录的内容。博客WILDML...

2395
来自专栏BestSDK

谷歌发布神经机器翻译

早前,谷歌就曾表示过,他们在谷歌翻译中运用了神经网络技术,但只限于实时视觉翻译这个功能。前段时间,谷歌一名叫Jeff Dean的高级员工曾经告诉VentureB...

2817
来自专栏企鹅号快讯

无人驾驶-一些有趣的项目(2)

今天我们简要介绍无人驾驶中广泛使用的摄像头,激光雷达等传感器。 摄像头: 摄像头对大家来说并不陌生,基本就是获取视频或者图像的设备。不同的设备价格不一样,你觉得...

1786
来自专栏新智元

【Nature 封面论文】机器学习掀起材料革命,人工智能或将颠覆人类科研方式

【新智元导读】昨日Nature封面论文:哈佛大学研究者借助机器学习算法,利用“废弃”数据成功预测新材料的合成,引发学界激论:人工智能真能加速发现神奇新材料吗?该...

3606
来自专栏吉浦迅科技

(图解)人工智能的黄金年代:机器学习

Lady我在整理一些关于Deep learning方面的学习资料,看到好文章总是忍不住想跟各位分享。这次将系统地介绍深度学习的前世今生,文章很有趣,但也很长,将...

37315

扫码关注云+社区