为什么基于机器学习的产品很难见到?

作者:赵国栋,现任中关村大数据产业联盟秘书长,CCF大数据专委委员,北邮特聘导师,著有《大数据时代的历史机遇》一书。

大数据甚嚣尘上了三四年,如今创业不讲机器学习和数据挖掘都不好意思跟投资人介绍。但现实情况是,你在市面上见过多少套已经产品化的基于机器学习的软件?凤毛麟角。恐怕很多满嘴术语的从业者都不明白,作不到预测的机器学习都是在忽悠。而能实现预测的产品,说难不难,可是门槛不低,能做出来的创业团队不多见。

那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

你觉得深度学习很牛啊,连图片和声音识别都搞得很好了,搞些文本识别有啥意思。可很少有人坦白告诉你,到目前为止,深度学习尚未在自然语言处理中有突破进展,NLP比图像和语言识别实际上更难。图像和语音识别出来是啥?还是文本。现在企业里至少95%以上的重要数据还是文本,做产品的能不去覆盖?

现在做数据挖掘和机器学习的人员供不应求,BAT3四处高薪挖角,用过几个开源库的就号称是熟手,价码高得离谱。一提机器学习不就是聚类分类嘛。“聚类我懂啊,k-means天天用。”还不说让你改进算法,你真尝试过用它做个产品出来吗?拿个开源的模块攒出一个Demo,到客户那里实测。一个相同的测试数据集,产品跑三遍,聚类结果没有相同的。用户当时就蒙了,相同的数据还能有不同结果?你振振有词地解释:“k-means算法就这样啊,运算前要猜分类的个数,干脆就给个随机数,另外,也得给几个随机初始中心点,这样下来,每次跑聚类结果不一样太正常不过了。这是你不懂。我在哪哪哪就是这么用的!”用户合情合理的对产品常见的基本要求一下就被你归到无理那类去了。

互联网公司自己使用的机器学习引擎,都尚未产品化,甚至连产品化预期都没有。隔段时间修修补补,换一个训练和测试集,改两个算法细节,调三个参数,这些在产品研发里十分忌讳的行为司空见惯。反正系统也不会拿出去用,一般用户都只能接触到一点点运算结果,学术界也还在摸着石头过河,是不是有稳定结果也无所谓,财大气粗的deep learning随随便便搞上千个计算节点,只要召回率有改善就是极大的胜利。在这样氛围里工作的工程师出来自己创业能做出产品来吗?

那个知乎上得票第一的回复说,看完公开课的水平已经足够应付湾区的工作了。是,完全同意,如果你只想当一辈子底层码农,只想当大公司大项目里一颗可有可无的螺丝钉,不想有机会主持一个产品的设计和实现。要知道,那些大公司里也有很多研究统计和AI科班出身的。

想做机器学习的产品,不会调算法那是不可能的,基础的数学不过关根本理解不了算法还谈什么调整。很少有人能告诉你在某个特定场景下针对特定数据集用哪个算法更合适,这是个全新的领域,需要你自己去理解业务特征并选择试验不同算法以获得最优结果。如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。

是,更多的数据胜过更好的算法。你要做网络行为异常分析用以侦测攻击,觉得采集了大数据就已经胜利在望。可是很不幸的,你手里的大数据基本全是正常行为,异常只是很少数。然后,你意识到正统的分类算法对类别平均分布的训练数据学习效果好,对这种不平衡的训练集很容易出现偏差(能意识到这点已经不容易了,常见的都是直接调开源库硬上)。这时候不懂理论怎么搞?还有,海量数据的特征维度太多,你到底应该选哪些特征用以计算?接下来让你构建一个分类器实时预测网络攻击,只能拿到一个时间窗口里的数据,这跟大数据有啥关联?到这里,你就会发现扎实的基本功是做机器学习产品的必要基础。

Gartner说数据分类是以数据为中心的安全的基础,最近拿了那么多融资的Digital Guardian也把数据分类一直挂在口头,可它做出来了基于机器学习的分类器吗?用户手里拿着上亿条数据使用的日志,完全不知道哪些才是关键数据,必须借助分类器才可以发现风险。根据实际的大客户案例,基于自然语言处理和机器学习的产品,才能真正有效实现数据分类。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】人工智能\\机器学习\\统计学\\数据挖掘之间有什么区别?

前段时间,作者在 stats.stackexchange.com(译注:国外的一个系列问答网站,其中Stack Overflow是其中一个子站)看到一个...

2478
来自专栏算法channel

Facebook开源 时间序列预测框架 Prophet

时间序列(Time Series Analysis),应用非常广泛,从业务预测到全球变暖;从商品价格到股票、基金走势。

701
来自专栏人工智能头条

聚焦CSDN技术主题月:深度学习框架的重构与思考专场回顾

1265
来自专栏新智元

【DeepMind&OpenAI】利用人类偏好深度强化学习,机器学会后空翻

【新智元导读】DeepMind 和 OpenAI 合作的新研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种...

32112
来自专栏AI科技大本营的专栏

深度学习在2017年的十大发展趋势及预测

在本篇文章中,作者对深度学习在接下来一年中的发展趋势作出了十条预测。本文作者在《2011年软件开发趋势和相关预言》的十条预言中,有六条是准确的。 ? 在之前的博...

2957
来自专栏AI科技评论

观点 | DeepMind创始人Demis Hassabis:让AI更聪明的秘密就在人类自己身上

AI科技评论按:近日,DeepMind创始人Demis Hassabis接受了The Verge 的专访,他认为,让AI更聪明的方法就在人类自己身上:人工智能和...

3307
来自专栏ATYUN订阅号

【业界】AI发展得有多快? 斯坦福大学给出了一份成绩单

事实证明,我们很难预测AI的新进展何时会发生。在1956年的the Dartmouth Summer Research Project研究项目中,科学家们认为也...

33910
来自专栏人工智能快报

针对地缘政治问题,美情报机构开展人机混合预测研究

美国国家情报总监办公室(Office of the Director of National Intelligence)下设的高级情报研究计划署(IARPA)公...

2818
来自专栏AI研习社

「2018 机器阅读理解技术竞赛」落下帷幕,看奇点机智如何从 800 多支队伍中杀出重围

AI 研习社按,日前,由中国中文信息学会 (CIPS)、中国计算机学会 (CCF) 和百度公司联合举办的「2018 机器阅读理解技术竞赛」落下帷幕,Natura...

872
来自专栏机器之心

业界 | DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集

机器之心发布 百度 DuerOS 美国西部时间 11 月 9 日,百度 DuerOS 普罗米修斯计划在美国硅谷召开启动发布会。一周后,2017 百度世界大会上,...

30810

扫描关注云+社区