为什么基于机器学习的产品很难见到?

作者:赵国栋,现任中关村大数据产业联盟秘书长,CCF大数据专委委员,北邮特聘导师,著有《大数据时代的历史机遇》一书。

大数据甚嚣尘上了三四年,如今创业不讲机器学习和数据挖掘都不好意思跟投资人介绍。但现实情况是,你在市面上见过多少套已经产品化的基于机器学习的软件?凤毛麟角。恐怕很多满嘴术语的从业者都不明白,作不到预测的机器学习都是在忽悠。而能实现预测的产品,说难不难,可是门槛不低,能做出来的创业团队不多见。

那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

你觉得深度学习很牛啊,连图片和声音识别都搞得很好了,搞些文本识别有啥意思。可很少有人坦白告诉你,到目前为止,深度学习尚未在自然语言处理中有突破进展,NLP比图像和语言识别实际上更难。图像和语音识别出来是啥?还是文本。现在企业里至少95%以上的重要数据还是文本,做产品的能不去覆盖?

现在做数据挖掘和机器学习的人员供不应求,BAT3四处高薪挖角,用过几个开源库的就号称是熟手,价码高得离谱。一提机器学习不就是聚类分类嘛。“聚类我懂啊,k-means天天用。”还不说让你改进算法,你真尝试过用它做个产品出来吗?拿个开源的模块攒出一个Demo,到客户那里实测。一个相同的测试数据集,产品跑三遍,聚类结果没有相同的。用户当时就蒙了,相同的数据还能有不同结果?你振振有词地解释:“k-means算法就这样啊,运算前要猜分类的个数,干脆就给个随机数,另外,也得给几个随机初始中心点,这样下来,每次跑聚类结果不一样太正常不过了。这是你不懂。我在哪哪哪就是这么用的!”用户合情合理的对产品常见的基本要求一下就被你归到无理那类去了。

互联网公司自己使用的机器学习引擎,都尚未产品化,甚至连产品化预期都没有。隔段时间修修补补,换一个训练和测试集,改两个算法细节,调三个参数,这些在产品研发里十分忌讳的行为司空见惯。反正系统也不会拿出去用,一般用户都只能接触到一点点运算结果,学术界也还在摸着石头过河,是不是有稳定结果也无所谓,财大气粗的deep learning随随便便搞上千个计算节点,只要召回率有改善就是极大的胜利。在这样氛围里工作的工程师出来自己创业能做出产品来吗?

那个知乎上得票第一的回复说,看完公开课的水平已经足够应付湾区的工作了。是,完全同意,如果你只想当一辈子底层码农,只想当大公司大项目里一颗可有可无的螺丝钉,不想有机会主持一个产品的设计和实现。要知道,那些大公司里也有很多研究统计和AI科班出身的。

想做机器学习的产品,不会调算法那是不可能的,基础的数学不过关根本理解不了算法还谈什么调整。很少有人能告诉你在某个特定场景下针对特定数据集用哪个算法更合适,这是个全新的领域,需要你自己去理解业务特征并选择试验不同算法以获得最优结果。如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。

是,更多的数据胜过更好的算法。你要做网络行为异常分析用以侦测攻击,觉得采集了大数据就已经胜利在望。可是很不幸的,你手里的大数据基本全是正常行为,异常只是很少数。然后,你意识到正统的分类算法对类别平均分布的训练数据学习效果好,对这种不平衡的训练集很容易出现偏差(能意识到这点已经不容易了,常见的都是直接调开源库硬上)。这时候不懂理论怎么搞?还有,海量数据的特征维度太多,你到底应该选哪些特征用以计算?接下来让你构建一个分类器实时预测网络攻击,只能拿到一个时间窗口里的数据,这跟大数据有啥关联?到这里,你就会发现扎实的基本功是做机器学习产品的必要基础。

Gartner说数据分类是以数据为中心的安全的基础,最近拿了那么多融资的Digital Guardian也把数据分类一直挂在口头,可它做出来了基于机器学习的分类器吗?用户手里拿着上亿条数据使用的日志,完全不知道哪些才是关键数据,必须借助分类器才可以发现风险。根据实际的大客户案例,基于自然语言处理和机器学习的产品,才能真正有效实现数据分类。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 拿下吴文俊奖,今日头条李磊谈AI如何实现内容创作

3518
来自专栏IT派

机器学习本质-周志华

什么是机器学习? 文献筛选”的故事:循证医学 我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找...

33511
来自专栏IT派

个性化推荐系统那些绕不开的经典问题

在恰到好处的时候,用户邂逅到心仪的事物,想必正是一件美好之事。推荐系统就是那个促成美好的丘比特。

1364
来自专栏深度学习自然语言处理

资料 |《深度学习500问》,川大优秀毕业生的诚意之作

今天,给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书?

542
来自专栏CSDN技术头条

入行 AI,如何选个脚踏实地的岗位?

AI原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。

1023
来自专栏AI研习社

为什么现在人工智能掀起热潮?

20世纪50年代,John McCarthy开创了Artificial Intelligence(简称AI)这个词,一下子就和Marvin Minsky一起,成...

863
来自专栏AI科技大本营的专栏

DeepMind 研发出类脑 AI 神经元,具备超强空间导航能力

Google 旗下人工智能公司 DeepMind 的研究人员最近在《自然》杂志上发表论文,宣布同伦敦大学学院的神经生理学家合作,研发出了能够模拟哺乳动物大脑中网...

871
来自专栏数据派THU

【干货】黄蔚欣:数据、行为与建筑设计

本文共7400字,建议阅读时间13分钟 本讲座选自黄蔚欣博士于2015年4月16日在 RONG 系列论坛之三——大数据与未来人居研讨会上所做的题为《数据、行为与...

2115
来自专栏AI科技大本营的专栏

《深度学习500问》,川大优秀毕业生的诚意之作

今天,营长要给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书?

772
来自专栏机器人网

人工智能时代,GPU要火?

? 我们想用机器做越来越多的事,我们能做的、不能做的、懒得做的……统统都想让机器代劳。“人工智能”——已经不再是科幻电影里的事,Google、Microsof...

3739

扫码关注云+社区