前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么基于机器学习的产品很难见到?

为什么基于机器学习的产品很难见到?

作者头像
机器学习AI算法工程
发布2018-03-12 17:40:38
1K0
发布2018-03-12 17:40:38
举报

作者:赵国栋,现任中关村大数据产业联盟秘书长,CCF大数据专委委员,北邮特聘导师,著有《大数据时代的历史机遇》一书。

大数据甚嚣尘上了三四年,如今创业不讲机器学习和数据挖掘都不好意思跟投资人介绍。但现实情况是,你在市面上见过多少套已经产品化的基于机器学习的软件?凤毛麟角。恐怕很多满嘴术语的从业者都不明白,作不到预测的机器学习都是在忽悠。而能实现预测的产品,说难不难,可是门槛不低,能做出来的创业团队不多见。

那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

你觉得深度学习很牛啊,连图片和声音识别都搞得很好了,搞些文本识别有啥意思。可很少有人坦白告诉你,到目前为止,深度学习尚未在自然语言处理中有突破进展,NLP比图像和语言识别实际上更难。图像和语音识别出来是啥?还是文本。现在企业里至少95%以上的重要数据还是文本,做产品的能不去覆盖?

现在做数据挖掘和机器学习的人员供不应求,BAT3四处高薪挖角,用过几个开源库的就号称是熟手,价码高得离谱。一提机器学习不就是聚类分类嘛。“聚类我懂啊,k-means天天用。”还不说让你改进算法,你真尝试过用它做个产品出来吗?拿个开源的模块攒出一个Demo,到客户那里实测。一个相同的测试数据集,产品跑三遍,聚类结果没有相同的。用户当时就蒙了,相同的数据还能有不同结果?你振振有词地解释:“k-means算法就这样啊,运算前要猜分类的个数,干脆就给个随机数,另外,也得给几个随机初始中心点,这样下来,每次跑聚类结果不一样太正常不过了。这是你不懂。我在哪哪哪就是这么用的!”用户合情合理的对产品常见的基本要求一下就被你归到无理那类去了。

互联网公司自己使用的机器学习引擎,都尚未产品化,甚至连产品化预期都没有。隔段时间修修补补,换一个训练和测试集,改两个算法细节,调三个参数,这些在产品研发里十分忌讳的行为司空见惯。反正系统也不会拿出去用,一般用户都只能接触到一点点运算结果,学术界也还在摸着石头过河,是不是有稳定结果也无所谓,财大气粗的deep learning随随便便搞上千个计算节点,只要召回率有改善就是极大的胜利。在这样氛围里工作的工程师出来自己创业能做出产品来吗?

那个知乎上得票第一的回复说,看完公开课的水平已经足够应付湾区的工作了。是,完全同意,如果你只想当一辈子底层码农,只想当大公司大项目里一颗可有可无的螺丝钉,不想有机会主持一个产品的设计和实现。要知道,那些大公司里也有很多研究统计和AI科班出身的。

想做机器学习的产品,不会调算法那是不可能的,基础的数学不过关根本理解不了算法还谈什么调整。很少有人能告诉你在某个特定场景下针对特定数据集用哪个算法更合适,这是个全新的领域,需要你自己去理解业务特征并选择试验不同算法以获得最优结果。如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。

是,更多的数据胜过更好的算法。你要做网络行为异常分析用以侦测攻击,觉得采集了大数据就已经胜利在望。可是很不幸的,你手里的大数据基本全是正常行为,异常只是很少数。然后,你意识到正统的分类算法对类别平均分布的训练数据学习效果好,对这种不平衡的训练集很容易出现偏差(能意识到这点已经不容易了,常见的都是直接调开源库硬上)。这时候不懂理论怎么搞?还有,海量数据的特征维度太多,你到底应该选哪些特征用以计算?接下来让你构建一个分类器实时预测网络攻击,只能拿到一个时间窗口里的数据,这跟大数据有啥关联?到这里,你就会发现扎实的基本功是做机器学习产品的必要基础。

Gartner说数据分类是以数据为中心的安全的基础,最近拿了那么多融资的Digital Guardian也把数据分类一直挂在口头,可它做出来了基于机器学习的分类器吗?用户手里拿着上亿条数据使用的日志,完全不知道哪些才是关键数据,必须借助分类器才可以发现风险。根据实际的大客户案例,基于自然语言处理和机器学习的产品,才能真正有效实现数据分类。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档