一个看似比较好的机器学习落地架构No.19

我是小蕉。

这几个月一直在考虑机器学习要怎么落地,要怎么做在线预测,但是一直都是有点懵这样。很疑惑要怎么去做,毫无头脑,大量资料都是分析怎么好怎么好也没说怎么落地啊。。。

不信邪的小蕉,开始发功,谁知道呢,试试看嘛,又不亏。

然后看了王益大大的机器学习讲座,受益匪浅,大致意思就是我们还是要好好理解底层的东西,不要以为大数据就是Hadoop,或者google,这两个都是行业的佼佼者。因为用着感觉有限制,大牛带团队花了五年准备三年实施开发了一套分布式机器学习系统。是用Go语言写的,入门还是蛮痛苦的,蓝瘦。

所以话说回来了,那机器学习想要落地,跟现在火得一逼的python有毛关系?毕竟一个是java一个是c++。现在绝大部分都是一条龙训练模型测试模型进行模型调参,看起来就是离线计算能这样用,但也不可能每一次都完全算一遍啊,这得多痛苦呢??那模型训练更新的频率应该是怎样呢??

对于具体场景怎么落地,过去一段时间都还是很难去想象,然后昨天晚上四点突然几百个雷加几千个闪电把我惊醒了,脑子好像一下子开了个开关,突然有目标怎么去落地了。

就目前而言,大多数数据还是Hadoop平台上,前期已经在这上面有了一些的应用,也有了一定的技术积累。而且我们公司现在也没有现成的python环境可以使用也没人会吖,咋办??

所以短期来看一个比较靠谱的落地架构是,kafka+Spark Streaming+Spark MLlib。MLlib通过分布式机器学习训练模型,然后保存到hdfs上,Spark Streaming定期去hdfs上获取并更新模型,然后从kafka收取消息直接进行预测,并通过kafka回传给业务系统。

有人说Hadoop这套太慢,我们暂时没有语音图像文本需要处理,我暂时就用不着这些,即使我要用,短时间内从外部采购成熟产品看起来比较靠谱,这不是一天半会的事情。

但是长期来看,还是要逐渐将计算搬到python这套平台上,为什么呢??这是为什么呢??有了Spark MLlib不是可以包大天下了吗?

架构大概是,django+parallel python+各种各样的机器学习框架,比如tensorflow,scikit-learn,pandas,numpy等等,绝对能实现绝大部分的需求。

但是短期内至少三个月内不应该强行搭建,应该进行技术积累,毕竟上一次开发django程序是在两年前。

还有人问为何要用python,因为python机器学习库多啊,开发起来biu biu biu的,还需要其他理由吗??真是的。

谢谢闪电!!!小的给您请安了。

原文发布于微信公众号 - 一名叫大蕉的程序员(DaBananaTalk)

原文发表时间:2017-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏悦思悦读

美国大学数据科学(Data Science)教育实践

本文作者:李琦,现任北肯塔基大学(North Kentucky University)计算机系(Computer Science)数据科学(Data Scien...

6591
来自专栏腾讯高校合作

从VR的全世界走过—SIGGRAPH Asia 2016游记2

前言 Virtual Reality的展厅为我们带来了全球VR领域的顶级科学家们的最新研究成果,其中有多种多样的产品展示:无人机、VR设备、体感游戏、人脸识别、...

35412
来自专栏IT派

总结 | 数据可视化的七大趋势

导语:随着科技的不断进步与新设备的不断涌现,数据可视化领域目前正处在飞速地发展之中。ProPublica的调查记者兼开发者Lena Groeger,以及金融时报...

3185
来自专栏机器人网

国际机器人与自动化大会重点推介的20种创新机器人技术

最近在瑞典斯德哥尔摩召开的“国际机器人与自动化大会”(ICRA)向世人展示了该领域最新的设计和创意理念,从飞行运输、环保检测、工业制造到休闲生活娱乐,形形色色的...

3697
来自专栏大数据文摘

[译]数据会骗人?帮你能看懂图表的误导!

1343
来自专栏华章科技

2017年数据可视化的七大趋势!

Groeger表示,目前的可视化技术水平已经远远超出了Google Maps,而且每天都会出现很多实验性的技术。 “现在你可以用地图来讲故事。例如,蒂姆·华莱士...

863
来自专栏华章科技

如何才能从新手到大师?

熟悉写作技巧的畅销书作者常常会用一个清晰的行动准则,如“练习1万小时成为专家”“21天养成好习惯”等来激发你的行动。但是对于究竟有多少人能够坚持1万小时,1万小...

861
来自专栏技术翻译

11个有趣的【数据可视化】案例

数据可视化专家每天都在数据设计的世界里创造惊人的东西,数据可视化是在许多不同领域的重要工具。为了纪念所有艺术家和设计师在世界各地进行惊人的数据可视化,这里收集了...

1.7K0
来自专栏算法channel

铁粉巨献:我是如何从coding菜鸟,走向科大讯飞AI工程师的

1684
来自专栏腾讯社交用户体验设计

QQ默认表情优化背后的故事 - 腾讯ISUX

1845

扫码关注云+社区