开发丨TensorFlow 与 Apache Spark 结合:雅虎开源“TensorFlowOnSpark”

雅虎昨日宣布开源 TensorFlowOnSpark。

它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。对于使用 Spark 来处理不同类型数据的机构和开发者来说,这无疑是一个好消息。TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 GitHub 上发布。

链接:https://github.com/yahoo/TensorFlowOnSpark

众所周知,深度学习有海量数据需求。AI 科技评论了解到,许多业内公司利用 Spark 对超大规模的数据集进行管理。让深度学习框架直接、方便地获取这部分数据,将为 ML 开发提供极大助力。

雅虎在官方博客中宣布了这一消息,并解释了此前雅虎 Big ML 开发团队遇到的问题:

“现有的深度学习框架,往往需要设立单独的深度学习数据组。这强迫我们为同一个机器学习流水线创建多个程序。维护多个独立的数据组,要求我们在它们之间传输海量数据集——这导致不必要的系统复杂性和端到端的学习延迟。”

为解决这一问题,雅虎此前开发了 CaffeOnSpark。它使得基于 Caffe 机器学习框架开发的程序,能与 Apache Spark 兼容。AI 科技评论了解到,雅虎已将基于 CaffeOnSpark 的程序,用于鉴别搜索中的不恰当搜索结果,以及自动探测电子竞技游戏直播视频中的关键看点。

雅虎去年开源了 CaffeOnSpark。如今它对 TensorFlow 做了同样的工作。两者的原理几乎相同,只是把机器学习框架换成了 TensorFlow。

雅虎表示,把 TensorFlow 程序移植到 TensorFlowOnSpark 相对方便,并经过反公司内部的反复验证。

“这通常只需要修改十行以内的 Python 代码。许多使用 TensorFlow 的雅虎开发者已轻松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 执行。”

AI 科技评论获知,雅虎会持续为 TensorFlowOnSpark 和 CaffeOnSpark 提供支持,并欢迎开源社区对两者进行改进。对于 TensorFlowOnSpark 工作原理的详细解释,请参考雅虎博客。

链接:http://yahoohadoop.tumblr.com/post/157196317141/open-sourcing-tensorflowonspark-distributed-deep

via yahoo,siliconangle,venturebeat

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

扫码关注云+社区