所以这个时候转向了开源已久的yahoo的TensorFlowOnSpark项目。简单了过了下他的源码,大致理清楚了原理,这里算是记录下来,也希望能帮到读者。...TensorFlowOnSpark 代码运行剖析 从项目中打开examples/mnist/spark/mnist_spark/mnist_dist.py, 第一步通过pyspark创建SparkContext...建议大家可以去google下如何手动配置tf cluster,然后就能更深入理解TensorFlowOnSpark是如何预先收集好哪些参数。...tf.Variable(tf.zeros([hidden_units]), name="hid_b") tf.summary.histogram("hidden_weights", hid_w) 当然,在TensorFlowOnSpark
对的,你没看错,这是我的一条龙服务,我在入坑填坑无数之后终于成功搭建起了Spark和TensorflowOnSpark的运行环境,并成功运行了示例程序(大概就是手写识别的训练和识别吧)。...照着教程完成了之后,你就获得了spark的集群辣,撒花~(≧▽≦)/~ ps:这里还有个搭建standalone集群的简单介绍,Spark的Standalone模式安装部署 安装TensorflowOnSpark...雅虎开源的TensorflowOnSpark 1. 啥?...你说全是英文看不懂,好吧我也看不懂,不过你想安装TensorflowOnSpark的话,应该拉到底点这里的wiki site ? 2.
TensorFlowOnSpark(TFoS),雅虎开源项目。https://github.com/yahoo/TensorFlowOnSpark 。...TensorFlowOnSpark提供桥接程序,每个Spark Executor启动一个对应TensorFlow进程,通过远程进程通信(RPC)交互。 TensorFlowOnSpark架构。...TensorFlowOnSpark MNIST。https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_standalone 。...检出TensorFlowOnSpark源代码: git clone --recurse-submodules https://github.com/yahoo/TensorFlowOnSpark.git.../tfspark.zip * 设置TensorFlowOnSpark根目录环境变量: cd TensorFlowOnSpark export TFoS_HOME=$(pwd) 启动Spark主节点(
雅虎昨日宣布开源 TensorFlowOnSpark。 它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。...TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 GitHub 上发布。...链接:https://github.com/yahoo/TensorFlowOnSpark 众所周知,深度学习有海量数据需求。...许多使用 TensorFlow 的雅虎开发者已轻松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 执行。”...对于 TensorFlowOnSpark 工作原理的详细解释,请参考雅虎博客。
量子位 李林 | 编译 雅虎宣布开源一个名为TensorFlowOnSpark的项目,支持对Apache Spark集群进行分布式TensorFlow训练和推断。...TensorFlowOnSpark的开源代码已经在GitHub上发布。 Apache Spark是一个用于处理大数据的开源框架,旨在提高并行计算的效率。...雅虎可以说是Spark社区的模范成员,去年,他们开源了CaffeOnSpark,刚刚开源的TensorFlowOnSpark原理几乎和它完全相同,只是换了个更流行的深度学习框架。...在开发TensorFlowOnSpark之前,雅虎的工程师们为了吧TensorFlow和Spark结合起来,尝试了SparkNet、TensorFrame等现有的工具,但最终还是决定自己做一个。
项目地址为:https://github.com/yahoo/TensorFlowOnSpark。 写在前面,前方高能,请注意!...Tensorflow on spark介绍 TensorflowOnSpark 支持使用Spark/Hadoop集群分布式的运行Tensorflow,号称支持所有的Tensorflow操作。...如何跑起来Tensorflow on spark 虽然Yahoo在github上说明了安装部署TFS (https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN...3、接下来的步骤按照 https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN 指导的步骤完成。...\ --queue ${QUEUE} \ --num-executors 4 \ --executor-memory 1G \ --py-files /data2/tesorflowonSpark/TensorFlowOnSpark
TensorFlowOnSpark 项目是由Yahoo开源的一个软件包,实现TensorFlow集群服务部署在Spark平台之上。...这次分享的主要内容包括TensorFlowOnSpark架构设计,探讨其工作原理,通过理解其设计,更好地理解TensorFlow集群在Spark平台上的运行机制。 ?...首先,探讨TensorFlowOnSpark的架构与设计。主要包括如下两个基本内容: 架构分析 生命周期 ? 在开始之前,先探讨一下TensorFlowOnSpark的背景,及其它需要解决的问题。...TensorFlowOnSpark的架构较为简单,Spark Driver程序并不会参与TensorFlow内部相关的计算和处理。...TensorFlowOnSpark的Spark应用程序包括4个基本过程。 Reserve:组建TensorFlow集群,并在每个Executor进程上预留监听端口,启动“数据/控制”消息的监听程序。
TensorFlowOnSpark分析 TensorFlowOnSpark 项目是由Yahoo开源的一个软件包,能将TensorFlow与Spark结合在一起使用,为Apache Hadoop和Apache...TensorFlowOnSpark目前被用于雅虎私有云中的Hadoop集群,主要进行大规模分布式深度学习使用。...图1:TensorFlowOnSpark 与现有库关系 TensorFlowOnSpark在内部实现了与Tensorflow集群类似的可扩展性。...图2:TensorFlowOnSpark 架构 TensorFlowOnSpark程序运行时会通过如下步骤创建并管理TensorFlow集群(Spark程序会创建一个TensorFlow集群,TensorFlow...对于Yahoo的TensorFlowOnSpark项目,从官方介绍上看是已经投入生产并与现有TensorFlow程序能够最大兼容的一个框架。
sv.start_queue_runners(sess, [chief_queue_runner]) sess.run(init_token_op) 需要注意的是,上述异步的方式需要自行指定集群IP和端口,不过,开发者们也可以借助TensorFlowOnSpark...基于TensorFlowOnSpark的分布式开发 作为个推面向开发者服务的移动APP数据统计分析产品,个数所具有的用户行为预测功能模块,便是基于TensorFlowOnSpark这种分布式来实现的。...基于TensorFlowOnSpark的分布式开发使其可以在屏蔽了端口和机器IP的情况下,也能够做到较好的资源申请和分配。...最关键的是,TensorFlowOnSpark可以在单机过度到分布式的情况下,使代码方便修改,且容易部署。...基于TensorFlowOnSpark的分布式开发的具体流程如下: 首先,需要使用spark-submit来提交任务,同时指定spark需要运行的参数(–num-executors 6等)、模型代码、模型超参等
项目地址为:https://github.com/yahoo/TensorFlowOnSpark。 写在前面,前方高能,请注意!...Tensorflow on spark介绍 TensorflowOnSpark 支持使用Spark/Hadoop集群分布式的运行Tensorflow,号称支持所有的Tensorflow操作。...如何跑起来Tensorflow on spark 虽然Yahoo在github上说明了安装部署TFS (https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN...3、接下来的步骤按照 https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN 指导的步骤完成。...spark.executorEnv.LD_LIBRARY_PATH="/usr/jdk64/jdk1.8.0_77/jre/lib/amd64/server/" \/data2/tesorflowonSpark/TensorFlowOnSpark
至于对Spark集群的友好,你可以了解一下雅虎最近新开源的TensorFlowOnSpark。 3 ....请问使用TensorFlowOnSpark之后,除了免去数据在HDFS和TensorFlow移动之外,是否能对性能有较好的提升呢?...如果不用TensorFlowOnSpark,TensorFlow目前自己的分布式性能是否已经成熟了呢? 目前TensorFlow的分布式算是比较成熟的,但可能还不是最快的。...TensorFlowonSpark应该不能提升分布式的性能,毕竟还经过了一层Spark的通信机制处理。 应该选择TensorFlow还是Theano?有使用两个库的用户比较一下这两者。...想问一下TensorFlow和Spark结合的框架,例如TensorFlowonSpark,目前是否已经成熟可用?
第三点,关于使用Tensorflow: 使用Tensorflow时,我们的选型是TensorflowOnSpark,原生的Tensorflow的分布式支持不够好,需要去指定一些节点信息,使用难度较大。...TensorflowOnSpark能够解决原生Tensorflow Cluster分布式问题,代码也很容易迁移到TensorflowOnSpark上,基本不用改。...最后分享下我们的一些经验: 第一,TensorflowOnSpark上的PS数量有限制,而且Worker和PS节点资源分配不是很灵活,都是等大。
TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 GitHub 上发布。...GitHub 地址:https://github.com/yahoo/TensorFlowOnSpark(点击文末阅读原文查看) Python 正式迁移到 GitHub ?
https://www.zhihu.com/question/41907061 (点击文末阅读原文查看) ● ● ● 补充 TensorFlow 与 Apache Spark 结合:雅虎开源“TensorFlowOnSpark...” 最后,说到TensorFlow 就不得不提最近的一个大新闻——“TensorFlowOnSpark”。
.: TensorFlowOnSpark: https://github.com/yahoo/TensorFlowOnSpark 3、 CERN分布式Keras(Distributed Keras) (
后面看了TFoS,感觉很是巧妙,写了一篇TensorFlowOnSpark 源码解析。
Anaconda等,K8S生态的Kubeflow, Horovod和 Hadoop生态的TensorflowOnYarn, TonY ( TensorflowOnYarn 和 TonY 是两个不同的项目),TensorflowOnSpark
通过引入mmlspark库,Spark上也是可以分布式跑lightgbm的,通过引入TensorflowOnSpark,Spark上也是可以分布式跑TensorFlow的。
/backward algorithms tensorflow_nlp (0.0.1) – Deep Learning NLP Tasks implemented on Tensorflow tensorflowonspark
4.Expanded Support for Distributed Machine Learning CDSW1.6(或更高)允许你使用TensorFlowOnSpark, H2O, XGBoost等这种框架
领取专属 10元无门槛券
手把手带您无忧上云