前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tensorflow on HDFS 的实践

Tensorflow on HDFS 的实践

作者头像
runzhliu
发布2020-08-06 10:43:44
1.5K0
发布2020-08-06 10:43:44
举报
文章被收录于专栏:容器计算容器计算

官方文档很重要~

1 Overview

本文主要参考 Tensorflow on Hadoop,在 TenC 弹性计算平台做一个 Tensorflow 读取 TenC HDFS 的例子。

  1. 安装 Java
  2. 安装 Hadoop

2 Practice

做法很简单,就是以 Tensorflow 的官方镜像作为 base 镜像,装好 Java 和 Hadoop 就可以开始测试了,给个参考的 Dockerfile。

代码语言:javascript
复制
FROM tensorflow/tensorflow:1.14.0-py3

RUN apt-get update -y && apt-get install openjdk-8-jdk -y
ADD hadoop-2.9.2.tar.gz /opt
COPY test.py .
ENV JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
ENV HADOOP_HDFS_HOME=/opt/hadoop-2.9.2
ENV HADOOP_HOME=/opt/hadoop-2.9.2
ENV LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:${JAVA_HOME}/jre/lib/amd64/server
CMD ["/bin/bash"]

镜像里的 test.py 逻辑很简单,就是读出参数1的指定文件的内容并且打印。

代码语言:javascript
复制
import tensorflow as tf
import numpy as np
import sys

def main():
    filename_queue = tf.train.string_input_producer([sys.argv[1]], num_epochs=1)
    reader = tf.TextLineReader()
    key, value = reader.read(filename_queue)

    with tf.Session() as sess:
        sess.run(tf.initialize_local_variables())
        tf.train.start_queue_runners()
        num_examples = 0
        try:
            while True:
                s_key, s_value = sess.run([key, value])
                print( s_key, s_value)
            num_examples += 1
        except tf.errors.OutOfRangeError:
            print ("There are", num_examples, "examples")

if __name__ == "__main__":
    main()

在机器上执行下面的命令。

代码语言:javascript
复制
docker build -t tf-hdfs:latest .

在 TenC HDFS 上 put 一个文件 tf-hdfs.csv。容器内测试 Tensorflow 读取 HDFS。

代码语言:javascript
复制
CLASSPATH=$($HADOOP_HDFS_HOME/bin/hadoop classpath --glob) python test.py hdfs://app/persona/ieg/dm/runzhliu/tf-hdfs.csv
image_1e5gu0tfq1dli12031evq13a51has16.png-294.6kB
image_1e5gu0tfq1dli12031evq13a51has16.png-294.6kB

3 Summary

因为主要涉及到 Hadoop 的安装以及环境变量的配置,可以尽量将环境变量的设置写在 Dockerfile 里,这样比较清晰,而且如果几个相关的环境变量没有设置对的话,会容易出现各种问题了。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-04-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Overview
  • 2 Practice
  • 3 Summary
相关产品与服务
容器镜像服务
容器镜像服务(Tencent Container Registry,TCR)为您提供安全独享、高性能的容器镜像托管分发服务。您可同时在全球多个地域创建独享实例,以实现容器镜像的就近拉取,降低拉取时间,节约带宽成本。TCR 提供细颗粒度的权限管理及访问控制,保障您的数据安全。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档