文档中心>云 HDFS>实践教程>Tensorflow 读写 CHDFS 数据

Tensorflow 读写 CHDFS 数据

最近更新时间:2024-08-21 15:44:01

我的收藏

CHDFS 准备工作

1. 在腾讯云官网创建 CHDFS 文件系统和 CHDFS 挂载点,配置好权限信息。
2. 通过腾讯云 VPC 环境的 CVM 机器访问创建好的 CHDFS,详情请参见 创建 CHDFS
3. 当挂载成功后,打开 hadoop 命令行工具,并执行以下命令,验证 CHDFS 功能是否正常。
hadoop fs -ls ofs://f4xxxxxxxxxxxxxxx.chdfs.ap-beijing.myqcloud.com/
如果能看到以下类似的输出,则表示云 HDFS 功能一切正常。



Tensorflow 准备工作

1. 通过 官方 Github 下载 Tensorflow。
2. 参考 腾讯云支持 CHDFS patch,修改 tensorflow 源码,本文示例采用 tensorflow 2.5版本编译。
3. 参考 tensorflow 编译教程,编译修改源码后的 tensorflow。
4. 待编译完成后,安装 tensorflow 模块,并且验证。
说明:
tensorflow 代码版本差异较大,如果您使用的 tensorflow 非2.5版本,遇到代码问题,可以寻求 CHDFS 团队协助。

Tesorflow 读写 CHDFS 验证

1. 在 CHDFS 上创建测试文件:
hadoop fs -copyFromLocal ./testfile ofs://f4xxxxxxxxxxxxxxx.chdfs.ap-beijing.myqcloud.com/testfile

hadoop fs -cat ofs://f4xxxxxxxxxxxxxxx.chdfs.ap-beijing.myqcloud.com/testfile
hello, world
2. 使用 TensorFlow 的 API 查看 CHDFS 上的数据。
➜ ~ python3
Python 3.9.6 (default, Jun 29 2021, 05:25:02)
[Clang 12.0.5 (clang-1205.0.22.9)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow as tf
>>> with tf.gfile.Open('ofs://f4xxxxxxxxxxxxxxx.chdfs.ap-beijing.myqcloud.com/testfile') as rf:
... rf.read()
'hello, world\\n'
>>>
说明:
ofs://f4xxxxxxxxxxxxxxx.chdfs.ap-beijing.myqcloud.com 为测试的挂载点信息,需要您替换成真实的挂载点信息。