想免费用谷歌资源训练神经网络?Colab详细使用教程

机器之心专栏

作者:Jinkey

1 简介

Colab 是谷歌内部类 Jupyter Notebook 的交互式 Python 环境,免安装快速切换 Python 2 和 Python 3 的环境,支持 Google 全家桶 (TensorFlow、BigQuery、GoogleDrive 等),支持 pip 安装任意自定义库。

网址:https://colab.research.google.com

2 库的安装和使用

Colab 自带了 Tensorflow、Matplotlib、Numpy、Pandas 等深度学习基础库。如果还需要其他依赖,如 Keras,可以新建代码块,输入

3 Google Drive 文件操作

授权登录

对于同一个 notebook,登录操作只需要进行一次,然后才可以进度读写操作。

遍历目录

可以看到控制台打印结果

title: Colab 测试, id: 1cB5CHKSdL26AMXQ5xrqk2kaBv5LSkIsJ8HuEDyZpeqQ, mimeType: application/vnd.google-apps.document

title: Colab Notebooks, id: 1U9363A12345TP2nSeh2K8FzDKSsKj5Jj, mimeType: application/vnd.google-apps.folder

其中 id 是接下来的教程获取文件的唯一标识。根据 mimeType 可以知道 Colab 测试 文件为 doc 文档,而 Colab Notebooks 为文件夹(也就是 Colab 的 Notebook 储存的根目录),如果想查询 Colab Notebooks 文件夹下的文件,查询条件可以这么写:

读取文件内容

目前测试过可以直接读取内容的格式为 .txt(mimeType: text/plain),读取代码:

而 .csv 如果用 GetContentString() 只能打印第一行的数据,要用``

Colab 会直接以表格的形式输出结果(下图为截取 iris 数据集的前几行),iris 数据集地址为 http://aima.cs.berkeley.edu/data/iris.csv,学习的同学可以执行上传到自己的 Google Drive。

写文件操作

更多操作可查看 http://pythonhosted.org/PyDrive/filemanagement.html

4 Google Sheet 电子表格操作

授权登录

对于同一个 notebook,登录操作只需要进行一次,然后才可以进度读写操作。

读取

把 iris.csv 的数据导入创建一个 Google Sheet 文件来做演示,可以放在 Google Drive 的任意目录

打印结果分别为

[['5.1', '3.5', '1.4', '0.2', 'setosa'], ['4.9', '3', '1.4', '0.2', 'setosa'], ...

写入

5 下载文件到本地

6 实战

这里以我在 Github 的开源 LSTM 文本分类项目为例子 https://github.com/Jinkeycode/keras_lstm_chinese_document_classification,把 master/data 目录下的三个文件存放到 Google Drive 上。该示例演示的是对健康、科技、设计三个类别的标题进行分类。

新建

在 Colab 上新建 Python2 的笔记本

安装依赖

加载数据

授权登录

列出 GD 下的所有文件

缓存数据到工作环境

读取工作环境的数据

加载标签

文本预处理

构建神经网络

这里使用 Embedding 和 lstm 作为前两层,通过 softmax 激活输出结果

预测样本

sen 可以换成你自己的句子,预测结果为 [健康类文章概率, 科技类文章概率, 设计类文章概率], 概率最高的为那一类的文章,但最大概率低于 0.8 时判定为无法分类的文章。

本文为机器之心专栏,转载请联系本公众号获得授权。

✄------------------------------------------------

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180131B0DMCV00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区