机器之心专栏
作者:Jinkey
1 简介
Colab 是谷歌内部类 Jupyter Notebook 的交互式 Python 环境,免安装快速切换 Python 2 和 Python 3 的环境,支持 Google 全家桶 (TensorFlow、BigQuery、GoogleDrive 等),支持 pip 安装任意自定义库。
网址:https://colab.research.google.com
2 库的安装和使用
Colab 自带了 Tensorflow、Matplotlib、Numpy、Pandas 等深度学习基础库。如果还需要其他依赖,如 Keras,可以新建代码块,输入
3 Google Drive 文件操作
授权登录
对于同一个 notebook,登录操作只需要进行一次,然后才可以进度读写操作。
遍历目录
可以看到控制台打印结果
title: Colab 测试, id: 1cB5CHKSdL26AMXQ5xrqk2kaBv5LSkIsJ8HuEDyZpeqQ, mimeType: application/vnd.google-apps.document
title: Colab Notebooks, id: 1U9363A12345TP2nSeh2K8FzDKSsKj5Jj, mimeType: application/vnd.google-apps.folder
其中 id 是接下来的教程获取文件的唯一标识。根据 mimeType 可以知道 Colab 测试 文件为 doc 文档,而 Colab Notebooks 为文件夹(也就是 Colab 的 Notebook 储存的根目录),如果想查询 Colab Notebooks 文件夹下的文件,查询条件可以这么写:
读取文件内容
目前测试过可以直接读取内容的格式为 .txt(mimeType: text/plain),读取代码:
而 .csv 如果用 GetContentString() 只能打印第一行的数据,要用``
Colab 会直接以表格的形式输出结果(下图为截取 iris 数据集的前几行),iris 数据集地址为 http://aima.cs.berkeley.edu/data/iris.csv,学习的同学可以执行上传到自己的 Google Drive。
写文件操作
更多操作可查看 http://pythonhosted.org/PyDrive/filemanagement.html
4 Google Sheet 电子表格操作
授权登录
对于同一个 notebook,登录操作只需要进行一次,然后才可以进度读写操作。
读取
把 iris.csv 的数据导入创建一个 Google Sheet 文件来做演示,可以放在 Google Drive 的任意目录
打印结果分别为
[['5.1', '3.5', '1.4', '0.2', 'setosa'], ['4.9', '3', '1.4', '0.2', 'setosa'], ...
写入
5 下载文件到本地
6 实战
这里以我在 Github 的开源 LSTM 文本分类项目为例子 https://github.com/Jinkeycode/keras_lstm_chinese_document_classification,把 master/data 目录下的三个文件存放到 Google Drive 上。该示例演示的是对健康、科技、设计三个类别的标题进行分类。
新建
在 Colab 上新建 Python2 的笔记本
安装依赖
加载数据
授权登录
列出 GD 下的所有文件
缓存数据到工作环境
读取工作环境的数据
加载标签
文本预处理
构建神经网络
这里使用 Embedding 和 lstm 作为前两层,通过 softmax 激活输出结果
预测样本
sen 可以换成你自己的句子,预测结果为 [健康类文章概率, 科技类文章概率, 设计类文章概率], 概率最高的为那一类的文章,但最大概率低于 0.8 时判定为无法分类的文章。
本文为机器之心专栏,转载请联系本公众号获得授权。
✄------------------------------------------------
领取专属 10元无门槛券
私享最新 技术干货