学习资料: https://www.tensorflow.org/get_started/tflearn
我们有 Iris 数据集,它包含150个样本数据,分别来自三个品种,每个品种有50个样本,每个样本具有四个特征,以及它属于哪一类,分别由 0,1,2 代表三个品种。
我们将这150个样本分为两份,一份是训练集具有120个样本,另一份是测试集具有30个样本。
我们要做的就是建立一个神经网络分类模型对每个样本进行分类,识别它是哪个品种。
一共有 5 步:
导入 CSV 格式的数据集 建立神经网络分类模型 用训练数据集训练模型 评价模型的准确率 对新样本数据进行分类
代码:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
import os
import urllib
import numpy as np
import tensorflow as tf
# Data sets
IRIS_TRAINING = "iris_training.csv"
IRIS_TRAINING_URL = "http://download.tensorflow.org/data/iris_training.csv"
IRIS_TEST = "iris_test.csv"
IRIS_TEST_URL = "http://download.tensorflow.org/data/iris_test.csv"
def main():
# If the training and test sets aren't stored locally, download them.
if not os.path.exists(IRIS_TRAINING):
raw = urllib.urlopen(IRIS_TRAINING_URL).read()
with open(IRIS_TRAINING, "w") as f:
f.write(raw)
if not os.path.exists(IRIS_TEST):
raw = urllib.urlopen(IRIS_TEST_URL).read()
with open(IRIS_TEST, "w") as f:
f.write(raw)
# Load datasets.
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TRAINING,
target_dtype=np.int,
features_dtype=np.float32)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TEST,
target_dtype=np.int,
features_dtype=np.float32)
# Specify that all features have real-value data
# 指定数据的形式,下面的意思是形成一个4维度,列名为"",数据格式为float32(默认)的形式。
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]
# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
hidden_units=[10, 20, 10],
n_classes=3,
model_dir="/tmp/iris_model")
# Define the training inputs
def get_train_inputs():
x = tf.constant(training_set.data)
y = tf.constant(training_set.target)
return x, y
# Fit model.
classifier.fit(input_fn=get_train_inputs, steps=2000)
# Define the test inputs
def get_test_inputs():
x = tf.constant(test_set.data)
y = tf.constant(test_set.target)
return x, y
# Evaluate accuracy.
#返回的是一个字典,取准确度
accuracy_score = classifier.evaluate(input_fn=get_test_inputs,
steps=1)["accuracy"]
print("\nTest Accuracy: {0:f}\n".format(accuracy_score))
# Classify two new flower samples.
# predict参数函数只要返回一个数据矩阵即可
def new_samples():
return np.array(
[[6.4, 3.2, 4.5, 1.5],
[5.8, 3.1, 5.0, 1.7]], dtype=np.float32)
predictions = list(classifier.predict(input_fn=new_samples))
print(
"New Samples, Class Predictions: {}\n"
.format(predictions))
if __name__ == "__main__":
main()
关于 tf.contrib.learn
可以查看: https://www.tensorflow.org/api_guides/python/contrib.learn
可以看到里面也有 kmeans,logistic,linear
等模型:
在上面的代码中:
tf.contrib.learn.datasets.base.load_csv_with_header
可以导入 CSV 数据集。关于代码里几个新的方法:
1. load_csv_with_header()
:
用于导入 CSV,需要三个必需的参数:
在这里,target 是花的品种,它是一个从 0-2 的整数,所以对应的numpy数据类型是np.int
2. tf.contrib.layers.real_valued_column
:
所有的特征数据都是连续的,因此用 tf.contrib.layers.real_valued_column,数据集中有四个特征(萼片宽度,萼片高度,花瓣宽度和花瓣高度),因此 dimension=4 。
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]
3. DNNClassifier:
feature_columns=feature_columns
, 上面定义的一组特征hidden_units=[10, 20, 10]
,三个隐藏层分别包含10,20,10个神经元。n_classes=3
,三个目标类,代表三个 Iris 品种。model_dir=/tmp/iris_model
,TensorFlow在模型训练期间将保存 checkpoint data。这部分主要是模型训练的监控,主要利用TensorFlow的 logging capabilities(记录功能)和Monitor API 。如果没有过程记录,其实整个算法就和黑盒子一样什么都看不到,比如有的时候可能模型在很早就已经收敛了或者看看模型是不是early stopping了是很必要的。
一种解决方法是多次使用fit来一步一步评估模型,但是这明显很慢所以并不建议使用,所以 tf.contrib.learn提供了Monitor API帮助我们在训练过程中评估模型,下面内容主要有三个过程:
Tensorflow记录有5个等级DEBUG, INFO, WARN, ERROR, and FATAL(严重程度升序),比如我设计记录等级是INFO,那么我就屏蔽了Debug的内容但是保留高等级的记录信息。默认配置的记录等级是WARN也就是我们平时看到的,因为我们平时并没有看到INFO和DEBUG的信息。但是现在,因为我们要进行模型评估所以调整记录等级为INFO。 方法是在import后面加上:
tf.logging.set_verbosity(tf.logging.INFO)
这时候运行代码的时候就会看到:
INFO:tensorflow:loss = 1.18812, step = 1
INFO:tensorflow:loss = 0.210323, step = 101
INFO:tensorflow:loss = 0.109025, step = 201
而且tf.contrib.learn会自动的每100个step输出训练损失评估指标到stderr。
tf.contrib.learn提供了一些高级的Monitor帮助我们在fit的时候进一步进行更细微的监控
Monitor | 描述 |
---|---|
CaptureVariable | 每n个step保存一个特殊的变量值 |
PrintTensor | 每n个step记录一个特殊的tensor值 |
SummarySaver | 每n个step用tf.summary.FileWriter保存给定的tensor到tf.Summary protocol buffers |
ValidationMonitor | 每n个step记录一个特定的评估指标集合,而且可以满足条件情况下设置早停止 |
我们如果想要在训练的同时评估测试集的结果,就可以使用ValidationMonitor作用在测试数据上。默认的every_n_steps为100,这里我们设置every_n_steps为50,并把下面的程序放到classifier的后面 :
validation_monitor = tf.contrib.learn.monitors.ValidationMonitor(
test_set.data,
test_set.target,
every_n_steps=50)
因为ValidationMonitor依赖于保存当前的checkpoint进行评估操作,所以我们需要在classifier中加入tf.contrib.learn.RunConfig(包含save_checkpoints_secs这个记录着保存两次checkpoint的时间差),因为iris训练数据少,所以可以设置save_checkpoints_secs为1
#model_dir保存着checkpoint是可以断点再训练的关键
classifier = tf.contrib.learn.DNNClassifier(
feature_columns=feature_columns,
hidden_units=[10, 20, 10],
n_classes=3,
model_dir="/tmp/iris_model",
config=tf.contrib.learn.RunConfig(save_checkpoints_secs=1))
最终在fit的时候要附上validation_monitor,注意需要一个列表封装,因为可以同时有几种monitor存在:
classifier.fit(x=training_set.data,
y=training_set.target,
steps=2000,
monitors=[validation_monitor])
最终得到的结果应该类似于:
INFO:tensorflow:Validation (step 50): loss = 1.71139, global_step = 0, accuracy = 0.266667
...
INFO:tensorflow:Validation (step 300): loss = 0.0714158, global_step = 268, accuracy = 0.966667
...
INFO:tensorflow:Validation (step 1750): loss = 0.0574449, global_step = 1729, accuracy = 0.966667
流式监控进阶内容
1.自定义度量: 可以看到ValidationMonitor会记录loss和accuracy,但是我们同样可以自定义度量方法。可以在ValidationMonitor的构造函数上加入metrics参数,其参数是一个键值对,键为想要记录的度量的名称,值为相应的MetricSpec对象。
MetricSpec对象可以接收下面几个参数(这里不是很明白):
validation_metrics = {
"accuracy":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_accuracy,
prediction_key=tf.contrib.learn.PredictionKey.CLASSES),
"precision":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_precision,
prediction_key=tf.contrib.learn.PredictionKey.CLASSES),
"recall":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_recall,
prediction_key=tf.contrib.learn.PredictionKey.CLASSES)
}
把这个字典放入validation_monitor的metrics参数中,即metrics=validation_metrics,得到的结果如下:
INFO:tensorflow:Validation (step 50): recall = 0.0, loss = 1.20626, global_step = 1, precision = 0.0, accuracy = 0.266667
...
INFO:tensorflow:Validation (step 600): recall = 1.0, loss = 0.0530696, global_step = 571, precision = 1.0, accuracy = 0.966667
...
INFO:tensorflow:Validation (step 1500): recall = 1.0, loss = 0.0617403, global_step = 1452, precision = 1.0, accuracy = 0.966667
2.早停止: 我们可以设置早停止选项在需要停止的时候停止训练:
参数 | 描述 |
---|---|
early_stopping_metric | 早停止指标如loss或者accuracy |
early_stopping_metric_minimize | True代表希望最小化上面的指标,False希望最大化上面的指标 |
early_stopping_rounds | 默认是None也就是不会早停止,如果是n就代表指标在n轮都不变那就停止 |
validation_monitor = tf.contrib.learn.monitors.ValidationMonitor(
test_set.data,
test_set.target,
every_n_steps=50,
metrics=validation_metrics,
early_stopping_metric="loss",
early_stopping_metric_minimize=True,
early_stopping_rounds=200)
结果是:
...
INFO:tensorflow:Validation (step 1150): recall = 1.0, loss = 0.056436, global_step = 1119, precision = 1.0, accuracy = 0.966667
INFO:tensorflow:Stopping. Best step: 800 with loss = 0.048313818872.
接着就可以直接在TensorBoard上看结果了,注意logdir的地址:
$ tensorboard --logdir=/tmp/iris_model/
Starting TensorBoard 39 on port 6006
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
import os
import numpy as np
import tensorflow as tf
tf.logging.set_verbosity(tf.logging.INFO)
# Data sets
IRIS_TRAINING = os.path.join(os.path.dirname(__file__), "iris_training.csv")
IRIS_TEST = os.path.join(os.path.dirname(__file__), "iris_test.csv")
def main(unused_argv):
# Load datasets.
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float)
validation_metrics = {
"accuracy":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_accuracy,
prediction_key="classes"),
"precision":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_precision,
prediction_key="classes"),
"recall":
tf.contrib.learn.MetricSpec(
metric_fn=tf.contrib.metrics.streaming_recall,
prediction_key="classes")
}
validation_monitor = tf.contrib.learn.monitors.ValidationMonitor(
test_set.data,
test_set.target,
every_n_steps=50,
metrics=validation_metrics,
early_stopping_metric="loss",
early_stopping_metric_minimize=True,
early_stopping_rounds=200)
# Specify that all features have real-value data
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]
# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.contrib.learn.DNNClassifier(
feature_columns=feature_columns,
hidden_units=[10, 20, 10],
n_classes=3,
model_dir="/tmp/iris_model",
config=tf.contrib.learn.RunConfig(save_checkpoints_secs=1))
# Fit model.
classifier.fit(x=training_set.data,
y=training_set.target,
steps=2000,
monitors=[validation_monitor])
# Evaluate accuracy.
accuracy_score = classifier.evaluate(
x=test_set.data, y=test_set.target)["accuracy"]
print("Accuracy: {0:f}".format(accuracy_score))
# Classify two new flower samples.
new_samples = np.array(
[[6.4, 3.2, 4.5, 1.5], [5.8, 3.1, 5.0, 1.7]], dtype=float)
y = list(classifier.predict(new_samples))
print("Predictions: {}".format(str(y)))
if __name__ == "__main__":
tf.app.run()
参考:https://blog.csdn.net/woaidapaopao/article/details/73007741?locationNum=10&fps=1#quickstart