如何构建真实世界可用的 ML 模型？

文章来源：企鹅号 - CSDN

Python 作为当前机器学习中使用最多的一门编程语言，有很多对应的机器学习库，最常用的莫过于 scikit-learn 了。本文我们介绍下如何使用sklearn进行实时预测。先来看下典型的机器学习工作流。

绿色方框圈出来的表示将数据切分为训练集和测试集。

红色方框的上半部分表示对训练数据进行特征处理，然后再对处理后的数据进行训练，生成 model。

红色方框的下半部分表示对测试数据进行特征处理，然后使用训练得到的 model 进行预测。

红色方框的右下角部分表示对模型进行评估，评估可以分为离线和在线。

典型的 ML 模型

介绍完了典型的机器学习工作流了之后，来看下典型的 ML 模型。

上面的模型对鸢尾花数据进行训练生成一个模型，之后该模型对测试数据进行预测，预测结果为每条数据属于哪种类别。

模型的保存和加载

上面我们已经训练生成了模型，但是如果我们程序关闭后，保存在内存中的模型对象也会随之消失，也就是说下次如果我们想要使用模型预测时，需要重新进行训练。如何解决这个问题呢？

很简单，既然内存中的对象会随着程序的关闭而消失，我们能不能将训练好的模型保存成文件。如果需要预测的话，直接从文件中加载生成模型呢？答案是可以的。

sklearn 提供了 joblib 模型，能够实现完成模型的保存和加载。

构建实时预测

前面说到的运行方式是在离线环境中运行，在真实世界中，我们很多时候需要在线实时预测。一种解决方案是将模型服务化，在我们这个场景就是，我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后，你能够快速告诉我这个鸢尾花的类型，借助 flask 等 web 框架，开发一个 web service，实现实时预测。

因为依赖于 flask 框架，没有安装的需要安装下：

创建一个 ml_web.py 文件，内容如下：

在命令行启动它：

在 PostMan（也可以在浏览器中打开）中打开 http://127.0.0.1:8000/ml/predict_iris ，得到以下结果：

可以看到，这里提示我们输入 sepal_length, sepal_width, petal_length, petal_width 参数，所以我们需要添加上参数重新构造一个请求 url：http://127.0.0.1:8000/ml/predict_iris?sepal_length=10&sepal_width=1&petal_length=3&petal_width=2。

再次请求得到的结果如下：

可以看到，模型返回的结果为 2，也就是说模型认为这个鸢尾花的类别是 2。

总结

在真实世界中，我们经常需要将模型进行服务化。这里我们借助 flask 框架，将 sklearn 训练后生成的模型文件加载到内存中，针对每次请求传入不同的特征来实时返回不同的预测结果。

作者：1or0，专注于机器学习研究。

声明：本文为公众号 AI派投稿，版权归对方所有。

发表于: 2018-08-142018-08-14 09:00:09
原文链接：https://kuaibao.qq.com/s/20180814A0C9YZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

如何构建真实世界可用的 ML 模型？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐