微软发布开源跨平台机器学习框架ML.NET 0.2版本

上个月在Build 2018年微软发布了ML.NET 0.1,一个跨平台的开源机器学习框架。今天又发布了ML.NET 0.2。这个版本侧重于添加新的ML任务,比如集群,使验证模型更容易,为ML.NET示例添加一个全新的repo,并解决我们在GitHub repo中收到的各种问题和反馈。

下面提到了ML.NET 0.2版本的一些亮点:

新的机器学习任务:集群

集群是一种无监督的学习任务,它根据项目的特征对项目集进行分组。它识别哪些项目比其他项目更相似。

这在一些场景中可能很有用,比如根据主题将新闻文章组织成组,根据用户的购物习惯对用户进行分段,以及根据观众对电影的喜好对观众进行分组。

Iris Flower示例演示了如何使用ML.NET 0.2中的集群

通过交叉验证和培训测试更容易进行模型验证

交叉验证是一种验证模型统计性能的方法。它不需要单独的测试数据集,而是使用您的训练数据来测试您的模型(它将数据划分为不同的数据,以便进行培训和测试,并多次执行)。使用ML.NET 0.2,您现在可以使用交叉验证,这里有一个很好的例子。(https://github.com/dotnet/machinelearning/blob/78810563616f3fcb0b63eb8a50b8b2e62d9d65fc/test/Microsoft.ML.Tests/Scenarios/SentimentPredictionTests.cs#L51)

Train-test是在单独的数据集中测试模型的快捷方式。参见这里的示例用法。(https://github.com/dotnet/machinelearning/blob/78810563616f3fcb0b63eb8a50b8b2e62d9d65fc/test/Microsoft.ML.Tests/Scenarios/SentimentPredictionTests.cs#L36)

使用具有CollectionDataSource的数据对象进行训练

net 0.1允许从带分隔符的文本文件加载数据。net 0.2中的CollectionDataSource增加了使用对象集合作为LearningPipeline输入的能力。

下面的代码片段展示了如何使用ML.NET 0.2中的CollectionDataSource。

新的ML.NET示例repo

我们创建了一个新的repo https://github.com/dotnet/machinelearning-samples,并添加了一些开始和结束应用程序示例。

  • 情绪分析(二进制分类)

这个示例演示了如何使用ML.NET分析客户评论的情绪(正面或负面)。该示例使用了IMDB和Yelp评论。

  • 鸢尾花的分类(多类分类)

这个样本的中心是预测虹膜花的类型(setosa, versicolor,或virginica)基于花的参数,如花瓣长度,花瓣宽度等。

  • 出租汽车费预测(回归)

出租车票价预测示例演示了如何构建一个ML.NET模型来预测纽约市出租车票价。本样本采用回归模型,考虑了乘客数量、信用类型和旅行距离等特征。

  • 虹膜数据集聚类分析(聚类)

这个示例演示了如何通过对Iris数据集执行集群分析,从而使用ML.NET构建集群模型。

  • GitHub问题分类(多类分类)

这是一个E2E示例,展示了如何使用ML.NET构建GitHub的问题分类器。

这篇博文只介绍了一些ML.NET 0.2版本的顶级声明,在这里可以找到ML.NET 0.2的完整版本说明(https://github.com/GalOshri/machinelearning/blob/f026db2cdba1858b0e8bea2ddf2a4092a61bd708/docs/release-notes/0.2/release-0.2.md)。

帮助建立ML.NET以满足您的需求

如果你还没有使用过机器学习,请试试ML.NET。

https://github.com/dotnet/machinelearning

原文发布于微信公众号 - 程序你好(codinghello)

原文发表时间:2018-07-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

深度学习项目

Github上比较受欢迎的深度学习项目(Top Deep Learning Projects),按照获得星星个数的排名,包括一些教程项目等。 ? ? ? ?

20860
来自专栏人工智能头条

EC2上的深度学习:CUDA 7/cuDNN/caffe/DIGITS实战教程

21140
来自专栏XAI

Java分布式神经网络库Deeplearning4j 环境搭建和运行一个例子

DeeplearningforJava简单介绍: deeplearning4j是一个Apache 2.0-licensed,开源的,分布式神经网络库编写的jav...

47280
来自专栏程序生活

斯坦福tensorflow教程(四) 贪婪执行Eager Execution

17150
来自专栏大数据智能实战

DrQA实践

2017年七月份Facebook开源了其开放域问答系统DrQA的代码。关于DrQA,还有一篇2017年发表在ACL上的论文《Reading Wikipedi...

33150
来自专栏YoungGy

ML基石_9_LinearRegression

linear regression problem linear regression algorithm 优化问题 求梯度 算法 generalization...

25360
来自专栏新智元

【代码+教程】重现“世界模型”实验,无监督方式快速训练

13120
来自专栏人工智能头条

技术 | 机器学习中Python库的3个简单实践——你的图片将由你来创造

【导读】今天为大家介绍机器学习、深度学习中一些优秀、有意思的 Python 库,以及这些库的 Code 实践教程。涉及到的理论与学术内容会附上相应的论文与博客,...

19440
来自专栏祝威廉

为Spark Deep Learning 添加NLP处理实现

前段时间研究了SDL项目,看到了Spark的宏大愿景,写了篇Spark新愿景:让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙,写了一篇TensorF...

19230
来自专栏机器之心

开源 | 深度安卓恶意软件检测系统:用卷积神经网络保护你的手机

选自GitHub 机器之心编译 参与:Panda 恶意软件可以说是我们现代生活的一大威胁,为了保护我们电子设备中的财产和资料安全,我们往往需要寻求安全软件的帮助...

30870

扫码关注云+社区

领取腾讯云代金券