首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

趣味机器学习入门小项目

没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。

因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

这个项目的目标是将现成模型应用到不同的数据集。

首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;

其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;

最后,这个练习可以帮助你掌握建模的流程。

下面我理出了一个机器学习问题处理的通用性步骤:

导入数据

数据清洗

将数据集拆成训练/测试或交叉验证集

预处理

变换

特征工程

因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。

首先介绍一下该项目中所使用到的数据源:

UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。

http://archive.ics.uci.edu/ml/

Kaggle数据集——Kaggle社区上的100多个数据集。

https://www.kaggle.com/datasets

Data.gov——由美国政府发布的开放数据集。

https://www.data.gov/

其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:

Python:sklearn——sklearn数据包官方教程

http://scikit-learn.org/stable/tutorial/

中文教程手册:

http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179

Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程

http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn

加入社群

天学网人工智能学院

培养符合企业需求的实战型AI人才

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171231B039MT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券