专栏首页机器学习算法与Python学习趣味机器学习入门小项目(附教程与数据)

趣味机器学习入门小项目(附教程与数据)

关键字全网搜索最新排名

【机器学习算法】:排名第一

【机器学习】:排名第一

【Python】:排名第三

【算法】:排名第四

没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如:

  1. 导入数据
  2. 数据清洗
  3. 将数据集拆成训练/测试或交叉验证集
  4. 预处理
  5. 变换
  6. 特征工程

因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。

首先介绍一下该项目中所使用到的数据源:

  1. UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。 http://archive.ics.uci.edu/ml/
  2. Kaggle数据集——Kaggle社区上的100多个数据集。 https://www.kaggle.com/datasets
  3. Data.gov——由美国政府发布的开放数据集。 https://www.data.gov/

其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:

  1. Python:sklearn——sklearn数据包官方教程 http://scikit-learn.org/stable/tutorial/
  2. 中文教程手册: http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179
  3. Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程 http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn

本文分享自微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 收藏!盘点最实用的数据科学Python库

    数据科学是一门研究数据并从中挖掘信息的学科。它不要求自创或学习新的算法,只需要知道怎么样研究数据并解决问题。这一过程的关键点之一就在于使用合适的库。本文概述了数...

    昱良
  • 有人对他说:如果连 Python 都学不会,你就不要学编程了

    关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前段时间,有读者在后台留言问我,「新...

    昱良
  • 经验 | 3行代码数据预处理提速6倍!

    Python是所有机器学习的首选编程语言。它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了......

    昱良
  • 迷失在数据堆里的中国企业

    随着信息技术的发展,大数据出镜率越来越高,几乎遍地开花,而且现在的数据不特指传统的阿拉伯数字,而是囊括了人类生活的各个方面,文字、视频、图片、私密日记、就医记录...

    机器学习AI算法工程
  • 小甲鱼《零基础学习Python》课后笔记(二):用Python设计第一个游戏

    BIF(Built-in Functions)是Python的内置函数,为了方便程序员快速编写脚本程序。

    小火柴棒
  • Google 科学家最新整理,给新手的十篇最佳数据科学文章

    作为数据科学的初学者,一些好的文章能够快速带我们入门这一充满了未知和挑战的领域。近日,google 决策智库的主管 Cassie Kozyrkov 整理了十篇给...

    AI研习社
  • 【学习】如何进行大数据的入门级学习?

    大数据是眼下非常时髦的技术名词,自然也催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。   这群人被称做数据科学家(Data Scie...

    小莹莹
  • Python 是不是有点膨胀啊,甚至想和 Java 刚一把

    TIOBE 编程语言排行榜 6 月更新已发布,排名前十的分别是:Java, C, Python, C++, Visual Basic .NET, C#, Jav...

    昱良
  • 给有抱负的数据科学家的六条建议

    图片来源: https://www.maxpixel.net/Art-Colourful-Gears-Creativity-Cogs-Colorful-1866...

    AI研习社
  • 数据科学家:为什么我要离职…

    作者 Jonny Brooks-Bartlett 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 观看更多国外公开课,点击"阅读原文" 我是...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券