展开

关键词

机器学习机器学习项目流程

本文是中国大学慕课《机器学习》的“机器学习项目流程”章节的课后代码。 项目介绍: 这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。 然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估 我们在拿到一个机器学习问题之后,要做的第一件事就是制作出我们的机器学习项目清单。 下面给出了一个可供参考的机器学习项目清单,它应该适用于大多数机器学习项目,虽然确切的实现细节可能有所不同,但机器学习项目的一般结构保持相对稳定: 数据清理和格式化 探索性数据分析 特征工程和特征选择 基于性能指标比较几种机器学习模型 ,包含: 数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法 随机搜索,网格搜索,交叉验证等方法寻找最优超参数 可视化决策树 对完整的机器学习项目流程建立一个宏观的了解 代码非常完整,可以在平时的机器学习项目中拿来用

12121

机器学习机器学习的11个开源项目

机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。 在这样的背景下, InfoWorld近日公布了机器学习领域11个最受欢迎的开源项目,这11个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。 Mahout   Mahout是一个广为人知的开源 项目,它是Apache Software旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 MLlib   MLlib是Apache 自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。 Cloudera Oryx   Oryx也是由Hadoop所设计的机器学习开源项目,由Cloudera Hadoop Distribution的创造者所提供。

60990
  • 广告
    关闭

    开发者专享福利,1988元优惠券限量发放

    带你体验博客、网盘相册搭建部署、视频渲染、模型训练及语音、文字识别等热门场景。云服务器低至65元/年,GPU15元起

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    机器学习 项目流程模板

    pd.DataFrame(data=matrix, index=classes, columns =classes) print(dataframe) # 分类报告 # 精确率 计算所有被检索到的项目中应该被检索到的项目所占的比例 # 召回率 计算所有检索到的项目占所有应该检索到的想的比例 from sklearn.model_selection import train_test_split from sklearn.metrics sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 通过pickle 序列化和反序列化机器学习的模型 from pickle import dump from pickle import load # 通过joblib 序列化和反序列化机器学习的模型 from sklearn.externals.joblib 注:本文根据《机器学习 Python实践》整理总结所得

    36320

    【ML】机器学习项目清单

    笔者邀请您,先思考: 1 您如何实施和开展机器学习项目?有哪些关键点? 为了进一步完善我们的内部模型,本文将概述AurélienGéron的机器学习项目清单,参见他的畅销书“动手学习Scikit-Learn&TensorFlow”。 为了进一步完善我们的内部模型,本文将概述AurélienGéron的机器学习项目清单,如他的畅销书“动手学习Scikit-Learn&TensorFlow”所示。 在该步骤中构建的其他关键技术项包括确定用哪种类型的机器学习问题(监督,无监督等),以及采用适当的性能度量。 领域专家可在这个步骤中特别有用,可以解决那些可能对于机器学习实践着不明显的相关性问题。

    30520

    如何按时交付机器学习项目机器学习工程循环简介

    编译:yxy 出品:ATYUN订阅号 随着机器学习(ML)成为每个行业的重要组成部分,对机器学习工程师(MLE)的需求急剧增长。 MLE将机器学习技能与软件工程专业知识相结合,为给定应用程序找到高性能模型,并应对实现过程中遇到的挑战 – 从构建训练的基础架构到准备部署模型。 机器学习工程循环 在本文中,我们将描述我们对ML版本的“OODA循环”的概念:机器学习工程循环(ML Engineering Loop,MLE循环),其中ML工程师循环: 分析 选择一种方法 实现 度量 在机器学习中,某些用户组的不充分表示或错误标记导致偏差的原因之一。因此,谷歌的语音系统使用的一个解决方案是积极获取具有浓重口音用户的额外训练数据。 ? 提示 有用的性能指标包括机器学习方面的准确性和损失,以及业务价值指标(我们在前5位中推荐正确的文章的频率是多少?)请记住,后面的度量指标才是最重要的,因为它们决定了你构建的模型的有用性。

    36140

    Github 5 个机器学习项目

    本文由『专知』整理 本文整理了Github上评价最高的几个机器学习项目。 它是轻量级的,允许用户学习文本表示和句子分类器。它适用于标准的通用硬件。模型可以减小尺寸,甚至适合移动设备。文本分类是许多应用程序的核心问题,如垃圾邮件检测,情绪分析或智能回复。 [14424 stars] https://github.com/jtoy/awesome-tensorflow 它可帮助您了解和利用TensorFlow,包含精彩的TensorFlow实验,库和项目的精选列表 TensorFlow是由Google设计的端到端机器学习开源平台。它拥有全面的工具,图书馆和社区资源生态系统,可让研究人员在ML中创造最先进的技术。 11852 stars] http://predictionio.apache.org/appintegration/ Apache PredictionIO是面向开发人员,数据科学家和最终用户的开源机器学习框架

    32120

    Python; 机器学习项目实践

    机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。 预测模型项目模板 不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本文将介绍一个通用的机器学习项目模板,创建这个模板总共有六个步骤。 一个很好的实践机器学习项目的方法是,使用从 UCI机器学习仓库(http://archive.ics.uci.edu/ml/datasets.html) 获取的数据集开启一个机器学习项目机器学习项目的Python模板 下面会给出一个机器学习项目的Python模板。代码如下: # Python机器学习项目的模板 # 1. 通过这个项目,理解了上一章中介绍的机器学习项目的模板,以及整个机器学习模型建立的流程。接下来会介绍一个机器学习的二分类问题,以进一步加深对这个模板的理解。

    59450

    机器学习项目的常见误区

    在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中看到的一些机器学习项目的常见误区。 这个报告于2014年2月在Strate举办,名为《机器学习小精灵》。 机器学习的过程 在报告之前,Ben向我们展示了一个解决机器学习问题大体流程。 ? 机器学习流程,摘自Ben Hamner的《机器学习小精灵》 这个流程包括如下9步: 以一个行业问题开始 源数据 切分数据 选择一个评价标准 进行特征提取 训练模型 特征选择 模型选择 生产系统 Ben强调这个过程是迭代的过程 鉴别狗和猫,摘自Ben Hamner的《机器学习小精灵》 样本大小 这个例子的第一个卖点就是,模型学习的准确度与数据样本大小有关,并展示更多的样本与更好的准确度之间的关系。 机器学习工程中的误区 Ben接着讨论了解决机器学习问题中的4个常见误区。 虽然这些问题非常常见,但是他指出它们相对比较容易被识别及解决。 ?

    19530

    结构化机器学习项目

    只有当网络规模较小的时候,才可能出现多任务学习的结果比单任务学习的结果更差的情况。 迁移学习的使用比多任务学习要多 是否要使用端到端的深度学习 好处: 让数据说话;减少人工设计的组件 坏处: 需要大数据量的数据;没有人工设计的组件丢弃了,也就放弃了很多人类的先验知识 关键点:是否有大量的数据支持端到端的学习 如果数据不够的话,让端到端学习应用到系统中的一个组件更加有效 结构化机器学习项目举例 问题描述: To help you practice strategies for machine learning 重视与实际应用场景的结合 主要谈的是机器学习项目在实际应用中如何获得更好的表现,基本的原则就是:尽量贴合实际应用场景。首先是训练过程中教科书般的分配:训练、验证、测试集合。 结构化数据上机器实现超越人类表现的难度还是比较低的。

    23130

    推荐 | 机器学习开源项目 Top 10

    一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:机器学习领域开源项目Top 10,AI科技大本营做了简要编译。 github.com/CMU-Perceptual-Computing-Lab/openpose ▌Rank 2 TensorComprehensions:由Facebook Research提出的,一种用于表达机器学习工作负载领域的特定语言 张量生成式(简称TC)是一个多功能的C++库,利用Halide、ISL、NVRTC和LLVM框架,它能够自动合成高性能的机器学习内核。 Shapley值,可以解释任何机器学习模型的输出。 NumPy库,能够实现机器学习中的各种模型。

    23010

    Github项目推荐 | Python机器学习课程

    Machine Learning Course with Python by Machine Learning Mindset 简介 本项目的目的是提供一个全面而简单的使用Python的机器学习课程。 /machine-learning-course#id4 动机 机器学习 作为 人工智能 的工具,是最广泛采用的科学领域之一。 现在已经有大量的关于机器学习的文献。这个项目的目的是通过一个全面而简单的使用Python的机器学习教程来提供机器学习的最重要方面内容的了解学习。 在这个项目中,我们使用许多著名机器学习框架(如Scikit-learn)来构建我们的教程。 在这个项目中,你将学习到: 机器学习的定义是什么? (机器学习)从什么时候开始,它的趋势是什么? 机器学习分类和子分类是什么? 最常用的机器学习算法有哪些,以及如何实现它们? 机器学习 主题 文档 机器学习简介 Overview 机器学习基础 ?

    54840

    Python机器学习项目实践 | 赠书

    文章节选自《机器学习——Python实践》 文末评论赠送本书,欢迎留言! 机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。 图19-1 在项目中实践机器学习 端到端地解决机器学习的问题是非常重要的。 一个很好的实践机器学习项目的方法是,使用从 UCI机器学习仓库(http://archive.ics.uci.edu/ml/datasets.html) 获取的数据集开启一个机器学习项目机器学习项目的Python模板 下面会给出一个机器学习项目的Python模板。代码如下: # Python机器学习项目的模板 # 1. 通过这个项目,理解了上一章中介绍的机器学习项目的模板,以及整个机器学习模型建立的流程。接下来会介绍一个机器学习的二分类问题,以进一步加深对这个模板的理解。

    30020

    Top 50机器学习项目实战总结

    整理 | 胡永波 根据《纽约时报》的说法,“在硅谷招募机器学习工程师、数据科学家的情形,越来越像NFL选拔职业运动员,没有苛刻的训练很难上场了。” 正如职业运动员每天都要训练一样,机器学习的日常练习也是工程师生涯得以大踏步前进的基本保障。仅2017年一年,机器学习领域总结此类实战经验的文章便已超过20000篇,该领域相关职位的热度自是可见一斑。 从中,我们筛选出50篇最好的经验和心得,囊括了机器学习在15大细分领域的各项典型应用: ? 图像处理 风格迁移 图像分类 面部识别 视频稳像 目标检测 自动驾驶 推荐系统 AI游戏 AI棋手 AI医疗 AI语音 AI音乐 自然语言处理 学习预测 当然,如果你只是一个刚要准备上手机器学习的新人, 作者:Rob Speer 学习预测 47、Using Machine Learning to Predict Value of Homes On Airbnb 博客: https://medium.com

    2.8K20

    如何优雅地展示机器学习项目

    Streamlit是一个机器学习工程师专用的,专门针对机器学习和数据科学团队的应用开发框架,是目前开发自定义机器学习工具的最快的方法。 可以认为它的目标是取代Flask在机器学习项目中的地位,可以帮助机器学习工程师快速开发用户交互工具。 本文目录: 1. Streamlit是什么 2. Streamlit是一个强大的python开源工具包,可以用来快速搭建web app,以优雅地展示你的机器学习或数据科学项目。 4.3 显示交互控件 st.checkbox st.selectbox st.multiselect st.ratio st.slider 这一组工具可以用于构建机器学习模型时用户参数的选择,如下拉单选 st.text_input st.number_input st.text_area st.date_input st.file_uploader 这一组工具可用于构建机器学习模型时的不同格式的用户输入以及数据上传

    52020

    【陆勤践行】机器学习开源项目

    机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。 在这样的背景下, InfoWorld近日公布了机器学习领域11个最受欢迎的开源项目,这11个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。 Mahout Mahout是一个广为人知的开源项目,它是Apache Software旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Cloudera Oryx Oryx也是由Hadoop所设计的机器学习开源项目,由Cloudera Hadoop Distribution的创造者所提供。 Weka >Weka是使用Java开发的用户数据挖掘的开源项目。Weka作为一个公开的数据挖掘工作平台,集合了大量能够承担数据挖掘人物的机器学习算法,包括了对数据进行预处理、分类、回归、聚类等等。

    36770

    热点 | 近期Github机器学习开源项目...

    对于程序员来说,开源项目是十分有帮助的。希望你能从这篇文章中找到可以激发你灵感的有趣项目。 深大锦鲤”活动是2018年10月15日准时开奖哦~听说除了送520现金之外,在文末留言点赞第一名还可以获得200元当当购书券欸,快去留言叫小伙伴帮你点赞吧~ ▌No.1 TransmogrifAI:用于建立机器学习工作流的 该框架的开发初衷在于通过机器学习自动化技术,以及提升编译速度与可重复利用性的 API,来提高机器学习开发者的开发效率。 你可以在以下几种场景使用该框架: 在几小时内建立可投入使用的机器学习应用,无需几个月的时间 轻松创建机器学习模型,即使你不是机器学习专业的 Ph.D 建立模块化的、可重复利用的机器学习工作流 ? utm_source=mybridge&utm_medium=blog&utm_campaign=read_more ▌No.4 AIF360:用于检测并去除机器学习模型偏差的开源库 这个 AI Fairness

    53520

    Top 50机器学习项目实战总结

    整理 | 胡永波 根据《纽约时报》的说法,“在硅谷招募机器学习工程师、数据科学家的情形,越来越像NFL选拔职业运动员,没有苛刻的训练很难上场了。” 正如职业运动员每天都要训练一样,机器学习的日常练习也是工程师生涯得以大踏步前进的基本保障。仅2017年一年,机器学习领域总结此类实战经验的文章便已超过20000篇,该领域相关职位的热度自是可见一斑。 从中,我们筛选出50篇最好的经验和心得,囊括了机器学习在15大细分领域的各项典型应用: 图像处理 风格迁移 图像分类 面部识别 视频稳像 目标检测 自动驾驶 推荐系统 AI游戏 AI棋手 AI医疗 AI 语音 AI音乐 自然语言处理 学习预测 当然,如果你只是一个刚要准备上手机器学习的新人,我们推荐你优先考虑以下两个高分实战课程: A) AI游戏【推荐:5041;评分:4.7/5】 The Beginner https://blog.conceptnet.io/2017/07/13/how-to-make-a-racist-ai-without-really-trying/ 作者:Rob Speer 学习预测

    1K50

    Python&机器学习项目实践

    文章节选自《机器学习——Python实践》 文末评论赠送本书,欢迎留言! 机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。 图19-1 在项目中实践机器学习 端到端地解决机器学习的问题是非常重要的。 一个很好的实践机器学习项目的方法是,使用从 UCI机器学习仓库(http://archive.ics.uci.edu/ml/datasets.html) 获取的数据集开启一个机器学习项目机器学习项目的Python模板 下面会给出一个机器学习项目的Python模板。代码如下: # Python机器学习项目的模板 # 1. 定义问题 # a) 导入类库 # b) 导入数据集 # 2. 通过这个项目,理解了上一章中介绍的机器学习项目的模板,以及整个机器学习模型建立的流程。接下来会介绍一个机器学习的二分类问题,以进一步加深对这个模板的理解。

    52980

    项目】2017年最佳的30个机器学习项目

    本文比较了在过去的一年里8800个开源机器学习项目,并从中选取了前30个制成这份清单。它涵盖了2017年1月和12月之间发布的最佳开源机器学习库,数据集和应用程序。 开源项目对于数据科学家来也很有用。你可以通过阅读源代码进行学习并在现有项目之上构建一些东西。你可以花很多时间来鼓捣你过去一年中可能错过的机器学习项目。 在此之前我首先要推荐两个我认为比较好的机器学习课程(英文课程)。 推荐学习 A)神经网络 ? utm_source=mybridge&utm_medium=blog&utm_campaign=read_more NO10 Facets:机器学习数据集的可视化[Github上3371颗星]。 utm_source=mybridge&utm_medium=blog&utm_campaign=read_more NO24 Ml-agents:Unity机器学习智能体[Github上1658颗星]

    37140

    推荐 | 机器学习开源项目 Top 10

    编译 | AI科技大本营 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:机器学习领域开源项目Top 10,AI科技大本营做了简要编译。 ▌Rank 2 TensorComprehensions:由Facebook Research提出的,一种用于表达机器学习工作负载领域的特定语言。 [937星 on Github]。 张量生成式(简称TC)是一个多功能的C++库,利用Halide、ISL、NVRTC和LLVM框架,它能够自动合成高性能的机器学习内核。 ▌Rank 3 Shap:由Scott Lundberg开源,该项目使用期望值和Shapley值,可以解释任何机器学习模型的输出。 ▌Rank 4 NapkinML:由Erik Linder-Norén开源,该项目是浓缩版的NumPy库,能够实现机器学习中的各种模型。

    40380

    扫码关注腾讯云开发者

    领取腾讯云代金券