如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习,现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。
现阶段的写作计划会对各类机器学习算法做一系列的原理概述及实践,主要包括无监督聚类、异常检测、半监督算法、强化学习、集成学习等。
监督学习指的是训练样本包含标记信息的学习任务,例如:常见的分类与回归算法;无监督学习则是训练样本不包含标记信息的学习任务,例如:聚类算法。在实际生活中,常常会出现一部分样本有标记 (labeled) 和较多(通常认为远多于)样本无标记 (unlabeled) 的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。
半监督学习(SSL)是一种机器学习技术,其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是要比单独使用有标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分,对这个机器学习的重要子领域进行了简要的介绍。
作者丨Lilian Weng 编译丨丛末 编辑丨陈彩娴 现实应用中,数据易得,而有标签的数据少有。 一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法: 1.预训练+微调:首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练(例如通过自监督学习在自由文本上对语言模型进行预训练,或者在无标签图像上对视觉模型进行预训练),之后再使用一小组标签样本在下游任务上对该模型进行微调。 2.半监督学习:同时从标签样本和无标签样本中学习,研究者使用该方法在视觉任务上进行了大量研究。
机器之心分析师网络 作者:仵冀颖 编辑:Joni 本文通过四篇相关论文对自监督学习中的对比学习(Contrastive Learning)进行了深入的探讨。 自监督学习意思是使用非人工标记数据进行学习。在机器学习中,比较著名的自监督方法就是自然语言处理中的 word2vec。由此可见,与无监督学习不同,自监督中仍然存在标记,只不过,这些标记不是人类参与生成的,而是从输入数据中生成的,通常可以使用启发式算法生成标记。 而在机器视觉领域,自监督学习主要有两类方法,生成类方法(Generative)和区别类方法
监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。 非监督学习:直接对输入数据集进行建模,例如聚类。
无监督学习和其他两种学习方法的主要区别在于无监督学习不需要提前知道标签数据集的类别标签。无监督学习算法使用场景通常为聚类和降维,如使用k-means聚类、系统聚类、密度聚类等算法进行数据聚类,使用主成分分析、流形降维等算法减少数据的特征数量。
几乎所有的机器学习算法都归结为求解最优化问题。有监督学习算法在训练时通过优化一个目标函数而得到模型,然后用模型进行预测。无监督学习算法通常通过优化一个目标函数完成数据降维或聚类。强化学习算法在训练时通过最大化奖励值得到策略函数,然后用策略函数确定每种状态下要执行的动作。多任务学习、半监督学习的核心步骤之一也是构造目标函数。一旦目标函数确定,剩下的是求解最优化问题,这在数学上通常有成熟的解决方案。因此目标函数的构造是机器学习中的中心任务。
深度神经网络已被证明在对大量标记数据进行监督学习的训练中是非常有效的。但是大多数现实世界的数据并没有被标记,并且进行全部标记也是不太现实的(需要大量的资源、时间和精力)。为了解决这个问题半监督学习 ( semi-supervised learning) 具有巨大实用价值。SSL 是监督学习和无监督学习的结合,它使用一小部分标记示例和大量未标记数据,模型必须从中学习并对新示例进行预测。基本过程涉及使用现有的标记数据来标记剩余的未标记数据,从而有效地帮助增加训练数据。图 1 显示了 SSL 的一般过程。
为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要能仅用少量监督或无监督的学习方法来学习有用的表征。尽管在数据上学习到的表征的有用性显然很大程度上取决于其所针对的最终任务,但仍可想见有些表征的性质可同时用于很多真实世界任务。在一篇有关表征学习的开创性论文中,Bengio et al. [1] 提出了这样一组元先验(meta-prior)。这些元先验来自对世界的一般性假设,比如解释性元素的层次化组织形式或解离性(disentanglement)、半监督学习的可能性、数据在低维流形上的汇集、可聚类性、时间和空间一致性。
我们生活在这样一个世界:无论好坏,我们总是被深度学习算法所包围。从社交网络过滤到自动驾驶汽车,再到电影推荐,金融欺诈检测,药物发现……深度学习影响着我们的生活和决策。
本文面向的是入门到中级的数据科学家,或对利用机器学习算法来解决问题感兴趣的数据分析师。 面对各种各样的机器学习算法——“我应该用哪一个?”,是一名初学者经常遇到的问题。问题的答案,取决于许多因素,包括
在我们查看机器学习方法的各种细节之前,先了解什么是机器学习,什么不是。机器学习通常被归类为人工智能的一个子领域,但是我发现分类往往会首先产生误导。机器学习的研究肯定来自于这一背景下的研究,但在机器学习方法的数据科学应用中,将机器学习视为构建数据模型的手段更有帮助。
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 机器学习是什么 机器学习是什么?实际上,即使是研究机器学习的专业人士(如Hinton,Bengio,LeCun,Andrew Ng等)在定义这个问题时也会有不同认知,目前还不存在一个被广泛认可的定义,为此,我想借助斯坦福大学的Machine learning课程中的一些案例来说明这个问题。 先看一下机器学习在学术上定义的发展历程,Arthur Samuel是这样定义的: 在进行特定编程
1、 业务场景说明: 2、 从业务映射到机器学习: 3、 友商应用资料: 4、 LPA方法原理:[1][3] 5、 特征过滤的解决方案:[4] 6、 R语言试验 7、 总结(仅个人观点,欢迎指出错误): 附录: 一、常见的半监督学习大类:[2] 二、参考文献: 三、代码 1、 业务场景说明: 每个业务(或项目)期初阶段会面临一个问题:标签用户太少,未标签的用户太多。如:POI项目,X亿X千万的用户中只有X万不到的用户有过报错行为。如何快速将报错行为的人群快速扩散出去就成了现实业务问题。 2、 从业务映射到
1、 业务场景说明: 2、 从业务映射到机器学习: 3、 友商应用资料: 4、 LPA方法原理:[1][3] 5、 特征过滤的解决方案:[4] 6、 R语言试验 7、 总结(仅个人观点,欢迎指出错误): 附录: 一、常见的半监督学习大类:[2] 二、参考文献: 三、代码
选自National Science Review 作者:张宇、杨强 机器之心编译 参与:Panda 多任务学习是一个很有前景的机器学习领域,相关的理论和实验研究成果以及应用也在不断涌现。近日,香港科技大学计算机科学与工程系的杨强教授和张宇助理教授在《国家科学评论(National Science Review)》2018 年 1 月份发布的「机器学习」专题期刊中发表了题为《An overview of multi-task learning》的概述论文,对多任务学习的现状进行了系统性的梳理和介绍。机器之心
随着人工智能技术的研究迈过了初期的野蛮生长,走进深水区。如何充分利用人工标注信息、减小标注工作量、将人类经验与学习规则充分结合成为了急需解决的关键问题!本文结合斯坦福 AI 实验室在弱监督学习领域的研究进展、成果以及相关思考,就弱监督学习的理论方法、标注工具、研究进展三个方面展开讨论。
近年来,机器学习对现实世界的影响与日俱增。在很大程度上,这是由于各种各样的深度学习模型的出现,使得从业人员可以在不需要任何手动操作特征工程的情况下,就可以在对比基准数据集上获得目前最佳分数。现在我们可以使用像 TensorFlow 和 PyTorch 这样的各类开源机器学习框架,以及大量可用的最先进的模型,可以说,高质量的机器学习模型现在几乎成为了一种可商品化的资源。然而,这里还存在一个容易被忽视的问题:这些模型依赖于大量手动标注的训练数据。
谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“AI综述专栏”,敬请关注。
作为一个机器学习工程师,可能平时最常打交道的就是海量数据了。这些数据只有少部分是有标注的,可以用来进行监督学习。但另外一大部分的数据是没有标注过的。
监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。
来源商业新知,原标题:干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个
人工智能中的机器学习是指让计算机通过学习数据的方式改善性能。在机器学习中,有四种主要的学习方式:监督学习、无监督学习、半监督学习和强化学习。本文将详细介绍这四种学习方式的概念、应用和优缺点。
半监督学习的核心挑战之一是有效地利用未标记数据,提高模型的泛化性能。在深度学习领域,有一些令人振奋的前沿研究方向,为解决这一问题提供了新的思路。
原文标题:Graph Interpolating Activation Improves Both Natural and Robust Accuracies in Data-Efficient Deep Learning
随着科技的不断发展,人工智能(Artificial Intelligence,简称AI)已经成为当下热门的话题。AI的核心技术之一就是机器学习(Machine Learning)。机器学习是一种基于数据的自动化算法,它能够让计算机自动识别和学习规律,并应用于实际问题中。机器学习技术的应用范围非常广泛,包括自然语言处理、图像识别、自动驾驶等领域。
博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/IEEE会员。《品味大数据》一书作者。主要研究方向为大数据、人工智能、技术哲学。发表学术论文20余篇,国内外学术作品7部。阿里云云栖社区专栏作家,博文累计阅读逾百万次。
比方说,我们现在有一个公开数据集,它全部都是有标注的。此时我们可以使用有监督的学习来看一下结果,再使用10%的有标注的数据集结合剩下90%的未标注的数据来使用半监督学习的方法,我们希望半监督学习的方法也能达到有监督学习的水平。
在前一个小节中,简单地谈了谈什么是“M-P神经元模型”,顺便用生活中生动的小案例,把激活函数和卷积函数的概念撸了一遍。下笔之处,尽显“神经”。当然这里所谓的“神经”,是说我们把不同领域的知识,以天马行空地方式,揉和在一起,协同提升认知水平。其实,这不也正是深度学习的前沿方向之一——“迁移学习(Multi-Task and Transfer Learning)”要干的事情吗?
为什么在一些安全场景下使用半监督学习呢?大多数安全场景对应的安全数据都比较少,包括黑样本和白样本,样本数据的缺失直接限制了机器学习技术的应用,这是目前机器学习应用于安全实践中的难题之一。是解决问题还是规避问题呢?这个可以从有监督/无监督/半监督学习的角度来由果推因。如果想采用有监督学习的方法,那么需要大量攻击样本的和正常业务样本的积累,而现实的情况大多数可能是仅有少量攻击样本的积累,这就需要去解决样本数据的问题。
【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一) 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
约6千字,主要内容为机器学习的几大分类及其基本内涵,后续我会补充关于AI的应用场景、相关技术领域(如计算机视觉、自然语言处理等)的总结。由于目前正在学习,比较严谨的部分我都用摘抄的形式并注明了来源。
对于机器学习工程师来说,访问大量数据十分重要,但有标记的数据很有限。处于此困境的人可能会查阅文献,思考下一步该做什么,而文献似乎都会给出一个现成的答案:半监督学习。
本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现,网络的规模越大,需要的标签数据越少。
相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)?
半监督、自监督学习已经成为机器学习领域的热点,过去的2019年可能是它们走向成熟开始应用的分界点。
机器之心专栏 作者:达摩院 本文介绍机器学习顶级国际会议 ICML 2021 接收的 long talk (top 3.02%) 论文 “Dash: Semi-Supervised Learning with Dynamic Thresholding”。 一、研究背景 监督学习(Supervised Learning) 我们知道模型训练的目的其实是学习一个预测函数,在数学上,这可以刻画成一个学习从数据 (X) 到标注 (y) 的映射函数。监督学习就是一种最常用的模型训练方法,其效果的提升依赖于大量的且进行
---- 新智元报道 作者:王一栋、王晋东 编辑:QQ 【新智元导读】微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的科研人员提出了 Unified SSL Benchmark(USB):第一个将视觉、语言和音频分类任务进行统一的半监督分类学习基准。 当前,半监督学习的发展如火如荼。但是现有的半监督学习基准大多局限于计算机视觉分类任务,排除了对自然语言处理、音频处理等分类任务的一致和多样化评估。此外,大部分半监督论文由大型机构发表,学术界的实验室往
事实证明,半监督学习可以很好地利用无标注数据,从而减轻对大型标注数据集的依赖。而谷歌的一项研究将当前主流的半监督学习方法统一起来,得到了一种新算法 MixMatch。该算法可以为数据增强得到的无标注样本估计(guess)低熵标签,并利用 MixUp 来混合标注和无标注数据。实验表明,MixMatch 在许多数据集和标注数据上获得了 STOA 结果,展现出巨大优势。例如,在具有 250 个标签的 CIFAR-10 数据集上,MixMatch 将错误率降低了 71%(从 38% 降至 11%),在 STL-10 上错误率也降低了 2 倍。对于差分隐私 (differential privacy),MixMatch 可以在准确率与隐私间实现更好的权衡。最后,研究者通过模型简化测试对 MixMatch 进行了分析,以确定哪些组件对该算法的成功最为重要。
利用计算机的运算能力,从大量的数据中发现一个 “函数”或“模型” ,并通过它来模拟现实世界事物间的关系,从而实现预测、判断等目的。建模的过程就是机器“学习”过程。
机器学习是人工智能的一个分支,包括从数据中自动创建模型的算法。从高层次上讲,机器学习有四种:监督学习、无监督学习、强化学习和主动机器学习。由于强化学习和主动机器学习相对较新,因此此类列表有时会省略它们。由于强化学习和主动机器学习相对较新,因此此类列表有时会省略它们。你也可以把半监督学习添加到列表中,也不算错。
摘要:本篇从理论到实践详解了使用半监督和自监督学习框架解决文本分类中的样本不均衡问题。首先,讲了下为啥要用半监督和自监督学习框架;然后,结合论文从理论到实验结果重点介绍了半监督和自监督框架下的不均衡学习;最后将半监督和自监督学习框架应用到我们实际的文本分类任务中并取得了不错的效果提升。对于希望通过半监督和自监督方式解决样本不均衡问题的小伙伴可能有所帮助。
ICML 2020投稿中,周志华教授组发表的一篇有关深度半监督学习的论文引发热议。
在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出
根据训练期间接受的监督数量和监督类型,可以将机器学习分为以下四种类型:监督学习、非监督学习、半监督学习和强化学习。
领取专属 10元无门槛券
手把手带您无忧上云