选自TensorFlow.org 机器之心编译 参与:蒋思源、黄小天 自 TensorFlow 1.0 发布以来,越来越多的机器学习研究者和爱好者加入到这一阵营中,而 TensorFlow 近日官方又发表了该基准。因此本文通过将一系列的图像分类模型放在多个平台上测试,希望得出一些重要结果并为 TensorFlow 社区提供可信的参考。不仅如此,同时在本文最后一节中还将给出测试进行的细节和所使用脚本的链接。 图像分类模型的测试结果 InceptionV3、ResNet-50、ResNet-152、VGG16
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍如何判断机器学习的性能,train_test_split方法。
基于一些已知样本,根据其变量(是否出现胸痛、是否有良好的血液循环、是否有闭锁的动脉、体重指标),预测其是否患有心脏病(左侧)。接着,出现一个新来的患者,我们可以测量或询问这些变量,然后基于这些变量预测其是否患有心脏病(右侧)。
在深度学习领域,有一个名词正在被越来越多地关注:迁移学习。它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,因其能够大量节约新模型开发的成本,在实际应用中被更广泛地关注。EasyDL 专业版在最新上线的版本中,就引入了百度超大规模视觉预训练模型,结合迁移学习工具,帮助开发者使用少量数据,快速定制高精度 AI 模型。
Tensorflow Object Detection API自从发布以来,其提供预训练模型也是不断更新发布,功能越来越强大,对常见的物体几乎都可以做到实时准确的检测,对应用场景相对简单的视频分析与对象检测提供了极大的方便与更多的技术方案选择。tensorflow object detection提供的预训练模型都是基于以下三个数据集训练生成,它们是:
论文名称:Improved Robust ASR for Social Robots in Public Spaces
对模型进行训练后,测试集测试的结果与真实值之间的占比称为准确率,准确率往往是评估网络的一个重要指标。而用同一数据集训练神经网络,每次训练得到的准确率结果却不一样并且准确率都较低,最高仅67%,那如何才能提高训练后的准确率呢?
4 月 23 日,在 WAVE SUMMIT 2019 深度学习开发者峰会上,基于百度深度学习平台 PaddlePaddle 和百度视觉团队的应用打磨,业界首个视频识别工具集正式开源。
在机器学习中,我们训练了一个模型,可能会发现这个模型得到的数据与实际数据偏差太大。这时,通常我们会在如下办法中选择去优化我们的算法。
②加载人脸数据并进行处理,并将其划分为训练集和测试集。每个人的图像按顺序排列,训练集包含每个人前6张图像,测试集包含剩余的图像。每个图像都被转换为像素值列表,并与相应的标签一起存储。
机器学习中,模型的拟合效果意味着对新数据的预测能力的强弱(泛化能力)。而程序员评价模型拟合效果时,常说“过拟合”及“欠拟合”,那究竟什么是过/欠拟合呢?什么指标可以判断拟合效果?以及如何优化?
论文地址: https://arxiv.org/pdf/1811.07073.pdf
本文为康奈尔大学李正奇为AI科技评论所撰写的 CVPR 2018 录用论文解读稿件。
特别是,今年大家都在努力卷大模型:最近国内外科技巨头、创业公司都在轮番推出大模型,发布会一开,个个都是重大突破,每一家都是刷新了重要 Benchmark 榜单,要么排第一,要么第一梯队。
最近在学习机器学习的一些相关的算法,在学习过程中新接触到了大量的概念和原理。为了更好地提高学习的效果,于是就把在学习的过程中接触到的新概念和遇到的问题通通写进我的博客,作为学习笔记,以提供给自己和其他朋友进行查阅和参考。
随着最新的 Pythorc1.3 版本的发布,下一代完全重写了它以前的目标检测框架,新的目标检测框架被称为 Detectron2。本教程将通过使用自定义 COCO 数据集训练实例分割模型,帮助你开始使用此框架。如果你不知道如何创建 COCO 数据集,请阅读我之前的文章——如何创建自定义 COCO 数据集用于实例分割(https://www.dlology.com/blog/how-to-create-custom-coco-data-set-for-instance-segmentation/)。
构建有效的ML系统意味着提出了很多问题。仅训练模型是不够的。相反,优秀的从业者像侦探一样,探索并更好地理解他们的模型:数据点的变化将如何影响我的模型的预测?它对不同的群体有不同的表现,例如,历史上被边缘化的人群?我正在测试我的模型的数据集多样化如何?
今天我们一起来学习一下如何用Python来实现XGBoost分类,这个是一个监督学习的过程,首先我们需要导入两个Python库:
伪标签技术现在几乎在所有的Kaggle数据竞赛中都会被提到或者使用到,而且很多情况下都可以帮助选手拿到更好的分数,伪标签技术作为一种半监督的方法,其实在很久之前就已经被提出来使用了,那么为什么伪标签技术究竟是怎么做的呢?为什么有效呢?什么时候有效,什么时候可能无效?阅读本文,帮你更好地理解这种神奇的操作。
当我们根据数据训练出一个机器学习模型时,我们希望它在新的数据上也保持较高的准备率,这就需要我们对学习到的不同模型有一个模型评估准则。
在上一篇文章《使用数据增强技术提升模型泛化能力》中,我们针对训练数据不足的问题,提出采用数据增强(data augmentation)技术,提升模型的准确率。最终结果是:在17flowers数据集上,我们将准确率从60%多增加到70%,取得了不错的效果。然而,对于一个商业应用来说,70%多的准确率还是有些拿不出手。我们还有更好的手段吗?
卷积神经网络(Convolutional Neural Network,CNN)和全连接神经网络(Fully Connected Neural Network,FCN)都是深度学习领域中常见的神经网络模型。下面是二者的比较。
构建有效的机器学习系统意味着要问许多问题。仅仅训练一个模型放在那儿是不够的。优秀的从业者就像侦探一样,总是试图更好地理解自己的模型:对数据点的改动对模型的预测能力有何影响?对于不同的群体——如历史上被边缘化的人群——模型的表现是否不同?用于测试模型的数据集的多样化程度如何?
来自卡耐基梅隆大学 (CMU) 的四个科学家,在一篇论文里说,他们带着一群机器人去住Airbnb了。
论文题目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks
使用偏移(bias)和 变化幅度(variance )作为估量model好坏的参数。
介绍 2 个非常接地气的 Github 开源项目,都是基于 TensorFlow 框架开发的,通过练习这些项目,能很快提升使用 TF 的能力,同时加深理解常用的神经网络结构。
机器学习过程中,评估候选模型并从中选择模型的过程叫做模型选择。模型选择的对象不仅是不同的模型也可以是有着不同超参数的同一模型。
数据集的大小基本上可以确定您选择的机器学习模型。对于较小的数据集,经典的统计机器学习模型(例如回归,支持向量机,K近邻和决策树)更加合适。相比之下,神经网络需要大量数据,并且只有当您拥有成千上万个或者更多的训练数据条目时,神经网络才开始变得可行。通过 bagging , boosting 以及 stacking 等方法,经典统计模型可以进一步改进其性能。现有许多封装好的 Python 库可以调用实现以上模型功能,其中最著名的可能是 scikit-learn 。对于较大的数据集,神经网络和深度学习方法更为常用。在学术界中, PyTorch 以及 TensorFlow 通常用于实现这些架构。 特征工程对于较小的数据集非常重要。如果通过精心设计其特征,则可以大大提高模型的性能 。将化学成分转换成可用于机器学习研究的可用输入特征的常用方法是基于成分的特征向量(Composition-based Feature Vectors, CBFVs),例如 Jarvis , Mapie , Mat2Vec , Oliynyk 。这一系列的CBFVs包含了通过实验得出的值,通过高通量计算来得到的值,或者使用机器学习技术从材料科学文献中提取的值。除了使用CBFVs来进行特征化数据,您还可以尝试对元素进行简单的 one-hot 编码。这些CBFV特征化方案以及特征化化学成分都包含在GitHub项目中。 对于足够大的数据集和更有学习能力的架构,例如深度全连接网络 或者新兴的注意力机制架构(比如CrabNet),与简单的 one-hot 编码相比,特征工程和输入数据中领域知识的集成(例如CBFVs的使用)可能会变得无关紧要,并且不会为更好的模型性能做出贡献 。因此,由于需要整理和评估针对您的研究的领域知识功能,您可能会发现寻找其他的数据源,采用已经建立好的特征模式,或者使用不需要领域知识的学习方法会更有益。
机器之心专栏 作者:西安大略大学、纽约大学、字节跳动 来自西安大略大学、纽约大学和字节跳动的研究者回答了一个重要的问题,即如何从带有噪声标签的数据集中学到可靠模型。 噪声标签(Noisy labels)随着深度学习研究的深入得到广泛的关注,因为在众多实际落地的场景模型的训练都离不开真实可靠的标签信息。由于人工标注误差(专业性不足等问题)、数据原始噪声,带噪声的数据不可避免,清洗数据的工作也是更加困难。 在有监督的图像分类问题中,经典的 cross-entropy (CE) 损失函数是最为广泛应用的函数之
目的:让机器学习效果更好,多个弱学习器组合后可以成为强学习器,聚集多个学习器的预测来提高分类准确率
内容提要:AI 换脸技术层出不穷,但一代更比一代强。最近,一个发表在 NeurIPs 2019 的 AI 换脸模型 first order motion model 火了起来,其表情迁移效果胜过同领域其它方法。最近,这项技术在 B 站引起一波新潮流……
在大模型不断取得突破的 2023,把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。
今天给大家介绍纽约大学Lu等人在2022年发表的一篇名为“Unified Deep Learning Model for Multitask Reaction Predictions with Explanation”的文章[1]。有机化学是现代多个学科领域的基石,深刻改变着我们生活的方方面面,因此近代以来科研工作者一直致力于探索开发鲁棒性更好的机器学习模型来辅助有机化学合成。
http://www.cnblogs.com/fydeblog/p/7368472.html
Tensorflow内置了许多数据集,但是实际自己应用的时候还是需要使用自己的数据集,这里TensorFlow 官网也给介绍文档,官方文档。这里对整个流程做一个总结(以手势识别的数据集为例)。
前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,常常会因为“集体智慧”使得问题被很容易解决,那么问题来了,在机器学习问题中,对于一个复杂的任务来说,能否将很多的机器学习算法组合在一起,这样计算出来的结果会不会比使用单一的算法性能更好?这样的思路就是集成学习方法。
在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。
深度学习提供了另一种解决“Wally在哪儿”(美国漫画)问题的方法。与传统的图像处理计算机视觉方法不同的是,它只使用了少量的标记出Wally位置的示例。 在我的Github repo上发布了具有评估图像和检测脚本的最终训练模型。 Github repo地址:https://github.com/tadejmagajna/HereIsWally 这篇文章描述了使用Tensorflow目标检测API来训练神经网络的过程,并使用围绕它构建的Python脚本来寻找Wally。它由以下步骤组成: 通过创建一组标记训练
选自Hackernoon 作者:Sahil Singla 机器之心编译 参与:黄小天、路雪 近日,Sahil Singla 在 Medium 上发表了一篇题为《A new kind of pooling layer for faster and sharper convergence》的文章,提出一种可实现更快更好收敛的新型池化层 sort_pool2d,表现优于最大池化层,同时解决了最大池化层无法使用来自多层激活函数信息的问题,以及反向传播只会提升最大池化的激活函数的问题。作者还给出了该池化层的代码实现。
【导读】本文是一篇入门级的概念介绍文章,主要带大家了解一下监督学习和无监督学习,理解这两类机器学习算法的不同,以及偏差和方差详细阐述。这两类方法是机器学习领域中的最主要任务,由于近年来机器学习、深度学习的火热,目前学术界在监督学习方面取得了极大的进展,在图像、语音、自然语言处理等都取得很大成果。但是自然界中大多数数据都是无标签的,因此,无监督学习在未来很广泛的基础和前景。本文我们带大家一起来了解一下监督学习和无监督学习的主要内容和用途吧。 编译 | 专知 参与 | Yingying 监督学习与无监督学习 理
今年的深度学习顶会ICLR上,新加坡国立大学尤洋教授团队的一项成果被收录为Oral论文。
基于DeepPCB这个公开数据集,总计有1500份的模板-缺陷图像数据对,总计图像3000张,对应text格式的1500个标注文本描述文件。包含PCB主要的六个类别错误,分别是:
选自arXiv 作者:Ben Sorscher等 机器之心编译 编辑:蛋酱 Scale is all you need?No. 在视觉、语言和语音在内的机器学习诸多领域中,神经标度律表明,测试误差通常随着训练数据、模型大小或计算数量而下降。这种成比例提升已经推动深度学习实现了实质性的性能增长。然而,这些仅通过缩放实现的提升在计算和能源方面带来了相当高的成本。 这种成比例的缩放是不可持续的。例如,想要误差从 3% 下降到 2% 需要的数据、计算或能量会指数级增长。此前的一些研究表明,在大型 Transform
Hierarchical intent and slot filling 多层级意图识别
training set是用来训练模型或确定模型参数的,如ANN中权值等; validation set是用来做模型选择(model selection),即做模型的最终优化及确定的,如ANN的结构;而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然,test set这并不能保证模型的正确性,他只是说相似的数据用此模型会得出相似的结果。样本少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。在应用中,一般只将数据集分成两类,即training set 和test set,大多数文章并不涉及validation set。
Bagging框架,即 Bootstrap Aggregating,是一个用于提高机器学习算法稳定性和准确性的方法。Bagging 算法通过对原始数据集进行有放回的抽样,生成多个不同的数据子集,然后分别在这些子集上训练模型。最后,通过对这些模型的预测结果进行投票(分类问题)或求平均(回归问题),得到最终的预测。Bagging 方法可以有效减少模型的方差,防止过拟合,并提高模型的泛化能力。
最近,有一份很全面的算法资源在GitHub上火了,不仅有相应的原理介绍和实现代码,还提供了Demo,目前GitHub上标星已经突破2900星。
这篇文章由Databricks的Feynman Liang和Joseph Bradley,以及Intel的Yuhao Yang撰写。 在使用LDA之前,请先 下载Spark 1.5或是 申请试用版的Databricks。 人们正在推特上讨论什么呢?为了关注分布式计算,我该阅读哪些资讯文章呢?这些问题都能够被话题模型所解答,它是分析文档集所涵盖话题类别的一种技术。本文将要讨论Spark 1.4和1.5使用强大的隐含狄利克雷分布 (Latent Dirichlet Allocation,LDA)算法对话题模型的
领取专属 10元无门槛券
手把手带您无忧上云