此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对响应变量建模的方法,并且这些预测变量高度相关或甚至共线。两种方法都将新的预测变量(称为组件)构建为原始预测变量的线性组合,但它们以不同的方式构造这些组件。PCR创建组件来解释预测变量中观察到的变异性,而根本不考虑响应变量。另一方面,PLSR确实将响应变量考虑在内,因此通常会导致模型能够使用更少的组件来适应响应变量。
本帖是与来自于Origami Logic 的Manish Amd共同撰写的。
在做决定时,人们倾向于选择看了更多的选项。注意力如何影响选择过程呢?乘法模型认为注视放大了被关注选项的主观价值;加法模型认为注视增加了一种恒定的、与价值无关的偏见。本研究使用来自多个实验室的6项实验数据验证了两种模型的拟和度。该文由俄亥俄州立大学的研究者完成,发表在期刊Psychological Science上。
数据清理/探索性数据分析阶段的主要问题之一是处理缺失值。缺失值表示未在观察值中作为变量存储的数据值。这个问题在几乎所有研究中都是常见的,并且可能对可从数据得出的结论产生重大影响。
线程是程序运行的基本执行单元。当操作系统(不包括单线程的操作系统,如微软早期的DOS)在执行一个程序时,会在系统中建立一个进程,而在这个进程中,必须至少建立一个线程(这个线程被称为主线程)来作为这个程序运行的入口点。因此,在操作系统中运行的任何程序都至少有一个主线程。
选自arXiv 机器之心编译 参与:路雪、李泽南、蒋思源 神经机器翻译近期取得很大成功,但缺乏双语数据的语言对很难基于现有方式训练出好的机翻系统。近日,有研究者提出一种无监督新方法,无需使用平行语料库
2017年,南京大学机器学习与数据挖掘研究所(简称LAMDA 团队)的周志华教授与他的团队,提出了“深度森林”(Deep forest):一种基于树的方法,拓展了深度学习的体系。
多少个评分卡? 标准是什么? 最佳做法是什么? - 是我们试图在评分卡开发早期回答的常见问题,从识别和证明评分卡数量的过程开始 - 称为分割。
选自arXiv 作者:Mateusz Buda等 参与:Nurhachu Null、刘晓坤 该论文的作者以两种典型的不均衡为例,系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法,在三个常用
在这篇文章中,我将讨论两个关于迁移学习的应用:NLP(自然语言处理)和CV(计算机视觉)。并且我会分别在这两个领域提供一个范例。 NLP 现在很多NLP管道都在使用词嵌入(word embedding)。与独热编码相比,这些单词的嵌入是一种更丰富的表示单词的方式。它们被广泛使用,并且存在着不同的变体。通常,这些变体在其起源的语料库中有所不同,例如维基百科、新闻文章等,以及嵌入的模型也有所不同。了解这些模型和语料库的背景知识是很重要的,从而可以了解是否使用词嵌入学习是明智的。人们通常不会使用“嵌入式”迁移学习
评估SNP遗传力有两种方法LDSC和GREML, 本文介绍下GREML评估遗传力的方法。在GCTA软件中,其核心就是如下所示的线性混合模型
作者 | BBuf 单位 | 北京鼎汉技术有限公司 算法工程师(CV) 编辑 | 唐里
在一个典型的对象检测管道中,网络会在中间层输出很多候选框proposals(Bounding Box-BB)。在这个阶段输出的BB大多数都会关联同一个检测对象,这个时候需要一个方法来合并这些BB成为一个对象检测框,除了FP之外。Non-maximum-suppression(NMS)通过空间距离结合并交比(IOU)完成聚类划分,对每个cluster只保留得分最高的BB,这种方法中文也被称着-非最大抑制。
在大多数监督性机器学习问题中,我们需要定义一个模型并基于训练数据集预估其参数。计算这些参数的广泛且容易使用的一个技术是通过梯度下降来最小化模型的误差。梯度下降通过在每个步骤最小化成本函数来在许多迭代中估计模型的权重。
机器学习是当前比较热门的领域,作为人工智能(AI)的一个分支,它基本上是一种算法或模型,可以通过“学习”来改善自身,因此变得越来越精通执行其任务。机器学习的应用正在迅速发展,已迅速成为医学,电子商务,银行等不同领域不可或缺的一部分。今天,我们将把机器学习分解为一个过程,并了解从开始到实现的所有步骤,以及其实际应用。
在第一篇中,我们讨论了回归中使用的一些重要指标、它们的优缺点以及用例。这一部分将集中讨论分类中常用的度量,以及在具体的背景中应该选择哪种。
或许这也是一种方法论:当针对一个问题有多种方法时,不妨将它们综合起来,或能取各家之长,补各家之短。
AI科技评论按:由深圳气象局与阿里巴巴联合承办的CIKM AnalytiCup 2017第一赛季已经宣告结束。本次比赛的目标是利用雷达数据(多普勒雷达回波外推数据),来建立一个准确的降水预报模型。 这次比赛吸引了1395支队伍参赛,排行榜也已在阿里天池平台进行公示。 在这次比赛中,来自中国科学院的怀北村明远湖队(队员Zhang Rui, Qiao Fengchun, Guo Ran)在GitHub上分享了自己的代码和方法,他们在第一阶段获得第三名,第二阶段获得第四名。AI科技评论将他们发布的内容进行了整理,
领取专属 10元无门槛券
手把手带您无忧上云