首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2138
文章
1932192
阅读量
188
订阅数
生成式模型与辨别式模型
来源:DeepHub IMBA 本文约1800字,建议阅读5分钟 本文解释了这两种模型类型之间的区别,并讨论了每种方法的优缺点。 分类模型可以分为两大类:生成式模型与辨别式模型。本文解释了这两种模型类型之间的区别,并讨论了每种方法的优缺点。 辨别式模型 辨别式模型是一种能够学习输入数据和输出标签之间关系的模型,它通过学习输入数据的特征来预测输出标签。在分类问题中,我们的目标是将每个输入向量x分配给标签y。判别模型试图直接学习将输入向量映射到标签的函数f(x)。这些模型可以进一步分为两个子类型: 分类器试图
数据派THU
2023-05-11
2320
神经网络的可解释性综述!
来源:机器学习算法那些事、图灵人工智能 本文约2400字,建议阅读5分钟 本文浅谈神经网络的可解释性。 本文以 A Survey on Neural Network Interpretability 读后感为主,加上自身的补充,浅谈神经网络的可解释性。 本文按照以下的章节进行组织: 人工智能可解释性的背景意义 神经网络可解释性的分类 总结 1、人工智能可解释性的背景意义 1.1 什么是可解释性 Interpretability (of a DNN) is the ability to provide ex
数据派THU
2023-03-29
4490
清华大学周伯文教授:从原则到实践解读多模态人工智能进展与可信赖AI
来源:机器之心  本文为约5102字,建议阅读10分钟本文介绍了清华大学惠妍讲席教授、IEEE/CAAI Fellow、衔远科技创始人周伯文发表主题演讲《多模态人工智能进展与可信赖 AI:从原则到实践》。 以人为中心的 AI 才是真正有活力的 AI。 在 WAIC 2022 AI 开发者论坛上,清华大学惠妍讲席教授、IEEE/CAAI Fellow、衔远科技创始人周伯文发表主题演讲《多模态人工智能进展与可信赖 AI:从原则到实践》。 在演讲中,他主要介绍了多模态 AI 近期的突破以及可信 AI 的挑战。目
数据派THU
2022-09-20
5520
利用随机森林评估特征重要性原理与应用
来源:机器学习研习院本文约2000字,建议阅读8分钟本文对随机森林如何用在特征选择上做一个简单的介绍。 随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 一、随机森林RF简介 只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括: 用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集。 用抽样得到的
数据派THU
2022-09-14
1.6K0
为什么基于树的模型在表格数据上仍然优于深度学习
来源:Deephub Imba本文约2800字,建议阅读5分钟本文介绍了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。 在这篇文章中,我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。 论文的注意事
数据派THU
2022-09-14
3770
因果森林总结:基于树模型的异质因果效应估计
来源: PaperWeekly 本文约1700字,建议阅读5分钟本文中各类 forest-based methods 主要从 split 和 predict 两个角度展开,忽略渐进高斯性等理论推导。 1. Random Forest 传统随机森林由多棵决策树构成,每棵决策树在第 i 次 split 的时候,分裂准则如下(这里关注回归树): 其中  表示在  的划分情况下, 所在的叶子结点。随机森林构建完成后,给定测试数据 ,预测值为: 2. Causal Forest 类似地,因果森林由多棵因果
数据派THU
2022-09-07
2.3K0
原创 | 决策树在金融领域的应用(附链接)
作者:王佳鑫审校:陈之炎 本文约4800字,建议阅读15分钟本文带你了解决策树是如何工作的。 决策树的基础概念 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。我们来简单了解一下决策树是如何工作的。 决策树算法的本质是一种图结构,只需要问一系列问题就可以对数
数据派THU
2022-09-02
8820
7个步骤详解AdaBoost 算法原理和构建流程(附代码)
来源:DeepHub IMBA本文约6000字,建议阅读10+分钟本文以简单的数据集为例,为你讲解AdaBoost算法的工作原理。 AdaBoost 是集成学习中的一个常见的算法,它模仿“群体智慧”的原理:将单独表现不佳的模型组合起来可以形成一个强大的模型。 麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查,人们往往很难识别假新闻。但是根据不同人的经验,通常可以给出一个对于新闻真假程度的个人见解,这通常比随机猜测要好。如果我们想知道一个标题
数据派THU
2022-08-29
6090
数据统计分析的16个基础概念
来源:EasyShu本文约11000字,建议阅读20分钟本文介绍了数据统计分析的16个基本概念。 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布? 离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来
数据派THU
2022-08-29
5870
机器学习 | 基础图表
来源:机器之心本文约3300字,建议阅读5分钟本文介绍了机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。 一、机器学习概览 1. 什么是机器学习? 机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习和人工智能的关系 机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。 3. 机器
数据派THU
2022-07-27
2280
吴恩达:机器学习的六个核心算法
来源:AI科技评论本文约7100字,建议阅读13分钟本文总结了机器学习领域多个基础算法的历史溯源。 最近,吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。 文章开头,吴恩达回忆他的研究历程中曾有一次抉择: 多年前,在一次项目中,选择算法时,他不得不在神经网络与决策树学习算法之间做选择。考虑到计算预算,他最终选择了神经网络,在很长的一段时间内弃用增强决策树。 这是一个错误的决定,「幸好我的团队很快修改了我的选择,项目才成功。」吴恩达谈道。 他由此
数据派THU
2022-06-20
2370
基于梯度提升(Boosting )的回归树简介
来源:DeepHub IMBA本文约500字,建议阅读5分钟Boosting 是一种松散的策略,它将多个简单模型组合成一个复合模型。 Boosting 是一种松散的策略,它将多个简单模型组合成一个复合模型。这个想法的理论来自于随着我们引入更多的简单模型,整个模型会变得越来越强大。在 boosting 中,简单模型称为弱模型或弱学习器。在回归的背景下,第一个简单模型只是一个常数,而随后的简单模型是“回归树”。 什么是回归树呢?它是用于回归的决策树!最简单通俗的解释就是决策树是一些if语句组成的树型结构,这
数据派THU
2022-05-16
2390
图解十大机器学习算法
来源:图灵人工智能、凹凸数据本文约3600字,建议阅读7分钟本文利用图解的方式介绍了10大常见的机器学习算法。 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你的问题相切合,其中的门道便
数据派THU
2022-04-18
4380
独家 | 决策树VS随机森林——应该使用哪种算法?(附代码&链接)
本文以银行贷款数据为案例,对是否批准顾客贷款申请的决策过程进行了算法构建,并对比了决策树与随机森林两种机器学习算法之间的异同及各自的优劣。
数据派THU
2020-06-15
1.7K0
独家 | 手把手教你推导决策树算法
决策树是最重要的机器学习算法之一,其可被用于分类和回归问题。本文中,我们将介绍分类部分。
数据派THU
2020-06-12
6150
独家 | 在时间关系数据上AutoML:一个新的前沿
现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。
数据派THU
2019-11-26
8320
独家 | 手把手教你做数据挖掘 !(附教程&数据源)
最近笔者学到了一个新词,叫做“认知折叠”。就是将复杂的事物包装成最简单的样子,让大家不用关心里面的细节就能方便使用。作为数据科学领域从业者,我们所做的事情就是用数学模型来解决实际的商业决策问题,最后包装成客户能看懂的简单图表。
数据派THU
2019-11-08
1.8K0
独家 | 使用Python了解分类决策树(附代码)
本教程介绍了用于分类的决策树,即分类树,包括分类树的结构,分类树如何进行预测,使用scikit-learn构造分类树,以及超参数的调整。
数据派THU
2019-10-10
2.5K0
独家 | 手把手教随机森林
本文是数据派研究部“集成学习月”的第三篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 随机森林-概述 当变量的数量非常庞大时,你将采取什么方法来处理数据? 通常情况下,当问题非常庞杂时,我们需要一群专家而不是一个专家来解决问题。例如Linux,它是一个非常复杂的系统,因此需要成百上千的专家来搭建。 以此类推,我们能否将许多专家的决策力,并结合其在专业领域的专业知识,应用于数据科学呢?现在有一种称为“随机森林”的技术,它就是使用集体决策来改善单一决策产
数据派THU
2018-01-30
7740
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档