首页
学习
活动
专区
工具
TVP
发布

机器学习原理

专栏作者
119
文章
204049
阅读量
51
订阅数
机器学习可解释性01--shap
本文介绍shap原理,并给出一个简单的示例揭示shap值得计算过程; 然后介绍如何将shap值转化为我们更容易理解的概率。
DC童生
2022-04-02
1.6K0
《A Cancer Survival Prediction Method Based on Graph Convolutional Network》
摘要 背景 现状:多种基因组数据和临床数据尚未综合考虑癌症并预测其生存率 方法 先对各种数据进行融合,然后用GCN来训练 📷 结论 GCN在癌症生存预测方面的有效性和优越性 介绍 异质性疾病癌症具有不同的分子特征、临床行为、形态学表现和对治疗的不同反应 一些传统的机器学习模型用于预测存活 一些机器学习分类方法,如支持向量机(SVM)[16-18],朴素贝叶斯分类器(NB)[19]和随机森林(RF)[20]也可用于预测癌症存活率。例如,Nguyen等人[21]提出了一种基于随机森林
DC童生
2021-12-13
2950
如何理解Inductive Bias
在训练机器学习任务时候,会有一些假设,比如:KNN中假设特征空间中相邻的样本倾向于属于同一类;SVM中假设好的分类器应该最大化类别边界距离;等等。但是真实世界是没有这些假设的。这些假设是归纳出来的,而且和真实世界有一定的偏置,就叫归纳偏置。 在深度学习方面也是一样。以神经网络为例,各式各样的网络结构/组件/机制往往就来源于归纳偏置。在卷积神经网络中,我们假设特征具有局部性(Locality)的特性,即当我们把相邻的一些特征放在一起,会更容易得到“解”;在循环神经网络中,我们假设每一时刻的计算依赖于历史计算结果;还有注意力机制,也是基于从人的直觉、生活经验归纳得到的规则
DC童生
2021-11-29
4490
开源标准工具Label Studio
是什么 是多种类型的数据标注工具,同时支持机器学习算法 使用流程 📷 一些术语 📷 组件和架构 后端以及前端框架的选择 📷
DC童生
2021-11-24
6800
Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting(论文阅读02)
我们在两个现实世界的大规模数据集上进行了实验:(1)METR-LA此交通数据集包含从洛杉矶县高速公路上的环路检测器收集的交通信息(Jagadish等,2014)。我们选择了207个传感器,并收集了从2012年3月1日到2012年6月30日的4个月的数据进行实验。 (2)PEMS-BA Y该交通数据集由加利福尼亚州运输机构(CalTrans)绩效评估系统(PeMS)收集。我们在湾区选择了325个传感器,并收集了从2017年1月1日到2017年5月31日的6个月数据进行实验
DC童生
2020-12-21
1.4K0
tensorflow2.3实战循环神经网络
一:理论部分 embedding和变长输入处理 序列式问题 循环神经网络 LSTM模型原理 二:实战 keras实现embedding keras搭建循环神经网络 文本生成 文本分类 1.1embed
DC童生
2020-11-24
4340
2018苏州GTC会议笔记主题演讲可解释性、鲁棒性和公平性:THUIR 个性化推荐研究进展 [CH81402]机器学习的发展和行业应用前景 [CH8502]用 TensorFlow 加速 AI [CH
NVIDIA 创始人兼 CEO 黄仁勋先生关于计算领域之未来的主题演讲。 演讲人:黄仁勋 NVIDIA 创始人兼 CEO 2018/11/21 周三 10:00 - 12:00 | 主会场 三层金鸡湖厅
DC童生
2018-12-17
1K0
知识图谱构建
步骤如下: 1 实体识别NER(对专业实体进行分类标记,训练数据,从文中中实现自动抽取专业实体):https://www.jianshu.com/p/68b999d9e552 关键技术:
DC童生
2018-08-27
7.3K1
NLP(3)——seq to seq
普通作弊的基础上,回顾上一刻的答案 4.学渣作弊(attention机制)
DC童生
2018-07-24
1.3K0
NLP(2)——中文分词分词的概念分词方法分类CRFHMM分词
上一篇文章提到了词向量的相关知识,可如何用计算机对一篇文章或者一些句子进行分词,从而让计算机更好理解句子呢?
DC童生
2018-07-24
1.9K0
深度学习——目标检测(3)YOLO1SSD
前言:RCNN系列一般都是分为两个步骤,下面介绍one-stage方法,SSD和yolo算法 目标检测近年来已经取得了很重要的进展,主流的算法主要分为两个类型: (1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高; (2)one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡(参见Focal Loss),导致模型准确度稍低。 各种方法速度如下:
DC童生
2018-07-24
6350
深度学习(6)——卷积神经网络cnn层级结构CNN特点卷积神经网络-参数初始化卷积神经网络过拟合解决办法
前言:前面提到的神经元之间的连接都是全连接,当输入超多的时候全连接参数给定也会超多,计算太复杂,这样利用人观察事物的原理,既先抓住事物的主要特征(局部观看),而产生的cnn,不同和重点是加了卷积层(局部感知)和池化层(特征简化)。CNN的应用主要是在图像分类和物品识别等应用场景应用比较多 层级结构 数据输入层:Input Layer 和机器学习一样,需要对输入的数据需要进行预处理操作 常见3种数据预处理方式 1 去均值 将输入数据的各个维度中心化到0 2 归一化 将输入数据的各个维度的幅度归一
DC童生
2018-07-06
1.6K0
深度学习(3)——用tensorflow实现机器学习算法1实现线性回归实现逻辑回归
前言:主要用TensorFlow实现线性回归和逻辑回归这两个机器学习算法,就当对TensorFlow的一个应用了吧 1实现线性回归 直接上代码吧,注释和步骤直接在代码里面了 # 1. 构造一个数据 np.random.seed(28) N = 100 x = np.linspace(0, 6, N) + np.random.normal(loc=0.0, scale=2, size=N) y = 14 * x - 7 + np.random.normal(loc=0.0, scale=5.0, size=N
DC童生
2018-07-04
5600
我的机器学习线性代数篇观点向量矩阵行列式矩阵的初等变换向量组线性方程组特征值和特征向量几个特殊矩阵QR 分解(正交三角分解)奇异值分解向量的导数
前言: 线代知识点多,有点抽象,写的时候尽量把这些知识点串起来,如果不行,那就两串。其包含的几大对象为:向量,行列式,矩阵,方程组。 观点 核心问题是求多元方程组的解,核心知识:内积、秩、矩阵求逆,应用:求解线性回归、最小二乘法用QR分解,奇异值分解SVD,主成分分析(PCA)运用可对角化矩阵 向量 基础 向量:是指具有n个互相独立的性质(维度)的对象的表示,向量常 使用字母+箭头的形式进行表示,也可以使用几何坐标来表示向量。 单位向量:向量的模、模为一的向量为单位向量 内积又叫数量积
DC童生
2018-04-27
1.7K0
机器学习(20)——数据降维为什么要降维?PCA原理LDA比较:
前言:正所谓每一个结果的出现都是一系列的原因导致的,当构建机器学习模型时候,有时候数据特征异常复杂,这就需要经常用到数据降维技术,下面主要介绍一些降维的主要原理 为什么要降维? 在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个 方面的问题: 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定, 从而导致模型的泛化能力弱; 高纬空间样本具有稀疏性,导致模型比较难找到数据特征; 过多的变量会妨碍模型查找规律; 仅仅考虑单个变量对于目标属性的影响可能忽略变
DC童生
2018-04-27
17.9K0
机器学习(19)——特征工程数据收集数据清洗数据不平衡特征转换增维降维特征选择
前言:特征工程是机器学习的重点,他直接影响着模型的好坏。 数据收集 在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需 要的数据: 业务的实现需要哪些数据? 基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。 数据可用性评估 在获取数据的过程中,首先需要考虑的是这个数据获取的成本; 获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数 据的可信度情况。 数据源 用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据 业务数据: 商
DC童生
2018-04-27
2K0
机器学习(18)——神经网络算法思想:从线性思想到最基础神经网络神经网络算法
前言: 关于“神经网络”这个词想必对人工智能感兴趣额的早已经熟得不能再熟悉了,在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统
DC童生
2018-04-27
1.7K0
机器学习(17)——GMM算法算法流程
前言: 介绍一下EM算法的简单应用 算法流程 先从一个简单的例子开始: 随机选择1000名用户,测量用户的身高;若样本中存在男性和女性,身高分别 服从高斯分布N(μ1,σ1)和N(μ2,σ2)的分布,试估计参数:μ1,σ1,μ2,σ2; 如果明确的知道样本的情况(即男性和女性数据是分开的),那么我们使用极大似然 估计来估计这个参数值。 如果样本是混合而成的,不能明确的区分开,那么就没法直接使用极大似然估计来 进行参数的估计啦。 算法流程如下: GMM(Gaussian Mixture Model,
DC童生
2018-04-27
2K0
机器学习(16)——EM算法示例
算法思想:含有隐变量的极大似然估计 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢?这就是EM算法可以派上用场的地方了。那么先复习一下极大似然估计。 极大似然估计(MLE) 直接举个例子: 某位同学与一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打
DC童生
2018-04-27
1.4K0
机器学习(14)——朴素贝叶斯算法思想:基于概率的预测贝叶斯公式朴素贝叶斯算法示例:文本数据分类
前言:在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X)要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布然后用P(Y|X)=P(X,Y)/P(X)得出。 朴素贝叶斯很直观,计算量也不大,在很多领域有广泛的应用, 算法思想:基于概率的预测 逻辑回归通过拟合曲线(或者学习超平面)实现分类
DC童生
2018-04-27
12.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档