聚类是一种关于数据点分组的机器学习技术。给出一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。理论上,同一组中的数据点应具有相似的属性或特征,而不同组中的数据点应具有相当不同的属性或特征(即类内差异小,类间差异大)。聚类是一种无监督学习方法,也是一种统计数据分析的常用技术,被广泛应用于众多领域。 在数据科学中,我们可以通过聚类算法,查看数据点属于哪些组,并且从这些数据中获得一些有价值的信息。今天,我们一起来看看数据科学家需要了解的 5 种流行聚类算法以及它们的优缺点。 一、K 均值聚类 K-
本文为雷锋字幕组编译的技术博客,原标题The 5 Clustering Algorithms Data Scientists Need to Know,作者为George Seif。
AiTechYun 编辑:Yining 聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。 在数据科学中,我们可以使用聚类分析从我们的数据中获得一些有价值的见解。在这篇文章中,我们将研究5种流行的聚类算法以及它们的优缺点。 K-MEANS聚类算法 K-Means聚类算法可能是大
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 聚类是一种涉及数据点分组的机器学习技术。给定一个数据点集,则可利用聚类算法将每个数据点分类到一个特定的组中。理论上,同一组数据点具有
本文将从简单高效的 K 均值聚类开始,依次介绍均值漂移聚类、基于密度的聚类、利用高斯混合和最大期望方法聚类、层次聚类和适用于结构化数据的图团体检测。我们不仅会分析基本的实现概念,同时还会给出每种算法的优缺点以明确实际的应用场景。
选自TowardsDataScience 作者:George Seif 机器之心编译 参与:程耀彤、蒋思源、李泽南 在机器学习中,无监督学习一直是我们追求的方向,而其中的聚类算法更是发现隐藏数据结构与知识的有效手段。目前如谷歌新闻等很多应用都将聚类算法作为主要的实现手段,它们能利用大量的未标注数据构建强大的主题聚类。本文从最基础的 K 均值聚类到基于密度的强大方法介绍了 6 类主流方法,它们各有擅长领域与情景,且基本思想并不一定限于聚类方法。 本文将从简单高效的 K 均值聚类开始,依次介绍均值漂移聚类、基于
给定一组数据点,我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上,属于同一类的数据点应具有相似的属性或特征,而不同类中的数据点应具有差异很大的属性或特征。
编译 | AI科技大本营 参与 | 刘 畅 编辑 | 明 明 【AI科技大本营导读】聚类是一种将数据点按一定规则分群的机器学习技术。给定一组数据点,我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上,属于同一类的数据点应具有相似的属性或特征,而不同类中的数据点应具有差异很大的属性或特征。聚类属于无监督学习中的一种方法,也是一种在许多领域中用于统计数据分析的常用技术。 在数据科学中,我们可以使用聚类分析,来获得一些有价值的信息。其手段是在应用聚类算法时,查看数据点会落入哪些类。现在,我
经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍《从零学习OpenCV 4》。为了更让小伙伴更早的了解最新版的OpenCV 4,小白与出版社沟通,提前在公众号上连载部分内容,请持续关注小白。
如果你尝试过目前最火的 AI 绘画工具之一 Stable Diffusion,那你就已经体验过扩散模型(diffusion model)那强大的生成能力。但如果你想更进一步,了解其工作方式,你会发现扩散模型的形式其实有很多种。
这篇文章是对深度学习数据增强技术的全面回顾,具体到图像领域。这是《在有限的数据下如何使用深度学习》的第2部分。
知识图谱(图网络)在推荐系统中的重要性不言而喻,但并非所有关系都与目标推荐任务相关。为解决这一问题,本文介绍了名为DiffKG的新的知识图谱扩散模型,结合了生成扩散模型与数据增强范式,实现了鲁棒的知识图谱表示学习。
选自Medium 作者:Jonny Brooks-Bartlett 机器之心编译 概率论是机器学习与深度学习的基础知识,很多形式化的分析都是以概率的形式进行讨论。而这些讨论或多或少都离不开最大似然估计,因为它是参数估计的基础之一,也是构建模型的基石。在本文中,我们从最大似然估计到贝叶斯推理详细地讨论了机器学习的概率论基石,并希望能为读者的预习与复习提供优秀的参考资源。 什么是参数? 在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称
对于金融应用中的深度学习模型,训练数据有限是一个大问题。因为金融时间序列有不规则和尺度不变的特点,很难合成真实数据。
来源:DeepHub IMBA本文约1800字,建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。 在数学上,高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布,也称为高斯分布,是一种连续概率分布,由其概率密度函数 (PDF) 定义: pdf(x) = (1 / (σ * sqrt(2 * π))) * e^(- (x — μ)² / (2 * σ²)) 其中 x 是随机变量,μ 是均值,σ 是标准差。 通过生成具有正态分布的随机
Shoufa Chen1, Peize Sun1, Yibing Song2, Ping Luo1 1The University of Hong Kong 2Tencent AI Lab {sfchen, pzsun, pluo}@cs.hku.hk yibingsong.cv@gmail.com
EM 算法又叫做最大期望算法,英文名称为 Expectation Maximization,也是一种聚类算法。是一种迭代算法,通过寻找最大似然估计值,来确定聚类。
聚类分析,也称为聚类,是一种无监督的机器学习任务。与监督学习不同,聚类算法仅依赖输入数据,并致力于在特征空间中找到自然的组或群集。这些群集通常是特征空间中的密度区域,其中同一群集的数据点比其他群集更紧密地聚集在一起。
SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配,获得了良好效果,详细解析如下: 算法描述 SIFT特征不只具有尺度不变性,即使改变旋转角度,图像亮度或拍摄视角,仍然能够得到好的检测效果。整个算法分为以下几个部分: 1. 构建尺度空间 这是一个初始化操作,尺度空间理论目的是模
又和大家见面了,上次本程序猿介绍了CMSIS-NN,一晃过去了两个月。。。。闲话不多说,开始正题,小编这次带来的是,进行深度学习部署时的一段比较有用的小插曲:浅谈深度学习中的数据增广。
高斯混合模型是一种强大的聚类算法。本文将带你了解高斯混合模型的工作原理以及如何在 Python 中实现它们,我们还将讨论 k-means 聚类算法,看看高斯混合模型是如何对它进行改进的。
什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
【导读】本文是数据科学家Jonny Brooks-Bartlett概率论基础概念系列博客中的“极大似然估计”一章,主要讲解了极大似然估计的若干概念。分别介绍了参数、直观理解极大似然估计、极大似然估计计
但是,大多数情况下,在处理实际问题时,数据不会带有预定义标签,因此我们需要开发能够对这些数据进行正确分类的机器学习模型,通过发现这些特征中的一些共性,来预测新数据的类。
假设我们想要在音频记录中检测一个特定的人的声音,并获得每个声音片段的时间边界。例如,给定一小时的流,管道预测前10分钟是前景(我们感兴趣的人说话),然后接下来的20分钟是背景(其他人或没有人说话),然后接下来的20分钟是前景段,最后10分钟属于背景段。
在我们实际使用支持向量机(SVM)之前,我先简要介绍一下SVM是什么。 基本SVM是一个二元分类器,它通过选取代表数据点之间最大间隔的超平面将数据集分成2部分。 SVM采用所谓的“校正率”值。 如果没有完美分割,校正速率允许拾取仍然在该误差率内分裂的超平面。因此,即使在线上存在一些点时,校正速率也允许超平面拟合。 这意味着我们不能为每个案例提出“标准”纠正率。 然而,当数据中没有重叠时,较低的值应该比较高的值更好。
选自efavdb 作者: Jonathan Landy 机器之心编译 参与:白悦、蒋思源 高斯过程可以被认为是一种机器学习算法,它利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程,并在后面提供了用它来近似求未知函数最优解的方法。 我们回顾了高斯过程(GP)拟合数据所需的数学和代码,最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函数最小化。下面的动图演示了这种方法的动态过程,其中红色的点是从红色曲线采样的样本。使用这些样本,我们试
作者: Jonathan Landy 机器之心编译 参与:白悦、蒋思源 高斯过程可以被认为是一种机器学习算法,它利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程,并在后面提供了用它来近似求未知函数最优解的方法。 我们回顾了高斯过程(GP)拟合数据所需的数学和代码,最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函数最小化。下面的动图演示了这种方法的动态过程,其中红色的点是从红色曲线采样的样本。使用这些样本,我们试图利用 GP 尽快
我真的很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战,用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问,机器学习领域的大多数发展和突破都发生在无监督学习领域。
本文从理论推导和实现详细地介绍了高斯过程,并提供了用它来近似求未知函数最优解的方法。 高斯过程可以被认为是一种机器学习算法,它利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程,并在后面提供了用它来近似求未知函数最优解的方法。 我们回顾了高斯过程(GP)拟合数据所需的数学和代码,最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函数最小化。下面的动图演示了这种方法的动态过程,其中红色的点是从红色曲线采样的样本。使用这些样本,我们试图
高斯混合模型(Gaussian Mixed Model,GMM)也是常见的聚类算法。使用EM算法进行迭代计算。高斯混合模型假设了每个簇的数据符合正态分布(高斯分布),当前的数据分布就是各个簇的高斯分布叠加在一起。
事实上,人们常说,每个问题的答案都是贝叶斯模型比较。 这个观念有其深刻的道理。 从某种意义上说,任何问题——可以用相互竞争的假设来提出——只能通过诉诸这些假设的证据来回答。 换句话说,任何问题的答案都归结为假设或模型证据的比较,隐含在贝叶斯因子的使用中,或日志证据的差异
这些聚类算法各有优缺点,适用于不同类型的数据和不同的应用场景。选择合适的聚类算法通常取决于具体的需求、数据的特性和计算资源。
该函数可以方便的为图像添加各种类型的噪声如高斯白噪声、椒盐噪声等。 参数介绍 image为输入图像数据,类型应为ndarray,输入后将转换为浮点数。 mode选择添加噪声的类别。字符串str类型。应为以下几种之一:
https://microbiomejournal.biomedcentral.com/track/pdf/10.1186/s40168-019-0633-6
在扩散模型的前向过程中,数据会经历一个连续的噪声添加过程,直到原始信号完全退化,从而得到一个良好的分布,通常是高斯分布。在每个时间步长 t,我们使用高斯分布 q(x_{t+1}|x_{t})从当前数据点 x_{t} 采样下一个数据点,表示为 x_{t+1}。该分布的均值和协方差由一组称为贝塔的超参数决定。
该文章提出一种利用程序化噪声来生成对抗样本的方法, 所提出的方法和那些通过梯度不断修改以至于到达分类器的边界的方法不一样, 上述方法需要对目标的模型有一定的了解.
一. SIFT简介 1.1 算法提出的背景: 成像匹配的核心问题是将同一目标在不同时间、不同分辨率、不同光照、不同位姿情况下所成的像相对应。传统的匹配算法往往是直接提取角点或边缘,对环境的适应能力较差,急需提出一种鲁棒性强、能够适应不同光照、不同位姿等情况下能够有效识别目标的方法。1999年British Columbia大学大卫.劳伊( David G.Lowe)教授总结了现有的基于不变量技术的特征检测方法,并正式提出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子-SI
像所有其他机器学习模型一样,高斯过程是一个简单预测的数学模型。像神经网络一样,它可以用于连续问题和离散问题,但是其基础的一些假设使它不太实用。
matlab里和随机数有关的函数: (1) rand:产生均值为0.5、幅度在0~1之间的伪随机数。 (2) randn:产生均值为0、方差为1的高斯白噪声。 (3) randperm(n):产生1到n的均匀分布随机序列。 (4) normrnd(a,b,c,d):产生均值为a、方差为b大小为cXd的 随机矩阵。
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍两种能够使SVM算法解决非线性数据集的方法,使用多项式特征以及使用多项式核函数。
高维生物数据的可视化能帮助研究者以直观的方式了解数据。今天介绍2019年12月发表在Nature Biotechnology的可视化工作。
文章“3D Pose Estimation of Daily ObjectsUsing an RGB-D Camera”2012发表在IEEE/RSJInternational Conference on Intelligent Robots and Systems上,这篇文章对原始点对特征(PPF)作了一个很大的改进。
论文作者:Xiaojun Jia, Xingxing Wei, Xiaochun Cao, Hassan Foroosh
在我们的某项业务中,需要通过自研的智能硬件“自动化”地拍摄一组组手机的照片,这些照片有时候因为光照的因素需要考虑将背景的颜色整体替换掉,然后再呈现给 C 端用户。这时就有背景替换的需求了。
先进的机器学习 (ML) 技术可以从数据中得出的非常复杂的问题的解答。但是由于其“黑盒”的性质,很难评估这些答案的正确性。如果想在照片中找到特定的人或者物,例如在照片中找到猫的照片,这可能是很适用的。但在处理医疗数据时,因为可解释性的原因一般都不会被人们所接受,这导致 ML 模型在实际临床应用中的实际使用的概率很低。在这篇文章中,将介绍一种分析生物数据的方法,它结合了现代 ML 的复杂性和经典统计方法的合理置信度评估。
偏差-方差困境是机器学习方法的面临的主要问题。如果模型过于简单则模型将难以找到输入和输出之间的适当关系(欠拟合)。如果一个模型太复杂,它在训练中会表现得更好,但在看不见的数据上的性能会有更大的差异(或过拟合),而且复杂的模型往往需要更昂贵的计算资源。对于机器学习来说理想的方法是,能够找到一个简单的模型,它训练起来既很快又可以找到输入和输出之间的复杂关系。核方法就是通过将数据的输入空间映射到高维特征空间,在高维特征空间中可以训练简单的线性模型,从而得到高效、低偏差、低方差的模型。
时域卷积=频域乘积,卷积神经网络大部分的计算也在卷积部分,如何从频域的角度思考卷积神经网络,如何从频域的角度解释ResNet。
来源:DeepHub IMBA本文约1500字,建议阅读5分钟本文为你介绍无监督学习的12个最重要的算法介绍及用例。 无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。 无监督学习算法有几种类型,以下是其中最重要的12种: 1、聚类算法根据相似性将数据点分组成簇 k-means聚类是一种流行的聚类算法,它将数据划分为k组。 2、降维算法降低了数据的维数,使其更容易可视化和处理 主成分分析(PCA)是一种降维算法,
领取专属 10元无门槛券
手把手带您无忧上云