开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么有两个类，LDA只给出一个维度？

LDA（Latent Dirichlet Allocation）是一种用于主题建模的概率模型，它假设每个文档包含多个主题，每个主题又由多个单词组成。在LDA中，每个文档可以被表示为主题的概率分布，每个主题可以被表示为单词的概率分布。

为什么有两个类，LDA只给出一个维度？

LDA中的两个类指的是文档-主题分布和主题-单词分布。具体来说，LDA将文档看作是主题的混合，每个主题又由单词的分布组成。

文档-主题分布：LDA通过计算每个文档中每个主题的概率分布来表示文档-主题分布。这个分布可以告诉我们每个文档包含哪些主题以及它们的权重。例如，对于一篇新闻文章，文档-主题分布可以告诉我们该文章包含了多少政治、经济、体育等主题，并且每个主题的重要性如何。
主题-单词分布：LDA通过计算每个主题中每个单词的概率分布来表示主题-单词分布。这个分布可以告诉我们每个主题包含哪些单词以及它们的权重。例如，对于主题“体育”，主题-单词分布可以告诉我们该主题包含了哪些与体育相关的单词，如“足球”、“篮球”、“比赛”等，并且每个单词在该主题中的重要性如何。

通过这两个分布，LDA可以帮助我们理解文档中的主题结构以及主题中包含的单词。它可以应用于文本分类、信息检索、推荐系统等领域。

腾讯云相关产品和产品介绍链接地址：

腾讯云自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云大数据与AI：https://cloud.tencent.com/solution/big-data-ai
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云数据库（TencentDB）：https://cloud.tencent.com/product/cdb
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云区块链服务（BCS）：https://cloud.tencent.com/product/bcs
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云移动开发（Mobile）：https://cloud.tencent.com/product/mobile

相关搜索:Python3线程:当我只启动了一个线程时，为什么有两个线程处于活动状态？为什么.isNotNull()；断言失败，即使我有一个控制器类？为什么hybris jalo层为一个项目生成两个类为什么pycharm在一个类或函数之外没有给出“预期类型”的警告？为什么redis流水线给出了交叉槽错误，而我只发送了一个密钥？为什么valgrind报告两个内存分配，而我的代码只请求一个内存分配？为什么同一个类有两个不同的实例呢？为什么在我创建测试类时，jacoco:check会给出一个错误为什么我的元素只附加到一个类？为什么我的逻辑回归只产生一个类？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）

判别分析包括可用于分类和降维的方法。线性判别分析（LDA）特别受欢迎，因为它既是分类器又是降维技术。二次判别分析（QDA）是LDA的变体，允许数据的非线性分离。最后，正则化判别分析（RDA）是LDA和QDA之间的折衷。

02

线性分类与Principal Component Analysis

如果学习分类算法，最好从线性的入手，线性分类器最简单的就是LDA，它可以看做是简化版的SVM，如果想理解SVM这种分类器，那理解LDA就是很有必要的了。谈到LDA，就不得不谈谈PCA，PCA是一个和LDA非常相关的算法，从推导、求解、到算法最终的结果，都有着相当的相似。本次的内容主要是以推导数学公式为主，都是从算法的物理意义出发，然后一步一步最终推导到最终的式子，LDA和PCA最终的表现都是解一个矩阵特征值的问题，但是理解了如何推导，才能更深刻的理解其中的含义。本次内容要求读者有一些基本的线性代数基础，

R语言线性分类判别LDA和二次分类判别QDA实例

数据方差相同的时候，一次判别就可以，如左图所示;但如果方差差别较大，就是一个二次问题了，像右图那样。

03

用线性判别分析 LDA 降维

本文结构：什么是 LDA 和 PCA 区别 LDA 投影的计算过程 LDA 降维的例子 ---- 1. 什么是 LDA 先说判别分析，Discriminant Analysis 就是根据研究对象的各种特征值，判别其类型归属问题的一种多变量统计分析方法。根据判别标准不同，可以分为距离判别、Fisher 判别、Bayes 判别法等。例如，在 KNN 中用的是距离判别，朴素贝叶斯分类用的是 Bayes 判别，线性判别分析用的是 Fisher 判别式。根据判别函数的形式，可以分为线性判别和非线性判别。线性判

05

线性判别分析LDA原理总结

在主成分分析（PCA）原理总结中，我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析（Linear Discriminant Analysis, 以下简称LDA）做一个总结。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下它的算法原理。

02

【深度】Peacock：大规模主题模型及其在腾讯业务中的应用

如果用户最近搜索了“红酒木瓜汤”，那么应该展示什么样的广告呢？从字面上理解，可能应该返回酒水或者水果类广告。可是你知道吗？“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理解这个隐含语义，就能展示丰胸或者美容广告——这样点击率一定很高。在广告、搜索和推荐中，最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。让机器能自动学习和理解人类语言中近百万种语义，以及从海量用户行为数据中归纳用户兴趣，是一个已经持续了20年的研究方向，称为主题建模（Latent Topic Modeling）。目前业界

06

线性判别分析LDA（Linear Discriminant Analysis）

1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题，使用PCA后，也许可以将这两个特征合并为一个，降了维度。但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。那么这两个特征对y几乎没什么影响，完全可以去除。再举一

04

自然语言处理技术（NLP）在推荐系统中的应用

个性化推荐是大数据时代不可或缺的技术，在电商、信息分发、计算广告、互联网金融等领域都起着重要的作用。具体来讲，个性化推荐在流量高效利用、信息高效分发、提升用户体验、长尾物品挖掘等方面均起着核心作用。在推荐系统中经常需要处理各种文本类数据，例如商品描述、新闻资讯、用户留言等等。具体来讲，我们需要使用文本数据完成以下任务：候选商品召回。候选商品召回是推荐流程的第一步，用来生成待推荐的物品集合。这部分的核心操作是根据各种不同的推荐算法来获取到对应的物品集合。而文本类数据就是很重要的一类召回算法，具有不依赖用户

文本表示简介

文本分类是自然语言处理中研究最为广泛的任务之一，通过构建模型实现对文本内容进行自动分类，有很多应用场景，比如新闻文章主题分类，产品评论情感分类，检索中用户查询的意图分类等等。文本分类的大致流程：文本预处理，抽取文本特征，构造分类器。其中研究最多的就是文本特征抽取，更广义上说是文本表示。

05

线性判别分析总览

线性判别分析总览(Linear Discriminant Analysis，LDA)：用于数据预处理中的降维、分类任务，其目标是找到能够最大化类间区分度的坐标轴成分。用几个词概括LDA的特征，即降维、分类。

01

机器学习（20）——数据降维为什么要降维？PCA原理LDA比较：

前言：正所谓每一个结果的出现都是一系列的原因导致的，当构建机器学习模型时候，有时候数据特征异常复杂，这就需要经常用到数据降维技术，下面主要介绍一些降维的主要原理为什么要降维？在实际的机器学习项目中，特征选择/降维是必须进行的，因为在数据中存在以下几个方面的问题：数据的多重共线性：特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定，从而导致模型的泛化能力弱；高纬空间样本具有稀疏性，导致模型比较难找到数据特征；过多的变量会妨碍模型查找规律；仅仅考虑单个变量对于目标属性的影响可能忽略变

09

线性判别分析（LDA）原理总结

线性判别分析（Linear Discriminant Analysis，以下简称LDA）是有监督的降维方法，在模式识别和机器学习领域中常用来降维。PCA是基于最大投影方差或最小投影距离的降维方法，LDA是基于最佳分类方案的降维方法，本文对其原理进行了详细总结。

03

MLK | 机器学习的降维"打击"

"MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，内容主要来自于《百面机器学习》一书，结合自己的经验与思考做的一些总结与归纳，本

02

基于 R语言的判别分析介绍与实践（1）

本期介绍的是《Machine Learning with R, tidyverse, and mlr》一书的第五章—— 判别分析(discriminant analysis)。判别分析是解决分类问题的多种算法的总称，通过将预测变量组合成新的变量来找到预测变量的新表示(必须是连续的)，从而最好地区分类。这种思想和一些降维算法有些相似。

02

独家 | 一文读懂特征工程

本文结构 1. 概述机器学习被广泛定义为“利用经验来改善计算机系统的自身性能”。事实上，“经验”在计算机中主要是以数据的形式存在的，因此数据是机器学习的前提和基础。数据来源多种多样，它可以是结构数据，如数值型、分类型，也可以是非结构数据，如文本、语音、图片、视频。对于所有机器学习模型，这些原始数据必须以特征的形式加入到机器学习模型当中，并进行一定的提取和筛选工作。所谓特征提取，就是逐条将原始数据转化为特征向量的形式，此过程涉及数据特征的量化表示；而特征筛选是在已提取特征的基础上，进一步对高维度和

08

LDA线性判别分析

线性判别分析，全称是Linear Discriminant Analysis, 简称LDA, 是一种属于监督学习的降维算法。与PCA这种无监督的降维算法不同，LDA要求输入数据有对应的标签。

03

【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

本文介绍了线性判别分析（LDA）在降维和分类问题中的应用，并提到了相应的优化方法和算法。文章还探讨了LDA在多类分类问题中的使用和收缩方法。

07

让机器搞懂100万种隐含语义，腾讯Peacock大规模主题模型首次全揭秘

编者按：LDA是一个简洁、优雅、实用的隐含主题模型，腾讯效果广告平台部（广点通）的工程师们为了应对互联网的大数据处理，开发了大规模隐含主题模型建模系统Peacock，通过并行计算对10亿x1亿级别的大规模矩阵进行分解，从而从海量样本数据中学习10万到100万量级的隐含语义。Peacock已应用在腾讯的文本语义理解、QQ群的推荐、用户商业兴趣挖掘、相似用户扩展、广告点击率转化率预估等多个业务数据中。本文节选自Peacock团队的论文《Peacock：大规模主题模型及其在腾讯业务中的应用》，分享了广点通Peac

04

浙大和腾讯开源CrossFormer：基于跨尺度注意力的视觉Transformer

CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention

03

ICLR 2022 | 浙大和腾讯开源CrossFormer：基于跨尺度注意力的视觉Transformer

CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention

02

LDA线性判别分析

之前我们讨论的 PCA降维，对样本数据来言，可以是没有类别标签 y 的。如果我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA 来降维，但 PCA 没有将类别标签考虑进去，属于无监督的。

02

选择困难症？一文通解如何选择最合适的机器学习算法

大数据文摘作品，转载要求见文末编译 | 姜范波，寒小阳，钱天培如果你是一个初学/中等程度的数据科学家/分析师，并且想要将机器学习的算法运用到解决你关心的问题的上，那么这篇文章正是为你写的！初学者面对各种机器学习算法，一个典型的问题是：我应该使用哪种算法？问题的答案取决于许多因素，包括：数据的大小，质量和性质。可接受的计算时间。任务的紧迫性。你想用数据做什么。即使是经验丰富的数据科学家也无法在尝试不同的算法之前，就断定哪种算法会是最好的。在此我们并非倡导一蹴而就的方法，但是我们希望根据一些明确

04

数据预处理之降维-PCA和LDA

给定训练集样例，设法将样例投影到一条直线上，使得同类样例的投影点尽可能的接近、异类样例的投影点尽可能地远离；在对新样本分类时，将其投影点同样的投影到这条直线上，再根据投影点的位置来确定新样例的位置。

01

LDA线性判别分析

之前我们讨论的 PCA降维，对样本数据来言，可以是没有类别标签 y 的。如果我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA 来降维，但 PCA 没有将类别标签考虑进去，属于无监督的。

02

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

Reaven和Miller（1979）研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D，并发现了一个奇特的图案，看起来像是一个有两个翼的大斑点（点击文末“阅读原文”获取完整代码数据）。

02

算法工程师养成记（附精选面试题）

通往机器学习算法工程师的进阶之路是崎岖险阻的。《线性代数》《统计学习方法》《机器学习》《模式识别》《深度学习》，以及《颈椎病康复指南》，这些书籍将长久地伴随着你的工作生涯。

03

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

Reaven和Miller（1979）研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D，并发现了一个奇特的图案，看起来像是一个有两个翼的大斑点。

00

特征工程全过程

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

05

用机器学习来计算工作技能的匹配度

此项目的成员包括Brett Amdur，Christopher Redino和Amy (Yujing) Ma。他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练营。这篇文章基于他们的终期项目 —— 顶点项目（Capstone Project）而完成。点击此处可见原文。 I. 概述此项目的主要内容是应用机器学习方法来判断简历中工作技能的匹配程度。一家机构向纽约数据科学研究院的学生陈述了此项目，他们希望找到合适的学生来完成项目。本文的三个作者接受了这个项目，他们当时都是研究院的全日制学生

07

机器学习(30)之线性判别分析(LDA)原理详解

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四前言在主成分分析（PCA）原理总结（机器学习(27)【降维】之主成分分析(PCA)详解）中对降维算法PCA做了总结。这里就对另外一种经典的降维方法线性判别分析（Linear Discriminant Analysis, 简称LDA）做一个总结。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下它的算法原理。在学习LDA之前，有必要

07

手把手教你用LDA特征选择

本文用了一个经典的例子，从数据探索，模型假设，模型训练，模型可视化，step by step 让读者体验机器学习完整的流程。导语在模式分类和机器学习实践中，线性判别分析（Linear Discriminant Analysis, LDA）方法常被用于数据预处理中的降维（dimensionality reduction）步骤。LDA在保证良好的类别区分度的前提下，将数据集向更低维空间投影，以求在避免过拟合（“维数灾难”）的同时，减小计算消耗。 Ronald A. Fisher 在1936年（The U

05

四大机器学习降维算法：PCA、LDA、LLE、Laplacian Eigenmaps

机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误

06

2022年你应该知道的五大机器学习算法，解释型算法、降维算法榜上有名

本文介绍了 5 大常用机器学习模型类型：集合学习算法，解释型算法，聚类算法，降维算法，相似性算法，并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点：1、应用性。涉及到应用问题时，知识的普适性显然非常重要。所以我们希望通过给出模型的一般类别，让你更好地了解这些模型应当如何应用。2、相关性。本文并不包括所有的机器学习模型，比如Naïve Bayes（朴素贝叶斯）和SVM这种传统算法，在本文中将会被更好的算法所取代。3、可消化性。对于数学基础较薄弱的读者而言，过多地解释算法会让这篇文章的可

01

5大常见机器学习算法

本文介绍了 5 大常用机器学习模型类型：集成学习算法，解释型算法，聚类算法，降维算法，相似性算法，并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点：

02

自然语言处理︱简述四大类文本分析中的“词向量”（文本词特征提取）

本篇是笔者刚刚入门所写，那么在阅读CIPS2016之后，根据里面的内容重新梳理了一遍，从CIPS2016里面相关内容来看，笔者本篇内容所写的，总结的还是很全面的，当时写的时候才入门NLP一个月，还是棒棒哒~让我傲娇一下，新博客链接：

02

机器学习之鸢尾花-降维

机器学习中，数据通常被表示为向量形式输入模型进行训练，但对于大量的多维数据直接进行处理和分析会极大消耗系统资源，因此需要通过降维缓解这一问题。降维，就是用一个低维度向量来表示原始高维度向量的特征。常见的方法有：

03

线性判别分析(Linear Discriminant Analysis, LDA) 学习笔记 + matlab实现

线性判别分析 (LDA)是对费舍尔的线性鉴别方法(FLD)的归纳，属于监督学习的方法。LDA使用统计学，模式识别和机器学习方法，试图找到两类物体或事件的特征的一个线性组合，以能够特征化或区分它们。所得的组合可用来作为一个线性分类器，或者，更常见的是，为后续的分类做降维处理。

02

快速选择合适的机器学习算法

本文主要适用于初学者到中级数据科学家或分析师，他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。

02

聚类算法简述

K-MEANS 算法 K-MEANS 评估聚类结果与选择K MapReduce GMM 算法初始化过拟合 K-MEANS比较 LDA LDA和clustering的区别数学基础四种分布共轭分

08

机器学习降维之线性判别模型(LDA)

线性判别分析(Linear Discriminant Analysis, LDA)是一种监督学习的降维方法，也就是说数据集的每个样本是有类别输出。和之前介绍的机器学习降维之主成分分析(PCA)方法不同，PCA是不考虑样本类别输出的无监督学习方法。LDA的原理简单来说就是将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点会形成按类别区分。而我们的目标就是使得投影后的数据，类间方差最大，类内方差最小。

04

机器学习之基于LDA的人脸识别

首先，代码通过使用dir函数获取指定路径下所有以".bmp"结尾的文件，并存储在变量pictures中。

03

在Spark上用LDA计算文本主题模型

在新闻推荐中，由于新闻主要为文本的特性，基于内容的推荐（Content-based Recommendation）一直是主要的推荐策略。基于内容的策略主要思路是从文本提取出特征，然后利用特征向量化后的向量距离来计算文本间的相关度。这其中应用最广的当属分类（Category）相关和关键词（Keywords/Tag）相关，然而这两种策略却有很多无法覆盖的场景。首先，关键词无法解决同义词和一词多义的问题。比如下面两篇文章的关键词：

02

三个主要降维技术对比介绍：PCA, LCA,SVD

随着数据集的规模和复杂性的增长，特征或维度的数量往往变得难以处理，导致计算需求增加，潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法，它捕获数据中的基本信息，同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务，还有助于可视化数据趋势，减轻维度诅咒的风险，并提高机器学习模型的泛化性能。降维在各个领域都有应用，从图像和语音处理到金融和生物信息学，在这些领域，从大量数据集中提取有意义的模式对于做出明智的决策和建立有效的预测模型至关重要。

07

文本表示简介

文本分类是自然语言处理中研究最为广泛的任务之一，通过构建模型实现对文本内容进行自动分类，有很多应用场景，比如新闻文章主题分类，产品评论情感分类，检索中用户查询的意图分类等等。文本分类的大致流程：文本预处理，抽取文本特征，构造分类器。其中研究最多的就是文本特征抽取，更广义上说是文本表示。

02

如何对非结构化文本数据进行特征工程操作？这里有妙招！

文本数据通常是由表示单词、句子，或者段落的文本流组成。由于文本数据非结构化（并不是整齐的格式化的数据表格）的特征和充满噪声的本质，很难直接将机器学习方法应用在原始文本数据中。在本文中，我们将通过实践的方法，探索从文本数据提取出有意义的特征的一些普遍且有效的策略，提取出的特征极易用来构建机器学习或深度学习模型。研究动机想要构建性能优良的机器学习模型，特征工程必不可少。有时候，可能只需要一个优秀的特征，你就能赢得 Kaggle 挑战赛的胜利！对于非结构化的文本数据来说，特征工程更加重要，因为我们需要将文

06

「Workshop」第四十一期 t-SNE降维原理及其应用

降维：就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x→y，其中x是原始数据点的表达，目前最多使用向量表达形式。y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。

02

语义分析的一些方法（中篇）

前面讲到一些文本基本处理方法。一个文本串，对其进行分词和重要性打分后（当然还有更多的文本处理任务），就可以开始更高层的语义分析任务。

01

使用sklearn做单机特征工程

出自博客园链接：http://www.cnblogs.com/jasonfreak/p/5448385.html 1 特征工程是什么？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，

04

NLP 点滴：文本相似度（中）

02

陈陟原：数据降维与可视化| AI 研习社第 53 期猿桌会

相信大多数人都已经接触过数据可视化——Excel 随便画一张表就是了。众所周知，二维数据可视化很容易，条形图、饼状图等等，我们在初中就已经学过了。那么三维数据呢？可能有些接触到音频产品的朋友会说瀑布图，很好。而 N 维数据呢？物理学告诉我们：低维空间只能观察到高维空间在本维度的投影。既然我们本身的维度无法增加，那么就只能想办法把数据的维度降低了。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭