开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么sklearn LDA转换非常慢？

sklearn LDA（Linear Discriminant Analysis）转换可能会非常慢的原因有多个可能性。下面是一些常见的可能原因：

数据集规模过大：如果数据集非常大，包含大量的特征或样本，那么LDA转换可能需要消耗大量的时间和计算资源。这是因为LDA需要计算数据的协方差矩阵和类内散度矩阵，这些计算在大规模数据集上可能非常耗时。
维度灾难：如果输入数据的维度非常高，比如上千维甚至更高，LDA转换也会变得非常慢。在高维空间中计算协方差矩阵和类内散度矩阵会变得非常复杂和耗时。
不合适的参数设置：LDA转换中有一些参数可以调整，比如类内散度矩阵的估计方法、特征值的截断方式等。如果选择了不合适的参数设置，可能会导致计算过程变慢。

解决这个问题的方法可以有以下几种：

数据预处理：如果数据集过大或维度过高，可以考虑使用特征选择或降维方法来减少数据的维度。例如，可以使用主成分分析（PCA）等方法对数据进行降维，然后再应用LDA转换。
参数调整：尝试调整LDA转换的参数，比如选择合适的类内散度矩阵估计方法、特征值的截断方式等。可以通过尝试不同的参数组合来找到一个相对较快的配置。
并行计算：如果计算机具有多个处理器或多个计算核心，可以考虑使用并行计算来加速LDA转换过程。例如，可以使用Python的并行计算库（如multiprocessing）或分布式计算框架（如Spark）来进行并行计算。

总结起来，sklearn LDA转换可能非常慢的原因可能是数据集规模过大、维度过高或参数设置不合适。解决方法包括数据预处理、参数调整和并行计算。然而，请注意，具体的解决方案可能需要根据具体情况和需求进行调整和优化。

相关搜索:为什么ajax调用非常慢？为什么torch::nonzero()非常慢？R: DuckDB DBconnect非常慢-为什么？为什么腾讯cdn加速非常慢为什么采样矩阵行非常慢？R: DuckDB DBconnect非常慢--为什么？为什么Spark的show()函数非常慢？为什么巴别塔转写非常慢？Postgres子查询运行非常慢，为什么？为什么访问Django QuerySet变得非常慢？为什么从外部url加载div非常慢？为什么Sqflite在Android上运行非常慢？为什么在SCIP python界面中quicksum非常慢？为什么Socket.io在windows上非常慢？在日期向量上使用sapply :函数速度非常慢。为什么？将gl_VertexID从整型转换为浮点型非常慢如何解释Sklearn LDA困惑分数。为什么它总是随着主题数量的增加而增加？为什么将多个Application.VLookup放入数组的速度非常慢？SQL添加更多where条件时，为什么下面的查询非常慢将赤道坐标转换为alt-az坐标的速度非常慢

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

特征工程全过程

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

05

数据科学和人工智能技术笔记七、特征工程

主成分分析（PCA）是数据科学中常见的特征提取方法。从技术上讲，PCA 找到具有最高特征值的协方差矩阵的特征向量，然后使用这些特征向量将数据投影到相等或更小维度的新子空间。实际上，PCA 将 n 个特征矩阵转换为（可能）小于 n 个特征的新数据集。也就是说，它通过构造新的较少变量来减少特征的数量，这些变量捕获原始特征中找到的信息的重要部分。但是，本教程的目的不是要解释 PCA 的概念，这在其他地方做得非常好，而是用于演示 PCA 的实际应用。

02

python主题LDA建模和t-SNE可视化

我们将首先介绍主题建模和t-SNE，然后将这些技术应用于两个数据集：20个新闻组和推文。

03

使用sklearn做特征工程

目录 1 特征工程是什么？ 2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾 3 特征选择　　3.1 Filter 　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper 　　　　3.2.1 递归特征

05

使用sklearn做特征工程

目录 1 特征工程是什么？ 2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾 3 特征选择　　3.1 Filter 　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper 　　　　3.2.1 递归

06

特征工程之Scikit-learn

目录 1 特征工程是什么？ 2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾 3 特征选择　　3.1 Filter 　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper 　　　　3.2.1 递归特征

07

【完结篇】专栏 | 基于 Jupyter 的特征工程手册：特征降维

经过数据预处理和特征选择，我们已经生成了一个很好的特征子集。但是有时该子集可能仍然包含过多特征，导致需要花费太多的计算能力用以训练模型。在这种情况下，我们可以使用降维技术进一步压缩特征子集。但这可能会降低模型性能。

01

【转载】什么是特征工程？

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

02

用机器学习神器sklearn做特征工程！

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。

03

MLK | 特征工程系统化干货笔记+代码了解一下（下）

经过了上面几个环节的“洗礼”，我们来到特征转换的环节，也就是使用源数据集的隐藏结构来创建新的列，常用的办法有2种：PCA和LDA。

02

特征工程完全总结

目录 1 特征工程是什么？ 2 数据预处理　　 2.1 无量纲化　　　　 2.1.1 标准化　　　　 2.1.2 区间缩放法　　　　 2.1.3 标准化与归一化的区别　　 2.2 对定量特征二值化　　 2.3 对定性特征哑编码　　 2.4 缺失值计算　　 2.5 数据变换 3 特征选择　　 3.1 Filter　　　　 3.1.1 方差选择法　　　　 3.1.2 相关系数法　　　　 3.1.3 卡方检验　　　　 3.1.4 互信息法　　 3.2 Wrapper　　　　 3.2.1 递归特征消除法　　 3.3

07

如何使用机器学习神器sklearn做特征工程？

本文中使用 sklearn 中的 IRIS（鸢尾花）数据集[1]来对特征处理功能进行说明。IRIS 数据集由 Fisher 在 1936 年整理，包含 4 个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））。导入 IRIS 数据集的代码如下：

02

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

03

使用Python进行数据降维｜线性降维

为什么要进行数据降维？直观地好处是维度降低了，便于计算和可视化，其深层次的意义在于有效信息的提取综合及无用信息的摈弃，并且数据降维保留了原始数据的信息，我们就可以用降维的数据进行机器学习模型的训练和预测，但将有效提高训练和预测的时间与效率。

01

三个主要降维技术对比介绍：PCA, LCA,SVD

随着数据集的规模和复杂性的增长，特征或维度的数量往往变得难以处理，导致计算需求增加，潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法，它捕获数据中的基本信息，同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务，还有助于可视化数据趋势，减轻维度诅咒的风险，并提高机器学习模型的泛化性能。降维在各个领域都有应用，从图像和语音处理到金融和生物信息学，在这些领域，从大量数据集中提取有意义的模式对于做出明智的决策和建立有效的预测模型至关重要。

07

数据处理方法—— 7 种数据降维操作！！

数据降维是一种将高维数据转换为低纬数据的技术，同时尽量保留原始数据的重要信息。这对于处理大规模数据集非常有用，因为它有助于减少计算资源的需要，并提高算法的效率。以下是一些常用的数据降维方法，以及它们的原理和应用。

01

使用sklearn做单机特征工程

出自博客园链接：http://www.cnblogs.com/jasonfreak/p/5448385.html 1 特征工程是什么？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，

04

【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

本文介绍了线性判别分析（LDA）在降维和分类问题中的应用，并提到了相应的优化方法和算法。文章还探讨了LDA在多类分类问题中的使用和收缩方法。

07

算法工程师-特征工程类岗位面试题目

1) DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)函数作用：删除含有空值的行或列

04

Machine Learning-特征工程

最近也是在做特征筛选，有些文章还是蛮有用的，这边整理一些有用的代码给大家参考参考，具体介绍可以看正文，代码的话我保存下来了，有需要的在后台回复“特征工程”即可获取。

02

快速入门Python机器学习（31）

非负矩阵分解(Non-Negative Matrix Factorization:NMF)

02

独家 | 一文读懂特征工程

本文结构 1. 概述机器学习被广泛定义为“利用经验来改善计算机系统的自身性能”。事实上，“经验”在计算机中主要是以数据的形式存在的，因此数据是机器学习的前提和基础。数据来源多种多样，它可以是结构数据，如数值型、分类型，也可以是非结构数据，如文本、语音、图片、视频。对于所有机器学习模型，这些原始数据必须以特征的形式加入到机器学习模型当中，并进行一定的提取和筛选工作。所谓特征提取，就是逐条将原始数据转化为特征向量的形式，此过程涉及数据特征的量化表示；而特征筛选是在已提取特征的基础上，进一步对高维度和

08

手把手教你入门和实践特征工程的全方位万字笔记，附代码下载

（注：本节用到了两个数据集，分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity）

01

机器学习：基于scikit-learn进行特征工程

今天给大家分享如何基于机器学习建模全能包scikit-learn进行特征工程feature-engineering。

01

手把手带你入门和实践特征工程的万字笔记（附代码下载）

（注：本节用到了两个数据集，分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity）

04

手把手教你入门和实践特征工程的全方位万字笔记，附代码下载

（注：本节用到了两个数据集，分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity）

02

【干货】万字教你入门和实践特征工程

（注：本节用到了两个数据集，分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity）

05

使用sklearn进行数据挖掘

目录 1 使用sklearn进行数据挖掘　　1.1 数据挖掘的步骤　　1.2 数据初貌　　1.3 关键技术 2 并行处理　　2.1 整体并行处理　　2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 ---- 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在使用sklearn做特征工程中，

04

手把手教你入门和实践特征工程的全方位万字笔记，附代码下载

（注：本节用到了两个数据集，分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity）

02

【转载】使用sklearn优雅地进行数据挖掘

数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名（不光同名，参数列表都一样），这难道都是巧合？

02

python主题建模可视化LDA和T-SNE交互式可视化

我尝试使用Latent Dirichlet分配LDA来提取一些主题。本教程以自然语言处理流程为特色，从原始数据开始，准备，建模，可视化论文。

01

智能算法在假肢上的应用

智能可穿戴传感器设备、智能家居、智能汽车等为代表的“智能化”装备，通过引入集成芯片和软件操作系统，为大量的商品添加了“智能”元素，并与互联网、物联网、云计算等进行紧密融合，协同发展，为用户提供运动统计、智能家庭、智慧交通、健康管理、远程医疗等各种服务。

02

[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。

00

python主题建模可视化LDA和T-SNE交互式可视化|附代码数据

我尝试使用Latent Dirichlet分配LDA来提取一些主题。本教程以自然语言处理流程为特色，从原始数据开始，准备，建模，可视化论文。

04

Python实现LDA模型

文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习技术，它是将一篇文档的每个词都以一定概率分布在某个主题上，并从这个主题中选择某个词语。文档到主题的过程是服从多项分布的，主题到词的过程也是服从多项分布的。

02

nlp 关键词提取_nlp信息抽取

关键词是能够表达文档中心内容的词语，常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支，是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。

04

有关如何使用特征提取技术减少数据集维度的端到端指南

如今，使用具有数百个（甚至数千个）特征的数据集变得非常普遍。如果要素的数量变得与存储在数据集中的观测值的数量相似（甚至更大！），则很可能导致机器学习模型过度拟合。为了避免此类问题，有必要应用正则化或降维技术（特征提取）。在机器学习中，数据集的维数等于用来表示数据集的变量数。

02

【模式识别】实验二：K近邻算法(KNN)

KNN原理报告里有写，不作重复赘述。本实验使用的编程环境是Jupyter，完整的程序代码可以戳这下载。【模式识别】实验二：KNN，python程序代码与实验过程这里仅贴上核心代码

02

用scikit-learn进行LDA降维

在线性判别分析LDA原理总结中，我们对LDA降维的原理做了总结，这里我们就对scikit-learn中LDA的降维使用做一个总结。

02

常见的降维技术比较：能否在不丢失信息的情况下降低数据维度

本文将比较各种降维技术在机器学习任务中对表格数据的有效性。我们将降维方法应用于数据集，并通过回归和分类分析评估其有效性。我们将降维方法应用于从与不同领域相关的 UCI 中获取的各种数据集。总共选择了 15 个数据集，其中 7 个将用于回归，8 个用于分类。

03

MLK | 机器学习的降维"打击"

"MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，内容主要来自于《百面机器学习》一书，结合自己的经验与思考做的一些总结与归纳，本

02

机器学习算法之线性判别分析(LDA多分类)

前面一篇文章我们介绍了LDA二分类算法，这篇文章是在上一篇文章的基础上进行推广。如果推文的公式难以看懂，建议对照着西瓜书的60页看，可能我会漏一些符号的表达意义。

03

Sklearn包含的常用算法

参考资料来自sklearn官方网站：http://scikit-learn.org/stable/

05

教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句子、段落，再到文档。在文档层面，理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。

00

（数据科学学习手札17）线性判别分析的原理简介&Python与R实现

之前数篇博客我们比较了几种具有代表性的聚类算法，但现实工作中，最多的问题是分类与定性预测，即通过基于已标注类型的数据的各显著特征值，通过大量样本训练出的模型，来对新出现的样本进行分类，这也是机器学习中最多的问题，而本文便要介绍分类算法中比较古老的线性判别分析：线性判别最早提出合理的判别分析法者是R.A.Fisher（1936），Fisher提出将线性判别函数用于花卉分类上，将花卉的各种特征利用线性组合方法变成单变量值，即将高维数据利用线性判别函数进行线性变化投影到一条直线上，再利用单值比较方法来对新样本

数据挖掘中常用的基本降维思路及方法总结

根据一定的规则和经验，直接选取原有维度的一部分参与后续的计算和建模过程，用选择的维度代替所有维度。优势是既能满足后续数据处理和建模要求，又能保留维度原本的业务含义，以便业务理解和应用。

02

【机器学习】--LDA初始和应用

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。由于 Dirichlet分布随机向量各分量间的弱相关性（之所以还有点“相关”，是因为各分量之和必须为1），使得我们假想的潜在主题之间也几乎是不相关的，这与很多实际问题并不相符，从而造成了LDA的又一个遗留问题。

03

LDA有标签数据降维

之前无标签数据降维PCA，那么像下图带有标签数据，如果用PCA降维将会投影到v轴上，这个投影方差最大，数据将变成不可分状态，LDA将把数据投影加上已有分类这个变量，将数据投影到u轴上假设原数据分成n

06

潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）

潜在狄利克雷分配（latent Dirichlet allocation，LDA），作为基于贝叶斯学习的话题模型，是潜在语义分析、概率潜在语义分析的扩展，于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

02

教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句子、段落，再到文档。在文档层面，理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭