R表列出了具有频率的多个分类变量_表列出了值，而不是R中的频率_包含多个变量的频率表，按分类变量分组 - 腾讯云开发者社区

machine-learning、python、data-science-model、chi-square-test、anova

我有一个二进制分类问题(目标0 0 1)，我有两个变量连续和分类作为特性。我明白，关于卡方，我只能用分类的特征来评价它们。那方差分析(f_classif)呢？是一样的吗？我只能评价最好的分类特征？提前谢谢你

浏览 0提问于2022-12-24得票数 1

2回答

随机森林分类中字符串标称变量权值的标签编码

python、random-forest、decision-tree、categorical-data、label-encoding

我有NYC 311投诉数据集。我想要构建一个随机森林分类器，它将获取关于投诉的分类输入特性并确定投诉类型。 X = df[['Location Type', 'Incident Zip', 'Street Name', 'City', 'Borough', 'Open Data Channel Type']] 所有这些特性都是名义变量(分类)，我需要将字符串变量转换为浮点变量，然后再将它们输入模型。我不愿意使用一个热标签编码，因为一些功能有超过1000个类别，进一步的计算可能超出我的笔记本电脑。

浏览 3提问于2020-12-16得票数 1

2回答

为什么频率编码工作？

machine-learning、feature-engineering、categorical-data、encoding

频率编码是Kaggle竞赛中广泛使用的一种技术，多次证明是一种非常合理的处理基数高的分类特征的方法。我真的不明白为什么会起作用。它是在非常具体的情况下工作的频率是相关的目标，还是它更普遍？这背后的理由是什么？

浏览 0提问于2019-11-25得票数 15

1回答

Python中文本分类的特征选择

python、text、machine-learning、scikit-learn

我正在使用scikit-learn库中的Random Forest解决python中的一个文本分类问题。我想尝试不同的特征选择方法，例如信息增益(IG)或双正态分离(BNS)，如本中所述。似乎scikit中唯一可用的特征选择方法(使用CountVectorizer类)是基于文档频率的。其他库中有其他方法吗？

浏览 1提问于2014-09-10得票数 0

3回答

支持向量机中不同大小特征向量的编码

machine-learning、scikit-learn、weka、text-classification

我致力于对一些评论(段落)进行分类，由多个句子组成。我通过libSVM在Weka中对它们进行分类。然而，我有另一个想法，我不知道如何实现：我认为在评论中创建每个句子基于句法和浅语义的特性是值得一试的。但是，由于段落的句子大小不同，我无法找到对这些特性进行顺序编码的任何方法。我之所以想把这些特征按顺序排列，是因为句子特征的顺序可能为分类提供了更好的线索。例如，如果我有两个实例P1 (有3个句子)和P2 (2个句子)，我就有一个类似的空格(假设每个句子都有一个二进制特性作为a或b)： P1 -> a b b /classX P2 -> b a /classY 那么，我的问题是，我是否

浏览 2提问于2014-05-31得票数 2

回答已采纳

1回答

SMOTE如何从分类数据中创建新数据？

我在R中使用了SMOTE来创建新的数据，而且效果很好。当我进一步研究SMOTE是如何工作的，我找不到答案，SMOTE是如何处理分类数据的。本文给出了一个仅用数值表示的例子(第10页)。但我仍然不知道SMOTE是如何从分类示例数据中创建新数据的。这是到论文的链接：

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

用于by(组)的不同颜色的分面图

stata

对于数据集中的个人，我有两个分类变量，industry和province。为了创建一个分面图，使我能够看到每个省在一个行业中有多少人工作，我使用以下代码： use https://www.stata-press.com/data/r17/nlsw88.dta twoway (histogram industry), by(occupation) 因为我有大约20个省，所以我想用不同的颜色在by(province)的每个省。我试过使用twoway (graph bar industry, over(province)，但没有效果。在斯塔塔，是否可以用不同的颜色给每个省涂颜色？

浏览 1提问于2022-10-27得票数 0

1回答

RPART解释类型矩阵的预测输出

r、tree、prediction、rpart

当我对分类树使用R(v3.4.0)的预测函数时，它给出了一个10列的输出。 p2 <- predict(mmodel,test_data,type = "matrix") 输出如下所示： [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] 1 3 0 0 37 0 0.0 0.00 1.00 0.0 0.37755102 5 3 0 0 37 0 0.0 0.00 1.00 0.0 0.37755102 9 3

浏览 3提问于2017-09-08得票数 1

1回答

在Scikit学习分类器中找出最常见的术语

python、python-2.7、numpy、scipy、scikit-learn

我遵循的是在某些数据集上使用的CountVectorizer。问题：count_vect.vocabulary_.viewitems()列出了所有术语及其频率。你如何根据发生的次数对它们进行分类？ sorted( count_vect.vocabulary_.viewitems() )似乎不起作用。

浏览 5提问于2013-04-29得票数 4

1回答

使用mutual_info_classif提取最重要的特征(每类)

scikit-learn、text-classification

我使用mutual_info_classif来确定二进制文本分类任务中最重要的单词如下： mi_score = mutual_info_classif(X, y) 但是，上面给出了一系列的特征分数，而没有引用相应的类。是否有一种方法可以使用MI获取每类中最重要的特性？ P.s.，我已经尝试过Chi2了，但是对于这两个类，它给出了相同的特性等级

浏览 0提问于2018-11-12得票数 0

2回答

为什么连续特征在决策树模型中比分类特征更重要？

machine-learning、feature-selection、decision-trees、logistic-regression、explainable-ai

我的预测模型中既有分类特征，也有连续特征，我希望选择(和排序)最重要的特征。我使用一个热编码将所有的分类变量转换为虚拟变量(为了更好地解释我的logistic回归模型)。一方面，我使用LogisticRegression (sklearn)，并通过使用它们的系数对最重要的特征进行排序。通过这种方式，我将分类变量和连续变量都视为最重要的特性。另一方面，当我想使用决策树模型(SelectFromModel)对特征进行排序时，他们总是先给连续的特征排序(feature_importances_)，然后给出分类(虚拟)变量。与Logistic回归完全不同的行为。虽然决策树模型的性能远高于Log

浏览 0提问于2020-01-15得票数 9

回答已采纳

1回答

SPARK 1.5.1:将多标记数据转换为二进制向量

classification、apache-spark、multilabel-classification

我使用的是SPARK 1.5.1，我的DataFrame如下所示： labelsCol, featureCol (Label1, Label2, Label 32), FeatureVector (Label1, Label10, Label16, Label30, Label48), FeatureVector ... (Label1, label 95), FeatureVector 第一列是该示例的标签列表，总共有100个标签。我想为每个标签构建一个二进制分类器，所以我想将标签列表列转换为二进制向量。二进制向量的长度为100，其值将为0或1，这取决于样本标签的存在。这方面有什么解决

浏览 0提问于2015-11-04得票数 0

回答已采纳

1回答

带有chi2的SelectKBest提供了ValueError:无法将字符串转换为浮点型

python、scikit-learn、feature-selection

我正在尝试使用SelectKBest和chi2 (SelectKBest(chi2，k=5))对分类变量应用特征选择。但获取字符串无法转换为浮点型的值时出错。我知道解决方法是使用pd.get_dummies()将分类变量转换为虚拟变量。但为什么会这样呢？卡方检验是用于两个分类变量的二元分析，那么为什么它不接受分类变量？

浏览 21提问于2019-08-12得票数 2

1回答

电子商务网站上无意中出现的关键词填充

seo、keywords、ecommerce、keyword-stuffing

我正在一个电子商务网站的分类页面上工作.我想排名这个类别的网页，为一个特定的关键字。这个类别页面有近30个产品，在标题中有相同的关键字，略有变化。因此，我的关键字密度达到5.2 (我在WordPress中使用yoast插件，这给了我这个数据)，我认为我可以这样做： 1)创建2-3个具体类别，并创建它们各自的分类页。因此，每个类别页面将有10个产品。这将降低关键字的密度。然而，它是相同的关键字，并可能导致关键字大麻。 2)为我真正想要的关键字优化类别页面，但在产品标题中使用类似的关键字。因此，这将消除关键字密度，也避免关键字大麻。我只是一个SEO的初学者。我可能完全错了。如果我遗漏了什么，请告

浏览 0提问于2017-01-13得票数 0

1回答

如何找到影响分类的有影响的词？

machine-learning、neural-network、nlp

所以我知道有很多方法可以把句子分类。就像情感分析(积极，消极，中立)，垃圾邮件(垃圾邮件，而不是垃圾邮件)等等。我想问的是，我如何找到对分类最负责的词。例如：sad-negative, happy-positive, the-no information, are-no information。那么，我如何找到影响分类的单词呢？

浏览 0提问于2018-07-04得票数 1

1回答

R-CNN中的澄清

python、tensorflow、keras、conv-neural-network

我正在学习用R探测物体. 我有图像和注释文件，它给出了对象的边框。我理解R-CNN的这些步骤，使用选择性搜索得到建议的区域使所有区域的大小一致。在CNN上播放这些图片保存特征图并输入支持向量机进行分类。在训练中，我把所有的对象(只有来自图像的对象，而不是背景)提供给CNN，然后用支持向量机训练特征图以进行分类。在每一个博客里，都在说在R-CNN中，有三个部分，1 -selective搜索2 -CNN 3 -BBox回归但是，我没有得到BBox回归的深刻解释。我理解IOU(Intercept )检查BBox的准确性。请您帮助我了解如何使用这个BBox回归来获取对象的坐标。

浏览 2提问于2020-04-11得票数 0

回答已采纳

1回答

如何按结构中的属性值对std::map进行排序

c++、map、std

我有这样的结构..。 struct MessageLetter{ char letter; int count; MessageLetter() {} MessageLetter(char letter, int count) : letter(letter), count(count) {} }; 我用它来创建下面的地图..。 std::map<char, MessageLetter> lList; 我想把它分类，就像这样…… bool compare_count(const MessageLetter& first, const MessageLetter&

浏览 3提问于2013-12-14得票数 0

1回答

dev.cpu.0.freq_levels上的sysctl()

cpu、intel、freebsd、clock、sysctl

在FreeBSD v13框中，我调用sysctl()获取dev.cpu.0.freq_levels，然后返回： dev.cpu.0.freq_levels: 3201/84000 3200/84000 3000/76349 2900/73036 2700/66595 2500/60408 2300/53689 2200/50804 2000/45218 1800/39849 1700/37248 1500/31535 1300/26734 1100/22147 1000/19936 800/15661 我知道这些是frequency/wattage对。为什么3201 Why和3200 Why

浏览 13提问于2022-01-28得票数 2

回答已采纳

2回答

如何将列表列表转换为列表数组？

我在R中有一个列表列表，我想把它转换成一个列表数组，但我只得到一个列表列表的数组： r <- list(list(a=1, b=NULL, c=NULL, d=1.23), list(a=2, b=NULL, c=NULL, d=3.32), list(a=3, b=NULL, c=NULL, d=2.13), list(a=4, b=NULL, c=NULL, d=3.25), list(a=5, b=NULL, c=NULL, d=0.14), list(a=6, b=NULL, c=

浏览 2提问于2012-12-30得票数 3

回答已采纳

1回答

Vaadin覆盖表中按钮列的排序

java、liferay、vaadin

我制作了一个Vaadin表，其中包含一个按钮(除了String)(具有链接样式和描述)，它工作得很好。只有一个问题:我不能对列进行排序！我一直试图找到一种方法来覆盖该列的正常排序，因此它将获得我的Button值，然后从A.或Z中对其进行排序。我想默认情况只是这个领域的一个toString，但我不确定。示例：表列(如生成表列的位置)： table.addContainerProperty(Translator.translate("column.message")，Button.class，null)； ..。 Button messageBut

浏览 3提问于2011-02-22得票数 2

回答已采纳

1回答

R中文本的多类分类

r、text、text-mining、random-forest、multiclass-classification

我已经为多类文本分类建立了一个随机森林。模型的准确度为75 %。有6个标签，但是在6个类别中，只有3个是分类的，其余的不是分类的。如果有人能告诉我出了什么问题，我会非常感激的。下面是我遵循的步骤。数据准备创建用于描述的单词向量。使用单词向量构建一个语料库。预处理任务，如移除数字、空白空间、停止和转换为更低的情况。构建文档术语矩阵(dtm)。从上面的dtm中删除稀疏的单词。上述步骤导致一个计数频率矩阵，显示其编码应答列中每个字的频率。转换计数频率矩阵到二进制实例矩阵，该矩阵将文档中的单词表示为0或1，1表示存在，0表示缺席。使用转换后的dtm

浏览 2提问于2018-01-03得票数 2

2回答

分类调查响应文本支持向量机

machine-learning、r、text-mining、svm

我对一个开放式调查问题有800个答复。根据70个类别的列表，将每个响应分为3类。这些类别有“更强的领导能力”、“更好的客户服务”、“项目”等。我的问题是，我是否可以把它作为一个培训数据集，以便在将来得到更多的调查答复时，我可以开发一个模型？我们想要能够标签，标签，或分类的每一个调查的反应(最多)到3个的70类。这有可能吗？还是我必须用简单的词来表示？你能帮我指导一下教程、例子等吗？在这个练习中使用R。

浏览 0提问于2016-01-21得票数 6

回答已采纳

1回答

如何测量朴素贝叶斯分类器的不确定性和预测误差？

machine-learning、data-mining、naive-bayes-classifier

我有一个由30行和5列组成的小数据集(4个特性和1个类)。分类器用于给出事件发生的可能性。因此，类变量给出了发生的概率。如何测量分类器的不确定性和预测误差？我读过一篇关于测量预测不确定性的这里文章。然而，它正在解决多类分类的问题！

浏览 0提问于2019-01-17得票数 1

2回答

R中缺少值的SVD

r、matrix、svd

我正在使用R执行SVD分析，但我有一个具有结构NA值的矩阵。在这种情况下可以得到SVD分解吗？有没有其他的解决方案？提前感谢

浏览 3提问于2014-11-26得票数 0

2回答

在使用tabulate时，有没有办法克服Stata中“值太多”的错误？

stata

我正在尝试为Stata中的一个变量生成频率，条件是另一个变量的类别。另一个分类变量对我感兴趣的类别有大约79万个观察值。 Stata对单向表和双向表分别有12,000行和1,200行的限制，这使得这是不可能的。每次运行tab x if y==<category of interest>时，我都会得到以下错误： too many values r(134); 我安装了bigtab包，虽然它提供了表，但它不能与by一起使用，也不能运行统计测试。有没有解决这个问题的办法？当SAS甚至SPSS都可以毫无问题地运行完全相同的操作时，Stata竟然会有这个任意的限制，这似乎很愚蠢。

浏览 11提问于2014-03-03得票数 4

2回答

寻找数字编码的分类变量之间的相关性？

python、pandas、machine-learning、statistics

所以我有一个包含分类变量的数据集。我已经根据类别x的数量从0:x对每个类别进行了编码。我试图找到变量(数字和分类)与目标变量(也是分类变量，但已编码为0表示否，1表示是)之间的相关性。我已经能够对所有变量(大约有17个)运行此代码，它似乎确实起作用了，但我质疑相关性是否正确。我以前没有在我的数据集中计算过与分类变量的相关性，只想确保我的方法是正确的： print(df['previous'].corr(df['y'])) 任何帮助都是最好的！

浏览 2提问于2017-11-16得票数 0

1回答

如何计算给定数据集的词汇理解和语义信息？

data-mining、nlp、text-mining、statistics

在词典、分类法、本体论和其他知识结构的自动构造中，他们提到了；有两类稍微不同的衡量标准:词汇衔接(有时被称为“统一”或“短语”)__，它量化了短语中单词共现的期望(例如，书背索引比术语名称更有凝聚力)；语义信息性(有时被称为“术语”)__，它突出了代表给定文档或领域的短语。然而，审查不包括计算/推导这些措施的方法。有人能指定如何为给定的文本文档获取这两个度量吗？

浏览 0提问于2018-03-23得票数 1

1回答

从>3个类别变量(+维护列名)为Stata中的镶嵌图构造新变量

r、stata、mosaic-plot

我的问题是在这里找到的扩展：我是一个R用户，我一直在努力适应Stata语法。而且，我习惯于在Google上搜索R文档/示例，也没有为Stata找到那么多的资源，所以我来到这里。我有一个数据集，其中行表示单个人，列记录这些人的各种属性。有5个分类变量(白人、西班牙裔、黑人、亚洲人、其他)具有二进制响应数据，0或1(“否”或“是”)。我想要创建一个马赛克图的种族和响应数据使用旋转图形包。但是，我认为我必须首先将所有5个分类变量组合成一个类别变量，并有5个级别来维护标签(这样我就可以看到每个种族的响应率)。我一直在玩egen函数，但没能让它开始工作。任何帮助都将不胜感激。编辑:添加了一个描述我

浏览 5提问于2015-09-12得票数 0

回答已采纳

1回答

文本上的点式互信息

statistics、machine-learning、nlp

我想知道如何计算用于文本分类的逐点互信息。更准确地说，我想对tweet进行分类。我有一个tweet(带注释的)数据集，并且我有属于该类别的每个单词类别的字典。有了这些信息，如何计算每个tweet的每个类别的PMI，将tweet归入这些类别之一。

浏览 0提问于2012-11-21得票数 28

回答已采纳

1回答

处理分类变量的KMeans

hadoop、mapreduce、k-means

我正在为一个大型数据文件上的Kmeans聚类算法编写一个mapreduce程序。每个观察值都由包含分类变量和数值变量的列组成。对于Kmeans，不宜在距离计算中包含分类变量。因此，我们需要筛选出包含分类条目的列。我的问题是:过滤掉带有字符的条目很容易，但是如果一列只包含数字，但又被视为分类(如Zipcode、ID)，该怎么办？谢谢!

浏览 4提问于2014-04-28得票数 0

1回答

使用分类数据建模乘法关系

scikit-learn、statistics、modeling

如果我想创建一个使用乘法关系最好地描述资产价格的模型，也就是，价格= base_rate * size_of_asset * number_of_subassets (资产规模，子资产个数均为0，1，2，3…n) 当变量是分类变量时，我可以使用线性组合来做到这一点吗？如果它们是数字的，我可以记录所有的东西，这就是……然而，同样的方法不能应用于分类数据，不是吗？注:我希望它保持乘法关系，所以从比率的角度来看，它是高度可解释的-也就是说，可以说通过将size_of_asset增加30%，价格就会增加x。谢谢你的建议！

浏览 0提问于2017-10-27得票数 0

1回答

似乎频率错误的Python频率滤波

python、scipy、fft、frequency

下面的脚本通过切割所有大于6的频率来过滤频率。然而，fftfreq并没有使用看似正确的函数fftfreq。据我所知，rfftfreq应该与rfft一起使用。为什么这段代码在使用fftfreq与rfft时仍能工作？ import numpy as np from scipy.fftpack import rfft, irfft, fftfreq time = np.linspace(0,10,2000) signal = np.cos(5*np.pi*time) + np.cos(7*np.pi*time) W = fftfreq(signal.size, d=time[1]-time

浏览 0提问于2018-05-06得票数 2

回答已采纳

1回答

来自预测分类器的多个分类

language-agnostic、classification、prediction

我有一个分类问题，我想要预测一个结果，但希望我的分类器在答案上得到几次“尝试”(类似于在每个方向上下注)，而不是一个正确或不正确的分类，并且想知道这方面的最佳过程。例如:给定结果A、B、C和D，我想预测它将是“A或B”，或者“A或C”，并且“正确”的解决方案(至少包含正确的个人答案)会相应地影响学习过程。到目前为止，我的想法是将数据分成几个箱子，或多或少像上面那样(A或C)，并以通常的方式训练分类器，或者训练多个分类器，使它们多样化，并简单地组合结果，但我想知道是否有更好的/不同的方法？我相信这不是一个独一无二的问题，但我不确定Google的正确术语。我不知道这是不是一个相关的问题，但是

浏览 2提问于2011-11-24得票数 0

回答已采纳

1回答

如何从文本中获取手写特征(用于作者属性的任务)

python、nlp、multiclass-classification

在识别给定文本的作者时，我尝试获取手写笔任务的文本特性。我查了一下： characterpunctuation 文本长度文本长度唯一字数等等。但在对这一特征进行分类时，结果不合理，因此：我想检查更多的特征..。我有两个questions:Is 文本、作者、pos 我去上学，x，N，V，. 。。我们是好的，Y，N，V，ADj 我的问题是，如何从pos专栏中获得好的特性？例如，"N“与”其他“的比率？或者像这样的事情..。如何改进multi_input single_lable multi_class的分类结果？用什么特征？有什么好消息来源吗？

浏览 3提问于2020-10-27得票数 0

1回答

亚马逊喜欢分类页面上的排序框

nodes、taxonomy-terms

我有一个分类术语页面，其中列出了某些节点。我想包括自定义排序选项，如亚马逊的搜索结果页面，在顶部。它是带有排序选项的下拉列表，与通常单击表列不同。我已经搜索过，但没有找到在drupal中实现这一目标的资源。对我如何实现这一点有什么想法吗？Thx

浏览 0提问于2012-04-03得票数 1

2回答

如何使用proc单变量显示所有模式的阶数？

sas

我试着展示所有的模式。例如，我导入excel如下： A 1 1 2 3 3 3 守则是： ods select Modes; proc univariate data=Want modes; var A; run; 这个结果显示如下： Mode Count 3 3 我想表现得像 Mode Count 3 3 1 2 2 1 我该怎么做？

浏览 0提问于2019-03-25得票数 0

3回答

C++：均值、中位数和模式

c++、arrays、average、bubble-sort

我最近创建了一个C++程序，用于查找一组值的平均值、中位数和模式。我意识到在一个类中做这件事要好得多。然而，我用来生成平均值的函数并没有输出正确的数字，尽管我非常确定逻辑是正确的。此外，我还修改了我在网上找到的代码片段，创建了一个函数来生成我能够实现的模式，或者至少是它能找到的出现次数最多的值。然而，我并不是百分之百确定如何理解函数中实际发生的事情。如果能更好地理解mode函数中发生了什么，以及我的均值函数中到底出了什么问题，我们将非常感激。这是我到目前为止的代码： #include <iostream> using namespace std; void mode(in

浏览 0提问于2013-12-17得票数 2

回答已采纳

1回答

通过自定义post类型限制自定义分类法下拉列表

php、wordpress、drop-down-menu、custom-taxonomy

我有两个自定义post类型连接到相同的自定义分类法。在特定的页面上，我需要使用我为自定义分类法创建的筛选器来筛选特定的post类型。我能够使用<?php wp_dropdown_categories( $args ); ?>获得自定义分类的下拉列表，但我注意到，它列出了至少两个定制post类型中至少有一个链接到它的所有术语。下面是我要做的事情的一个例子：我有两种自定义邮件类型:汽车和自行车。我有一个自定义分类法(位置) 在一个特定的页面上，我需要使用我为分类法创建的下拉列表过滤post类型的Cars。我面临的问题是，我的分类法位置的下拉列表列出了即使是来自自

浏览 4提问于2015-09-21得票数 0

回答已采纳

1回答

用多种类别编码范畴变量的策略

machine-learning、preprocessing、categorical-data、categorical-encoding

我正在检查Kaggle竞赛IEEE，分类特征编码挑战，其中一种处理分类变量的方法是用列中变量的各自计数频率替换变量。我理解为什么我们需要转换变量，但是有人能解释一下为什么使用这种方法吗？它背后的逻辑到底是什么？其次，我想知道是否有人愿意分享处理分类变量的其他技术(不包括明显的热编码)，或者为这些变量提供一些有趣的方法。谢谢!

浏览 0提问于2019-12-09得票数 4

1回答

如何在R中使用多个处理执行中介分析

r、regression

我想使用R中的中介分析来分析来自实验的数据。然而，实验设计是一个涉及三个变量(两个连续的，一个分类的)的完全析因设计，我找不到如何在R中通过多个处理实现中介的解释。我已经阅读了关于mediation包的文档，但是它们似乎没有提供超出单一处理的扩展X的方法。类似地，我无法在MBESS或lavaan包中找到这样做的方法。我找到了最近的一篇文章，讨论了在中介分析，海斯和传教士2014 ()中实现多重处理所必需的统计理论/方法，但不幸的是，他们只给出了他们的方法在Mplus，SPSS和SAS中的代码实现。我需要在接下来的几天内实现这个演示文稿，所以我没有时间加快另一个程序的速度来完成它，我需要用R实

浏览 0提问于2014-11-02得票数 5

2回答

利用机器学习对大文本进行分类

python、text、machine-learning、classification、text-classification

我有一个大型的xls文档，其中每行都包含一个问题id、它的描述以及expl的分类:类别1- A- a1 我正在尝试建立一个机器学习模型，帮助我根据类别对这个文档进行分类。目标是对于每一个新条目(也就是新的问题描述)，我们将能够定义其各自的类别。约束条件:我有10个以上的类别，它们也是分层的(类别1有不同的子类别，每个子类别有不同的子类别)。我正在考虑分级分类或多类分类，但不知道。描述功能是一个长文本。我正在考虑多项logistic回归，但我读到它需要数值数据。我是否必须将文档中使用的所有单词编成词典才能给它一个数值？这是正确的选择吗？我也希望每个新条目都有分数来分类最近的类(对于一个新的

浏览 4提问于2018-03-07得票数 1

回答已采纳

3回答

选择正确的数据挖掘方法来查找每个参数对目标的影响

data-mining、classification、r、svm、categorical-data

我现在正在处理大量的分类数据，我想在任何工具最好是R中使用适当的数据挖掘方法来查找每个参数范畴参数对我的目标变量的影响。为了简单介绍正在处理的数据，我的目标变量表示产品类型比方说，可处置和非处置，而我有诸如根源、症状、客户名称、产品名称等参数。由于我的目标可以被认为是一个二进制值，所以我尝试使用Apriori找到导致所需类别的值的组合，但是，我在该属性中有两个以上的类别，我想全部使用它们，并找出上述参数对每个类别的影响。我真的很想尝试支持向量机，并使用超平面来分离内容并获得n维视图。但是，我没有足够的知识来验证该技术，功能是用来做分析的。目前，我有大约9000条记录，每条记录都代表用户的投诉。

浏览 0提问于2014-11-14得票数 2

回答已采纳

2回答

计算多变量频率SPSS

frequency、spss、icd

我正在做一个临床研究项目，使用全国医院出院的大型数据集。我们使用SPSS进行统计分析。该数据集包含25个诊断变量(DX1-DX25)，每次放电最多捕获25个诊断。一个患者可以有多个诊断，因此DX1将是主要诊断，DX2是次要诊断，依此类推。 DXn变量是包含ICD-9代码的字符串变量。ICD-9是一种用于疾病分类的诊断代码系统。我们想知道所有25个诊断变量中最常见的10种诊断(ICD-9代码)。有没有办法在SPSS中运行所有25个诊断变量的频率分析？换句话说，我想要一个频率表，显示每个ICD-9代码的组合频率/出现次数。谢谢!

浏览 0提问于2017-04-24得票数 2

1回答

基于分类网络日志数据的孤立点检测

r、clustering、categorical-data、unsupervised-learning、outlier

我正在处理一个完全分类的网络日志数据，它由源ip地址、目标ip地址、源端口、目的地端口、协议组成。执行数据预处理:将IP地址转换为整数。用NA的. Dis删除行不执行缩放，因为它对分类数据没有任何意义，也因为我正在计算Hamming距离。建模与实现:我实现了“Hamming距离”来计算集合的距离矩阵。我已经尝试将分类变量转换为数字变量，将它们转换为因子，并对数据执行Kmeans操作，但是，我得到的精度非常低。我也使用过KModes，我对数据也有集群标签，从这里开始我将面临更多的挑战。问题:一旦计算出距离矩阵，如何才能检测出具有这种数据类型的异常值？我真的很感谢你的建议。提前感谢 Data

浏览 0提问于2017-07-20得票数 2

1回答

与确定性神经网络相比，如何解释二值分类的贝叶斯神经网络预测？

bayesian-networks、probabilistic-programming

请允许我澄清我目前的理解：解释确定性神经网络的二值分类预测一方面，点估计落在乙状结肠曲线上(在0-1之间，其中0.5是分类阈值)。因此，考虑到估计值离0.5有多远，它们已经有了与其相关的伪概率/强度(例如，0.85的预测比0.54的预测更确定) 解释贝叶斯(概率)神经网络的二值分类预测另一方面，BNN不仅给出了点估计(均值，也在乙状结肠曲线上)，而且提供了置信区间。所以我可以说，“这里我们看到了一个0.6的乙状结肠值，我们确定它在0.5以上？” 📷 我的理解正确/缺少什么重要的东西吗？十字柱：https://stackoverflow.com/questions/75848574/

浏览 0提问于2023-03-26得票数 1

1回答

高斯朴素贝叶斯分类中的学习步骤是什么？

machine-learning、naive-bayes-classifier、gaussian

对于条件无关的特征f_i，朴素贝叶斯分类给出了分类器 Classifier(f) := \arg \max_{k} P(C=k) · ∏^n_{i=1} P(f_i|C=k) 对于类k。我理解对于高斯朴素贝叶斯，我可以假设正态分布的特征， Classifier(f) := \arg \max_k P(C=k) · ∏^n_{i=1} \frac{1}{\sqrt{(2πσ_{k,i})}} e^{( -\frac{(f_i - μ_{k,i})^2}{2σ_{k,i})}} 其中μ_{k,i}是类k和Featuref_i的平均值(方差σ_{k,i}的相似)。但是，在整个过程中，“学习步骤”在

浏览 0提问于2020-02-18得票数 2

回答已采纳

1回答

基于交易历史的贷款违约预测

python、classification、prediction

我有一个培训数据集，有25,000个不同的客户，每个交易记录为50-500个银行交易(存款和提款，确切的#因客户而异)。每个客户都得到一笔贷款(从500-2000美元)，他们要么违约，要么没有拖欠贷款(这一信息在培训集中提供)。测试集有大约15,000个不同的客户(与上面不同的人)，我需要根据他们的事务历史来预测他们是否会默认。每个事务都有一个字符串，给出事务的类型(例如，如果他们购买啤酒、咖啡等)。我想知道从机器学习的角度来处理这个问题的最好方法是什么？根据客户的交易历史，哪种模型最能预测客户拖欠贷款的概率？我认为在keras中建立一个神经网络是最简单的方法，但是我不确定如何训练它，因为

浏览 0提问于2019-03-03得票数 1

1回答

Matlab - PSD与信号具有相同的长度？

matlab

我有一个音频信号(130k样本值)，并希望创建其PSD与相同数量的样本。(必须使用自适应预加重/去加重) 所以我的问题是:这是可能的吗?如果是，是如何实现的？我试了好几种方法，但都失败了。首先尝试(使用信号的自相关，然后使用First变换，这是理论上唯一可行的方法)： [y,fs]=audioread('test.wav'); N=length(y); r=xcorr(y); fft(r,length(y)) 另一种方法是使用： [pyy,f]=pwelch(y,[],[],[],fs) 但在这种情况下，pyy的长度不是正确的。最后我发现了这个： N=length(y

浏览 2提问于2015-04-18得票数 0

1回答

用于不平衡数据集的Knn分类器

machine-learning

我想对分类器在我的不平衡数据集上的效果进行估计。当我尝试从sklearn中拟合KNN分类器时，它没有为少数类学习到任何东西。所以我所做的是我用k=R(其中r是不平衡比1: R)来拟合分类器，并且我预测每个测试点的概率，如果少数类的分类器的概率输出大于R(其中r是不平衡比1: R)，则将一个点分配给少数类。我这样做是为了估计分类器的性能(F1-score)。我在生产中不需要分类器。我做的是对的吗？

浏览 31提问于2019-06-24得票数 2

1回答