监督算法_最大期望em算法监督学习_半监督 python - 腾讯云开发者社区

、、、

我在最后一年的项目中使用statsmodels库分析了几种不同的时间序列预测方法，例如ARIMA和SARIMA。查看过去的文献，我发现回归算法也可以与滑动窗口等方法结合使用。然而，我不能澄清的是，时间序列预测属于哪种算法。我确信它不是无监督的，因此这是否意味着时间序列预测算法是有监督的算法？或者它是一种不同类型的机器学习？

浏览 255提问于2019-04-25得票数 1

2回答

遗传算法是无监督学习的一种形式吗？

、、

我有个很简单的问题。然而，我已经进行了广泛的搜索，无法找到答案。遗传算法被认为是一种无监督学习的形式吗？我知道算法是独立进化的，但是种群中每个个体的适应度是定期测量的(监督的？)。该算法的目的是通过遗传算法优化一组启发式权重。谢谢你的帮助！-

浏览 12提问于2013-12-23得票数 3

回答已采纳

1回答

使用AutoML (来自H2O)是否可以只使用Word2Vec算法，并尝试不同的参数值，以找出哪些参数设置为我的数据集提供了最准确的向量？因此，我不希望AutoML将DeepLearning、GBM等算法应用到我的数据集。只有Word2Vec算法…我该怎么做？到目前为止，我只用H2O构建了一个word2vec模型。我想用AutoML测试Word2Vec的超参数的不同设置，以评估哪些设置是最佳的……

浏览 1提问于2019-03-26得票数 0

2回答

在神经网络等无监督学习算法中，我能使用标记数据吗？

、、

我正在开发一个事务数据集，该数据集包含一些标记功能，如性别、产品类别、成员类型等。还有一些数字数据，如事务数量、产品数量等等。对于所有的分类数据，我使用一个热编码器，对于所有的数字数据，我使用一个最小的编码器。在这种情况下，我是否可以将所有的分类数据提供给无监督的学习算法，如神经网络和KMeans聚类？是否需要使用PCA将所有分类数据转换为数字数据，然后将其输入到中性网络？

浏览 0提问于2021-07-05得票数 0

回答已采纳

1回答

我所做的是监督的还是非监督的机器学习？

、、、、

我的目标是从Twitter上得到一个智能手机的名字。这就是我所遵循的： 1-我使用关键字“smartphone”提取了100 K的tweet。 2-我在应用ngram标记化和cleaning.So后应用了LDA，得到了诸如：(giveway，international，apple，iphone_6，samsung_s5，news…)等嘈杂的结果。 3-我使用智能手机列表(iphone_6、samsung_s5、iphone_4s、…)过滤结果。从DBpedia中提取，以消除噪声。我所做的是监督的还是非监督的机器学习？

浏览 0提问于2016-07-15得票数 1

1回答

如何提高成绩？我应该移除这些柱子吗？

、、

我使用这个数据集，目标列是最后一个'DEATH_EVENT'，我把最后一个分隔开了。我正在使用KMeans来计算命中和失误的次数。结果非常糟糕，我想我应该删除一些列，或者创建一个删除的循环。你怎么做？ import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split X = np.genfromtxt('heart_failure_clinical_records_dataset.csv', delimiter=

浏览 0提问于2022-05-25得票数 0

2回答

监督学习和标签

、、

在这 wiki页面中，我看到了以下短语。如果没有标记数据，则不可能进行有监督的学习，并且需要进行无监督的学习。我不明白为什么不可能有监督学习？感谢任何帮助解决这一歧义。

浏览 0提问于2016-01-01得票数 5

回答已采纳

1回答

机器学习中的训练和测试数据

、

我想用K均值算法训练数据，然后在另一种类似的数据上测试它，只删除一列。我是机器学习的新手，所以我已经把的代码应用到了我的一个数据集上，但是在这个网站中，预测部分在哪里发生呢？我们只是给出数据和测试的准确性。如何将该算法应用于测试数据(这显然是不同的)来预测缺失属性的值？

浏览 0提问于2019-02-09得票数 0

回答已采纳

2回答

机器学习(无监督方法)

、

我有一个关于强化学习的问题。如果我们在无监督方法中使用一种机制来发现环境的响应，以提高其性能，那么该方法仍然是无监督的吗？换句话说，使用环境的响应，一个方法是有监督的，还是我们可以以无监督的方式来做？如果是这样的话，是怎么做的？

浏览 0提问于2013-12-08得票数 2

1回答

一个自项目的算法建议

、、、、

所以，我正在做一个关于数据分析的自我小项目。我正在收集安卓应用程序的数据，从游戏商店网站通过网络抓取。我基本上是在收集与某一特定应用程序相关的所有可能的信息，比如它的类型/类型和子类型、评级、大小、下载次数(如果是付费的/无偿的)，以及其他可能的有关应用程序的信息，只要可能的话。我在想，在我完成数据提取和清理工作之后，我可以在我的play存储应用程序数据上应用什么数据分析相关的算法来分析它并找到其中的模式，预测数据之间的链接，并对其进行其他预测和数据分析？我遇到的几个例子是:- TFID、聚类、决策树、序列分析以及可能的回归。因此，请回顾上面的那些，并提出任何新的算法，这可能对我的项目有

浏览 0提问于2018-09-27得票数 1

1回答

如何训练像RBM这样的无监督神经网络？

、、、

这个过程正确吗？假设我们有一堆数据，比如MNIST。我们只需将所有这些数据(没有标签)提供给RBM，并从训练好的模型中重新采样每个数据。然后，可以将输出作为新的数据进行分类。我的理解正确吗？使用RBM的目的是什么？

浏览 3提问于2015-08-19得票数 1

1回答

如果不涉及“学习”，一个算法能被归类为“无监督学习”吗？

、、

基本上，我的问题是，既然无监督学习是机器学习的一种类型，那么机器“学习”是否需要有一些方面，并根据它的发现来改进呢？例如，如果开发了一种获取未标记图像并在它们之间找到关联的算法，那么它是否需要根据那些被归类为“无监督学习”的关联来改进自己，还是仅仅是简单地报告这些关联足以获得这种分类呢？

浏览 2提问于2016-08-16得票数 0

回答已采纳

1回答

K-均值与感知器泛化能力

、

我实现了简单Widrow感知器和k均值聚类，并将结果与MNIST数据集进行了比较。由于这些算法的线性性质，我没有期望得到很好的结果。WH感知器的准确率为70%，k-均值为50%(我有单元测试，并与纯粹的随机机会1/10进行比较，我认为它们在某种程度上是正确的)。我也给出了“提示”k-意思是在不同的数字周围设置初始的质心，这样它就能更快地收敛。我认为k均值显示了这个结果，因为数字非常相似(6类似于8，8类似于9)。然后假设WH感知器的泛化能力优于k-均值.有人看过关于这个话题的文章/书吗？我想从严谨的数学角度来理解结果。

浏览 0提问于2016-09-19得票数 0

1回答

如何检测各特征时间序列中的异常

、、、、

浏览 0提问于2021-10-29得票数 1

回答已采纳

1回答

如何派生模式

、、

我想推导出一种模式，告诉我何时应该打开门，何时应该关闭门。例如，如果状态谱指的是前门，记录的数据显示，第一天在上午9点、中午12点和下午6点开放1分钟，第二天在9:30、12 :30和6:30开放1.5分钟，第三天……类似地，那么应该派生出一个模式，其中比如说，每天上午9点到10点，下午12点到1点，晚上6点到7点(或类似的时间)，前门打开的时间不到两分钟。该怎么做呢？有什么算法吗？这可以使用weka或其他机器学习程序来完成吗？

浏览 1提问于2011-03-07得票数 1

回答已采纳

3回答

帮助定义问题的2类类别是什么？

、

在学习机器学习的过程中，我了解了在开始尝试建模之前定义问题的重要性。我可以看到两种类型的问题分类：监督/无监督/强化算法分类/聚类/回归/排名在网络上找到的示例定义：第一类：监督算法:训练数据集有输入和期望的输出。在培训期间，模型将调整其变量，将输入映射到相应的输出。无监督算法:在这类算法中，没有目标结果。算法将对不同组的数据集进行聚类。强化算法:这些算法都是关于决策的训练。因此，在这些决策的基础上，该算法将根据输出的成败进行训练。最后，通过经验算法将能够给出良好的预测。第二类：分类:你想要一个算法来回答二进制的是或否问题(猫或狗，好的或坏的，绵羊或山羊，你知道)，或者你想

浏览 0提问于2018-10-09得票数 1

1回答

如何比较监督学习算法及其技术集成学习算法？

、、、、

我不得不比较支持向量机和随机森林算法，但是我搞不懂如何比较它，比如支持向量机是监督学习算法，随机森林是集合学习算法。帮助我如何比较它在哪一点上像-在分类，在回归。

浏览 0提问于2020-04-17得票数 0

回答已采纳

1回答

人工神经网络中的无监督学习

、、、

如果我要用遗传算法训练一个人工神经网络的权重，这是什么类型的学习呢？我相信它是无人监管的但它有名字吗？它似乎可能属于强化学习，但我不太确定。

浏览 4提问于2014-02-23得票数 1

回答已采纳

28回答

监督学习和无监督学习之间的区别是什么？

、、、

在人工智能和机器学习方面，监督学习和无监督学习有什么区别？你能用一个例子提供一个基本的，简单的解释吗？

浏览 10提问于2009-12-02得票数 290

回答已采纳

1回答

R中的预测h2o.automl模型

、、

我第一次学习了一个教程，在h2o中使用了中的R。我想做的是对我没有的数据进行预测，这意味着在测试集之外，未来的日期。数据是时间序列，测试集上的预测如下所示： print(automl.error.tbl) # A time tibble: 10 x 5 # Index: Time Time actual pred error error.pct <date> <dbl> <dbl> <dbl> <dbl> 1 2018-01-31 11.4 11.4 0.0342 0

浏览 0提问于2019-01-04得票数 1

回答已采纳

1回答

检测稀疏分布中的异常值？

、、、、

我想找出检测异常值的最佳方法是什么。这就是问题所在，以及一些可能无法工作的东西。假设我们想从mysql中一个脏的varchar(50)列中提取一些准一致的数据。让我们从按字符串长度进行分析开始。 | strlen | freq | | 0 | 2312 | | 3 | 45 | | 9 | 75 | | 10 | 15420 | | 11 | 395 | | 12 | 114 | | 19 | 27 | | 20 | 1170 | | 21 | 33 | |

浏览 1提问于2012-01-20得票数 5

1回答

校准的激光雷达和相机数据可以被视为标记数据吗？

、、、、

我将用校准的激光雷达和图像数据训练我的神经网络。此数据是否会被视为标记数据？这个网络可以用无监督学习来训练吗？这个模型有没有可能从这些数据中正确地学习到呢？我乐于接受任何建议。谢谢。

浏览 22提问于2019-10-14得票数 0

3回答

异常检测需要什么样的学习？监督学习，半监督学习还是非监督学习？

、、、

最近，我正在做异常检测，其中一种方法是使用AEs模型来学习正常样本的模式。如果不符合正常样本的模式，则将其确定为异常样本。我训练AE没有标签，但我们需要使用‘标签’来确定哪个样本是正常的或不正常的。我想知道这种培训是监督学习、半监督学习还是非监督学习？

浏览 0提问于2019-05-12得票数 0

1回答

根据数据类型，最适合的机器学习算法是什么？

、、

我是数据科学的初学者。我发现一些机器学习算法在给定特定类型的数据(即数值、分类、文本、图形)时表现得更好。我在网上搜索了这个话题，但没有运气。我想知道根据给定的机器学习算法哪种数据性能最好？更好的解释一下为什么某些类型的数据适合某些机器学习算法？？希望对这个问题的回答将有助于数据科学的初学者。更新:如果您能够解释哪些类型的数据最适合下面的算法，那就更好了。朴素贝叶斯，支持向量机，回归，K-均值，深层神经网络.

浏览 0提问于2017-06-23得票数 9

1回答

基于监督数据集的强化学习

、、、

我试着做一个大学项目，我的问题是，我的教授让我在一个基本的监督数据集上做一个像RL这样的高级ML模型，我试图让他相信RL也是不合适的。是否有方法对基于时间的数据集执行RL？或者你建议什么型号(高级型号)？

浏览 2提问于2022-08-08得票数 0

4回答

不知道SKLearn预先分类的情况下的多分类

、、、

最近，我已经开始使用SKLearn，特别是分类模型，并且对用例示例提出了更多的问题，而不是停留在任何特定的代码上，因此，如果这里不是问这样的问题的合适位置，那么我可以提前提出一些建议。到目前为止，我一直在使用样本数据，根据已经被分类的数据对模型进行训练。“虹膜”数据集--例如，所有的数据都被分类为三种中的一种。但是，如果一个人一开始不知道分类，就想对数据进行分组/分类，该怎么办？让我们来看看这些虚构的数据： Name Feat_1 Feat_2 Feat_3 Feat_4 0 A 12 0.10 0 9734 1 B 76

浏览 1提问于2019-09-17得票数 0

回答已采纳

1回答

请告诉我如何拆分决策树中的数值列或节点

、、

请告诉我如何拆分一个有数值的节点，比如我的父节点是温度，它有数值45.20、33.10、11.00等，这样的数值应该如何拆分？如果我有一个分类列，比如温度有一个低的值和一个高的值，我会把它分成左边的低和右边的高。但是如果列是数字的，我应该如何拆分它呢？

浏览 1提问于2020-02-12得票数 1

1回答

仅对数据进行策略梯度，不使用仿真器

、、、、

对我的团队来说，模仿代理(执行操作和评估奖励)成本太高了，这意味着我们唯一的选择就是在数据集上学习最优策略。好的是我们有大量的数据，这代表了一系列的状态，行动，奖励。我们可以对我们的特工进行数据培训。我们还需要持续的行动，因为这套行动是很大的。因此，策略梯度是可行的，但它通常使用需要仿真器的参与者-评论家。我们不能效法，其他的选择是什么？

浏览 0提问于2018-04-13得票数 1

1回答

Python:用大量变量对每月数据进行聚类分析

、、、、

我希望你们能帮我解决这件事，因为我觉得这是在我之上。对你们中的一些人来说，这可能是愚蠢的，但我迷路了，我来找你们征求意见。我对统计、数据分析和大数据都很陌生。我刚开始学习，我需要做一个关于流失预测的项目。是的，这是一项家庭作业，但我希望你能回答我的一些问题。我将非常感谢一个初级水平的答案一步一步。基本上，我有一个非常大的数据集(很明显)的客户活动数据从蜂窝公司3个月，第四个月结束在搅拌或不搅动。每个月都有以下栏目： ['year', 'month', 'user_account_id', 'user_lifetime'

浏览 4提问于2016-12-20得票数 1

回答已采纳

2回答

sklearn.neighbors.NearestNeighbors - knn用于无监督学习？

、、

从基本理论上看，knn是一种有监督的算法，而k-均值是一种无监督的算法。然而，在Sklearn有一个无监督学习(http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NearestNeighbors.html#sklearn.neighbors.NearestNeighbors)的KNN的实现。在SkLearn，这个无监督的knn到底是什么版本？这是knn算法吗？如果是的话，它是如何被无监督的，因为根据定义，knn是受监督的？如果不是，那又是什么呢？

浏览 0提问于2018-07-05得票数 4

回答已采纳

2回答

神经式学习是有监督的还是无监督的？

据我所知，神经样式转换使用内容图像和样式图像，并在这两个图像的基础上生成新的图像。它试图找到一组像素值，以使成本函数J(C, S)最小化。它没有预先关联的任何标签，但是它有一个输出(生成的图像)应该是学习的目标。然而，我不确定这是监督学习还是非监督学习。它属于哪一个？

浏览 0提问于2017-11-13得票数 7

回答已采纳

6回答

使用深度学习技术的监督学习(文档分类)

、、、

我在读关于深度学习的论文。其中大多数都是指无监督学习。他们还说，神经元是使用无监督RBM网络进行预训练的。然后，使用反向传播算法(有监督)对它们进行微调。那么，我们可以使用深度学习来解决监督学习问题吗？我正在尝试找出深度学习是否可以应用于文档分类问题。我知道有相当好的分类器可用。但我的目标是找出我们是否可以使用深度学习来达到这个目的。

浏览 7提问于2013-10-29得票数 10

1回答

利用K-均值进行物流回归

、、

我用K均值创建了一个二进制分类器，它可以预测欺诈和合法帐户，0和1。 📷 现在，我想使用其他功能，如C和D，预测欺诈和合法帐户。我是否可以使用class中预测的输出类，并使用特性C和D作为物流回归的标签？不好意思，如果这听起来像个愚蠢的问题，我刚刚开始研究数据科学，所以如果我错过了一些基本的问题，请告诉我。

浏览 0提问于2019-03-06得票数 1

2回答

如何在python中按条件应用群集？

、、

我有一个大约50 000个样本的数据集，它包含两个特性，第一个是二进制的，第二个是连续的。我想使用python来使用聚类方法来创建两个类别。 PS：我无法指定第一个类别何时被严格限制以制定规则。我需要一个大多数数字= 0的类别，也就是说，我的目标是在我的数据中有一部分我必须消除它。它有大部分col_A值为0，我需要删除它们，但我不知道它们限制在哪里我的数据看起来是： id Col_A Col_B 1 0 2 2 0 3 3 1 25 4

浏览 0提问于2019-05-16得票数 1

2回答

当使用无监督的芦荟时，什么是“学习”部分，因为它属于机器学习领域？

、、

我有过使用聚类算法进行机器学习的简要经验，我还阅读了简单分类算法的基本思想和计算。现在，我将阅读更多关于“机器学习”的内容，我发现了许多类似的定义，如下所示：机器学习是一门让计算机在不被明确编程的情况下行动的科学.机器学习是一种人工智能(AI)，它允许软件应用程序在不被显式编程的情况下更准确地预测结果. 我的理解是，学习和适应演绎(输出)而不进行重新编程的能力是主要思想，根据我个人的理解，这种“适应”只有通过一种新的训练“监督算法”才能实现，这种训练允许对具有相同程序和源代码的输出模型进行更改/适应/改进。因此，根据我的理解，这个“自适应”和“学习”的定义不适合无监督的机器学习算法，因为所

浏览 0提问于2018-02-19得票数 4

1回答

神经网络:如何利用弱/无监督数据来改进有监督网络？

、、、、

让我们考虑一下，我们已经为某些任务建立了一个完全监督的神经网络，例如在各种场景中定位一个对象。正如您可以想象的那样，给数据贴上标签是很费时的:一个人必须手动地在图像中定位对象，然后在它周围画一个边框--一次一个。假设我们有一个正常的卷积神经网络(CNN)来进行全员监督的定位，因此这样的情况如下： 2D input image | convolutional-layer 1 | ... | convolutional-la

浏览 0提问于2016-11-04得票数 2

1回答

TreeBagger如何处理缺失值

、、

我想知道是否有人知道TreeBagger(Matlab)是如何处理缺失值的。在文献和Breiman中描述的方法似乎有两种。其中一个(显然是更好的)使用递归/迭代方法来计算缺失值。有没有人知道(肯定的)实现了哪种方法？没有可用于设置此设置的选项。我试图查看代码，但不知道这是在哪里处理的以及它是如何处理的。

浏览 6提问于2014-07-21得票数 1

1回答

使用K-均值派生标签，然后使用分类器进行训练(python)

、

我有一个特征数据集'X‘和标签数据集'Y’。现在，在这个问题上，我只允许使用X数据集，并且只允许使用Y作为参考。我使用sklearn的Kmeans算法来预测特征数据集的标签。但是，在比较使用已经分配的标签的派生标签时，Kmeans错误地对大约40%的标签进行了分类。因此，我决定使用Kmeans来导出标签，并使用X和派生标签来拟合和预测分类算法，目的是获得更高的精度。这个策略会起作用吗?有人能建议我一个很好的分类算法，我可以用于这个目的吗？谢谢。

浏览 5提问于2014-12-07得票数 0

1回答

需要在使用何种机器学习方法方面提供援助

、、

我现在正在写我的硕士论文关于声音的主观标记，我觉得我已经被同样的问题困扰了很长一段时间，需要帮助取得进展。简单地说，我将描述我的目标和我迄今所取得的成就。我正在编写一个程序，让用户手动标记音频文件与单一标签，根据他们自己的，即主观的，感知。标签总是形容词，像快乐，鬼鬼祟祟或虚情假意。其目标是通过使用机器学习找到相关的声音，使程序自动标记具有正确标签的相似声音。该程序当前如下所示： 📷 该程序的用法如下：用户添加要标记的声音。该程序使用算法1对文件进行分析，并搜索相关声音。用户标记声音，程序使用算法2自动标记相关声音。用户可以验证程序给出的标签，并选择接受它们或给声音一个新的标签。从

浏览 0提问于2020-01-20得票数 1

回答已采纳

1回答

只有一种输出分类的时间序列数据序列

、、

因此，我面临的问题是，我有一个序列(每10秒间隔30h的数据)，并被标记为整个序列的一个类(3个不同的类)。我习惯于使用时间序列，他们对序列中的每一次样本都有一个输出，现在我对此不感兴趣。到目前为止，我已经考虑过对序列进行统计研究，并创建一个数据集，其中每一行都包含来自序列和目标的研究结果。这样，我就会有一个数据集，每一个X都有一个Y(但我会丢失大量的序列信息)。我来这里是想看看你们中是否有人曾经遇到过类似的问题，或者你们是否对如何处理这个问题有任何想法。

浏览 0提问于2018-11-05得票数 0

2回答

MutiLabel分类

、、、

我有1000多篇与科技有关的新闻文章。我需要训练一个分类器，它将预测每一篇文章的3(计算机科学，电子，电气)信心分数。每个分数表示文章在多大程度上属于每个字段。信心分数是介于0到1之间的值。但是数据集没有训练标签。从这里开始我该怎么做？我需要什么样的数据？我该如何培养这样一个模特呢？

浏览 0提问于2018-12-07得票数 2

回答已采纳

1回答

K-表示结果不佳。

、、、

我有一个有60000行和19个列的数据集(我将在下面留下一个示例)，我正在尝试创建集群。使用k均值算法，我得到一个非常低的分数。数据集样本由于我的一些列是分类变量，所以我使用字典变量连续地对它们进行转换，如下所示： def education_dict(data): education_dict= { "Bachelors": 0, "Graduate Degree": 1, "High School": 2, "Partial College"

浏览 4提问于2022-06-11得票数 0

1回答

K-均值聚类分离温度垂直剖面

、、、、

我有来自山区气象站的温度测量，我想在任何时候从这些数据中获得一个垂直剖面。在一个简单的情况下，我们只需绘制温度与高度图中的所有值，并应用线性/多项式/幻想回归来获得一条曲线，从而得到脱扣率dT/dz的估计值。然而，在某些情况下，天气突然变化，该地区东部和西部的气温差别很大。在这种情况下，上面提到的地块中的值云将是相当混乱的，回归也不会有帮助-- R^2将非常低。我正在考虑在这些情况下使用聚类算法，将值分成两组(例如西部和东部)，每个组都有自己的垂直剖面，这样(理想的情况下)适合于应用回归。该算法可以利用隐藏在温度和高度图中的每个值的地理位置(lat-lon)的信息来确定每个值属于哪一组。

浏览 0提问于2020-11-11得票数 0

2回答

scikit学习多处理器环境下的网格搜索

、、、

我能够在我的四核处理器上本地并行运行scikit learn函数GridSearchCV。我想知道使用mpi4py等MPI模块将其扩展到多处理器环境是否直接。我对此非常陌生，所以我也非常感谢任何额外的相关信息。我现在正在浏览mpi4py的文档。谢谢!

浏览 4提问于2013-09-24得票数 1

2回答

spark的MLlib库中是有监督还是无监督的流式k-means聚类？

、、、、

我知道k-means聚类是最简单的无监督学习算法之一。查看MLlib中打包的流式k-means聚类的源代码，我发现了术语:训练数据、测试数据、预测和训练。这让我认为这个流式K-means可能是受监督的。那么，这个算法是有监督的还是无监督的？这是一个使用流式k-means的代码示例： package org.apache.spark.examples.mllib import org.apache.spark.SparkConf import org.apache.spark.mllib.clustering.StreamingKMeans import org.apache.spark.

浏览 3提问于2015-06-22得票数 1

1回答

基于ELKI MiniGUI的训练集和测试集异常检测

、、、、

我有：一个文件training.arff，它只包含具有正常行为的示例。包含正常和异常行为的样本的文件test.arff。我想使用ELKI MiniGUI进行半监督学习的异常检测. 我认为通常我应该使用training.arff构建/训练一个模型，然后在test.arff上应用这个模型。我使用哪种算法并不重要。我似乎找不到把这两个文件放在ELKI MiniGUI中的位置，这样我就可以得到我想要的结果。(只有dbc.in) *PS:在尝试使用weka一周后，我放弃了，但我并不局限于ELKI。谢谢！！

浏览 3提问于2015-02-19得票数 1

回答已采纳

1回答

时间序列数据中的异常检测-需要帮助

、、、

我正在寻找时间序列数据异常检测的算法。考虑到空气压缩机传感器数据的单参数(入口压力)，进行了单变量分析.目的是实时检测参数值是否存在显著偏差。如果有人做过类似的项目，请分享你的想法。

浏览 0提问于2016-04-27得票数 1

4回答

我可以使用无监督学习，然后是监督学习吗？

、、、

我有一个关于使用监督学习和非监督学习对文档进行分类的问题。例如：-我有一堆关于足球的文件。我们知道，足球在英国、美国和澳大利亚有着不同的含义。因此，很难将这些文件分为三种不同的分类(即足球、美式足球和澳大利亚足球)。我的方法尝试使用基于无监督学习的余弦相似项。在使用聚类学习之后，我们能够基于余弦相似性创建多个聚类，其中每个聚类将包含相似的文档术语。在创建聚类之后，我们可以使用语义特征来识别这些聚类，这取决于支持向量机( SVM )这样的监督模型来进行精确的分类。我的目标是创建更准确的分类，因为如果我想测试一个新的文档，我想知道这个文档是否可以与这些分类相关。

浏览 0提问于2014-08-16得票数 5

1回答

为什么标签不在孤立点检测算法中使用？

、

我从sklearn：https://scikit-learn.org/stable/modules/outlier_detection.html上读到这篇文章虽然这些算法对于异常值的检测非常有用，但我惊讶地发现它们没有使用标签来查找异常值。正常吗？使用它们没有用吗？孤立点检测也称为无监督异常检测。现有的库是否提供有监督的孤立点检测算法？更多解释：如何知道数据点是否真的是一个没有标签的离群点？假设我们想预测一套房子的价格。一座有许多好特色的房子(大面积，大游泳池，大花园，)如果价格较低，则可能是异常值；如果价格高于平均水平，则作为正常点。

浏览 0提问于2019-11-14得票数 2

1回答

如何从文本中提取关键词(标签)

、、、

目前，我正试图在Java中实现一个标记引擎，并寻找从文本(文章)中提取关键字/标记的解决方案。我发现了一些关于堆栈溢出的解决方案，建议使用Pointwise互信息。我不能使用pyton和nltk，所以我必须自己实现它。但我不知道如何计算概率。方程如下： PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ] 我想知道的是如何计算P(项，博士) 我已经有了一个很长的文本语料库和一个文章集。这些文章不是语料库的一部分。语料库用lucene索引。请帮帮我。诚挚的问候。

浏览 1提问于2013-01-15得票数 7