ML管线特征存储的实现_在HashMap中存储特征的不同实现_为实现特征的任何东西实现特征？ - 腾讯云开发者社区

ML pipeline.Typical中关于特征存储的讨论很多，用例是不同的科学家在不同的模型上工作的特征的可重用性。feature feature是否支持功能存储概念？

浏览 14提问于2019-06-21得票数 1

2回答

从Azure机器学习工作区获取所有现有管线

、、

我使用azure机器学习服务(aml)来运行一个ml-model。当我转到AML的GUI时，我可以看到所有现有的管线，但我看不到它们是如何调度的。我需要得到所有的线和相关的元数据。如何使用python sdk获取有关现有管线的信息？

浏览 5提问于2021-10-28得票数 2

1回答

使用词袋

我正在研究在处理存储为文本文件的电子邮件时实现词袋方法。我想使用可以指示电子邮件需要回复的关键字，使用二进制分析电子邮件(例如1|0|1|0|0等，取决于是否使用了该单词)，然后获得可以用于不同ML算法的特征向量。我正在考虑使用PHP来获取特征向量，但我找不到任何现有的实现。有没有可能在PHP中做这样的事情？

浏览 0提问于2013-01-16得票数 0

2回答

如何查看对预测结果影响最大的列？

、、

我使用来预测使用两类增强决策树和拆分数据的列。我需要的是，我希望看到数据集中的列，它对预测的影响和影响最大。换句话说，与数据集中的其他列相比，更改预测结果的列更多。如果以前有人问过这个问题，很抱歉，但是我找不到这个简单问题的正确答案。

浏览 4提问于2017-09-09得票数 2

回答已采纳

1回答

如何从UCI机器学习存储库将数据集(.data和.names)直接读取到Python DataFrame中

、

我正在寻找一种直接从UCI机器学习存储库中读取数据集的方法。但我只能获取数据集..不是它的描述。下面是指向我要导入的数据的https://archive.ics.uci.edu/ml/datasets/Car+Evaluation和https://archive.ics.uci.edu/ml/machine-learning-databases在那里我必须手动编写特征</e

浏览 527提问于2020-06-18得票数 4

1回答

首先要做的是:自动化的xgboost模型参数调优(Hyperopt)或特性选择(boruta)

、、、、

我通过从数据集不同部分创建的许多小的xgboost模型来对客户进行分类。由于很难手动支持许多模型，所以我决定通过Hyperopt自动调整超参数，并通过Boruta进行特性选择。在功能选择之后，功能的数量从2500个减少到100个(实际上，我有50个真实特性，5个分类功能通过OneHotEncoding转到2400个)。如果需要代码，请告诉我。非常感谢。

浏览 2提问于2020-07-09得票数 2

回答已采纳

1回答

我正在通过扩展来编写一个自定义的spark.ml转换器。一切都很好，但是我不能保存这个转换器的实例，因为它不像所有转换器那样从DefaultParamsWritable特征扩展，我也不能直接混入DefaultParamsWritable特征，因为它是特定于org.apache.spark.ml的包。解决这个问题的一种方法是将你的类放在org.apache.spark.ml下。这是实现这一目标的唯一方

浏览 0提问于2016-04-01得票数 5

1回答

“特征提取”是机器学习的核心任务吗？

、、、、

我一直在和一个朋友争论“特征提取”的问题。他说，ML的主要任务是提取特征。但我不同意。在常识中，特征提取不是ML任务。如果我们认为wx+b是表示ML的最简单的方法，ML的任务就是找到最佳的w和b.。ML试图找出给定x的最佳w和b值，它与训练数据相匹配，从而学习如何找到w和b。我的朋友说，提取特征</e

浏览 13提问于2020-03-10得票数 0

回答已采纳

1回答

mllib.DecisionTreeModel.toDebugString()在ml.DecisionTreeClassificationModel中的等价

、、、

正如问题所述，在org.apache.spark.ml.classification.DecisionTreeClassificationModel中是否有类似于星火org.apache.spark.ml.classification.DecisionTreeClassificationModel的东西？我已经研究了后者的API文档，并找到了这个方法rootNode()，它返回了一个似乎是递归对象的org.apache.spark.ml.tree.Node对象，所以我应该使用这个类来自己

浏览 1提问于2016-06-07得票数 0

回答已采纳

1回答

在DataFrame中以所有可能的组合(训练ML模型)删除和包含列，但一个列(目标列)除外

、

我想是这样的， index feature1(target column) feature2 feature3 feature4 0 0

浏览 6提问于2022-09-26得票数 0

1回答

特征提取、选择和分类概念

我知道支持向量机、随机树林和logistic回归是著名的机器学习(ML)分类算法。上面的ML算法是否用于提取特征，而不是选择的一部分？ML算法包括特征提取和分类两个过程吗？训练ML算法的结果(准确性、特异性、敏感性.)在特征提取之后，告诉我们疾病分类的结果吗？

浏览 2提问于2019-11-13得票数 1

回答已采纳

1回答

pySpark中随机林的解释

、、、

大家晚上好，prediction, bias, contributions = ti.predict(rfc, X) 经济分配数组拥有我所需的所有信息，然后我可以操纵它以获得所需的结果。

浏览 1提问于2017-12-05得票数 2

5回答

PySpark & MLLib:随机森林特征的重要性

、、、

我正在尝试提取我使用PySpark训练的随机森林对象的特征重要性。但是，我在文档中没有看到这样做的示例，也不是RandomForestModel的方法。如何在PySpark中从RandomForestModel回归器或分类器中提取特征重要性？

浏览 2提问于2015-03-11得票数 16

2回答

在机器学习中，如何在数字和分类特征上使用统一的管道？

、、

想要运行编码器上的分类特征，输入(见下文)上的数字特征，并将它们统一在一起。例如，具有分类特征的数字： 'A' : ['ios', 'android', 'web', 'NaN'],android 4 13 NaN 2 0 我们希望

浏览 0提问于2019-02-12得票数 2

回答已采纳

3回答

spark ml :如何找到特征重要性

、、、

我是ml的新手，我正在使用Spark ML构建一个预测系统。我读到特征工程的一个主要部分是找到每个特征在进行所需预测时的重要性。在我的问题中，我有三个分类特征和两个字符串特征。我使用OneHotEncoding技术来转换分类特征，使用简单的HashingTF机制来转换字符串特征。然后，这些作为管道的各个阶段输入，包括ml Nai

浏览 1提问于2016-08-22得票数 1

1回答

自动特性选择包- Python

、、、、

我正在处理一个包含977行的二进制分类。班级比例是77:23。我有很多高基数的分类变量和一对数字变量，比如年龄和数量。( a) Featurewiz 这里( c) Xverse 这里我相信还有更多的软件包可以添加到这个列表中您能帮我列出python中的其他自动功能选择包吗？

浏览 0提问于2022-02-21得票数 3

回答已采纳

2回答

特征选择& kNN中的重要特征

、、、

我正在kNN的帮助下开发一个推荐引擎。然而，数据是稀疏的，大约有1500个样本和大约200个特征。我有一个值为1或0的序数目标。另外，对于包含我的样本数量如此之少的特征数量，是否有任何限制？

浏览 19提问于2017-02-03得票数 2

1回答

如何使用遗传算法来促进机器学习？

、、

我是一名本科生，正在对遗传算法在视频游戏中可以/确实扮演的角色进行非常基础的研究。在Youtube上，有人的视频展示了他们如何使用算法来教电脑玩家如何玩游戏。据我所知，遗传算法是一种搜索算法，当你知道你想要实现的一般解决方案时，它是最好的，但不是很准确。例如。在TSP中，你知道你想要找到可能的最短路径，或者在一个考试安排问题中，你希望所有的学生都能够以最少的“中断”参加考试。在这些问题中，算法在clear中使用。然而，我在理解g.a.

浏览 1提问于2012-08-06得票数 0

回答已采纳

1回答

Spark - Naive贝叶斯分类器值错误

、

在训练朴素贝叶斯分类器时，我遇到了以下问题。我得到了这个错误：return NaiveBayesModel(labels.toArray(), pi.toArray(), numpy.array(theta))当使用这一行训练模型时 dataframe = datafra

浏览 0提问于2015-04-22得票数 1

1回答

火花: OneHot编码器和存储管道(特征尺寸问题)

、

我们有一个由多个特征转换阶段组成的流水线(2.0.1)。当训练管道模型，并使用它来预测所有的工作良好。但是，存储经过训练的管道模型并重新加载它会引起以下问题：存储的“训练有素”OneHot编码器不跟踪有多少类别。加载它现在会引起问题:当加载模型用于预测时，它会重新确定有多少类别，从而导致训练特征空间和预测特征空间具有

浏览 3提问于2017-02-06得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云