如何在python中应用分类数据的多元回归_如何在selenium python中保存whatsapp中的站点数据(如cookie)_如何在python中对未标记的数据进行多类分类？ - 腾讯云开发者社区

、、

在Python中是否有执行多元多元回归(具有多个因变量的多元回归)的库？提前问候和感谢

浏览 21提问于2020-02-16得票数 3

回答已采纳

1回答

避免虚拟变量陷阱和神经网络

、、

我知道在训练机器学习算法之前，分类数据应该是一个热编码。对于多元线性回归，我还需要排除其中一个编码变量，以避免所谓的虚拟变量陷阱。例:如果我有“大小”：“小”、“中”、“大”的分类特征，那么在一个热编码中，我会有如下内容： small medium large other-feature 0 1 0 2999 因此，为了避免虚拟变量陷阱，我需要删除3列中的任何一列，例如，列“小”。对于神经网络的训练，我也应该这样做吗？还是这纯粹是为了多元回归？谢谢。

浏览 9提问于2017-11-04得票数 11

回答已采纳

1回答

如何通过检验自变量作为参数进行时间序列预测

、、

你好，我需要帮助，我是时间序列的新手，我正在设计一个多元时间序列实验。我的数据集看起来如下: date x1 x2 x3 x4 x5 y，其中date是日期索引，x1...xn是外生变量，y是固定数据。在这个例子中，我有我热编码的分类变量，所以我的数据是这样的: date x1 x2 x3 x4 x5 y 2022-01 7.8 9.3 0 0 2.3如果这是一个多元回归问题，我会做model.predict( X_test )，其中X_test将是x1...x5数据，以得到yhat，但是在多元时间序列中，我认为这是不可能的。在这个多变量时间序列问题中，我想这样做，比如model.fore

浏览 14提问于2022-05-26得票数 0

1回答

用决策树方法识别多元回归自变量

、、

访问具有数百个变量和数百个案例的数据集(美国社区调查)。需要确定一个小的、可管理的独立变量集(IVs)用于多元回归。当然，要做到这一点，一种方法就是使用适用的理论来识别IVs。想知道如何使用数据驱动(数据挖掘)？办法如下：使用决策树来识别影响(候选人？相关的？)静脉滴注？然后用这些作为多元回归中的IVs？ (似乎记得顺便读过一次，这种变量缩减方法是允许的。) 试着在Google上搜索能澄清上述内容的文章，但是搜索条件是这样的，所以我会不断地点击比较决策树和多元回归的文章。因此，如果你知道的文章和研究论文，说明如何做上述，请留下以下的链接。此外，我也欢迎你就如何进行工作提出自己的初步

浏览 0提问于2016-08-07得票数 1

回答已采纳

1回答

Python中的多元线性回归

、、、

我正在寻找一个实现多元线性回归的Python包。 (术语说明:多元回归处理有多个因变量的情况，而多元回归处理有一个因变量但有多个自变量的情况。)

浏览 0提问于2015-10-28得票数 19

回答已采纳

1回答

决策树分类器如何在全局约束下工作？

、、、、

我用Python生成了一个使用sklearn的决策树分类器，该分类器在准确性方面运行良好。我用线性规划的最优解训练分类器，它将项目的最优分配返回给类，同时考虑全局成本约束(即将项目1分配给A类，代价为x。所有项目和类的总结果成本需要小于y值)。在使用分类器对所有项目进行重新分类后，虽然分类精度是可以接受的，但在大多数分类运行过程中都违反了全局成本约束。当然，因为python中sklearn中的标准决策树不考虑约束。是否有方法将classification？之后的全局约束合并为？在下一次作业选择时，是否有办法强迫树考虑所有已经分类的项目？我认为这需要建立某种成本或惩罚函数，以便在树的分类过程

浏览 1提问于2019-01-19得票数 2

回答已采纳

1回答

多重Y和多重X回归

、

我在试着解决一个问题。一个生产工厂有20个输入(自变量、原料和工艺条件)和6个输出(因变量、产量)的广泛数据集。我们试图找出20个输入和6个输出之间的关系，并对模型应用一些约束(例如，输出的总和不能超过100%)。我仍然是Python的初学者。请问这是什么类型的问题，如何使用Python进行分析？我一直在网上寻找答案，看起来可能是一种“多元回归”，但我不确定。提前感谢您的建议！

浏览 2提问于2020-08-17得票数 0

1回答

如何从多元回归中提取T值，将它们放入R中的向量中？

、、

当运行多元回归时，如下所示(数据来自2014和2015年NHL季节，用于预测胜利)： TwoPredictorModel<-lm(Wins~Time.Shorthanded+Shots.per.Game, data=dat) summary(TwoPredictorModel) 并产生以下结果： Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -18.042277 18.056039 -0.999 0.321903 Time.Shorthanded

浏览 2提问于2015-06-01得票数 1

回答已采纳

2回答

不均匀间隔时间序列的建模

、、

我有一个连续的变量，在一年的时间里以不规则的间隔抽样。有些日子每小时有一次以上的观察，而其他几天没有任何观察。这使得在时间序列中检测模式变得特别困难，因为一些月(例如10月)是高度抽样的，而其他月份则不是。 📷 我的问题是，什么是最好的方法来建模这个时间序列？我认为大多数时间序列分析技术(如ARMA)都需要固定的频率。我可以聚合数据，以便有一个固定的样本，或者选择一个非常详细的数据子集。使用这两个选项，我将从原始数据集中丢失一些信息，这些信息可能会显示出不同的模式。我可以用整个数据集来填充模型，并期望它能够获取模式，而不是在循环中分解这个系列。例如，我在分类变量中转换了小时、工作日和月份，

浏览 0提问于2014-11-03得票数 15

1回答

python中的回归OLS

、、

对于python中的多元回归模型，我有一些疑问：为什么需要为最小二乘法(OLS)应用一个“虚拟截距”向量来启动？(我指的是X= sm.add_constant(X)的用法。我知道，最小二乘法是一个导数系统，等于零。它是否用某种迭代方法计算，使“虚拟截距”成为必要？在哪里可以找到有关算法est = sm.OLS(y，X).fit()?的详细信息据我所知，生成了数据的规范化。标准化通常不会产生大于1的值。为什么，一旦缩放，我就会看到超过1的值？哪里可以找到关于python函数的正式文档？提前感谢

浏览 8提问于2022-02-17得票数 1

回答已采纳

1回答

如何在iOS中实现随机决策森林分类

、、、、

我正在使用objective-c和Xcode制作一个iOS应用程序，它将从用户那里收集和分析一些数据。使用此数据，它将返回3个分类中的一个。我可以使用R或Python中的训练数据来创建具有此功能的随机森林模型。我想知道现在我可以在iOS应用程序中实现这个模型，这样它就可以返回一个分类。如果这是不可能的，那么也许可以在应用程序本身中合成模型并以某种方式将其存储以供新数据再次使用，或者如果不可能在应用程序本身中存储模型，则每次使用存储的训练数据来创建新模型。感谢您的帮助:-)

浏览 0提问于2016-01-19得票数 2

1回答

多元回归神经网络损失函数

、、

在Tensorflow中，我正在用完全连接的多层神经网络进行多元回归。该网络在给定输入向量(y1,y2)的情况下，预测2个连续浮动变量(x1,x2,...xN)，即网络有2个输出节点。对于两个输出，网络似乎没有收敛。我的损失函数实质上是预测向量和真理向量(每个包含两个标量)之间的L2距离： loss = tf.nn.l2_loss(tf.sub(prediction, truthValues_placeholder)) + L2regularizationLoss 我使用L2正则化，退出正则化，我的激活函数是tanh。我的问题：L2距离是计算多变量网络输出损失的正确方法吗？是否需要一些技巧

浏览 3提问于2016-07-17得票数 12

回答已采纳

3回答

在Python中使用NumPy进行多元回归？

、

是否可以使用NumPy在Python语言中执行多元回归？ documentation 建议是这样的，但是我找不到关于这个主题的更多细节。

浏览 2提问于2010-05-10得票数 1

回答已采纳

1回答

基于字符串内容的机器学习识别和分类:一般建议

、

我最近才开始对机器学习产生兴趣，我有一个特别的问题，我想开始探索。我想训练一个系统来根据字符串中的内容自动分类一个项目的各种属性。假设我有一长串各种各样的共同基金，比如： Ticker Fund Name ------ --------- ABNAX ABC Bond Fund, Inc: Bond Inflation Strategy ALYSX ABC Bond Fund, Inc: Credit Long/Short Portfolio; Advisor Class AGRXX DEF Bond Fund, Inc: Government Reserves Portf

浏览 0提问于2016-07-09得票数 4

回答已采纳

1回答

用Python规范数据格式

、

我有一个包含大约60列的数据，在通过多元回归分析之前，我需要对其进行规范化。是否有python包可以做到这一点？我已经看到了可以实现这一目标的代码或答案，而不是包。

浏览 11提问于2022-08-24得票数 0

1回答

如何使用python将多元回归中的截距置零？

、、、

在python/scipy/numpy中可以将多元回归的截距置零吗？我在OLS食谱()中找不到它。我不希望使用RPython，但这是唯一的方法吗？

浏览 1提问于2012-05-20得票数 3

回答已采纳

1回答

选择独立于所使用模型的特性的最佳方法是什么？

、、、、

我使用tensorflow的DNNRegressor来建模一个多元回归问题。我想要形成一个最优的特征集从一个混合袋的分类和连续的特性。最好的办法是什么？原因是，我希望这种方法独立于模型，因为我在tensorflow的直接上下文中找不到很多关于特征选择/评估的信息。

浏览 0提问于2018-06-12得票数 0

1回答

如何在weka模型中找到支持向量

、、、

我是weka的新手，我想用java编写一些使用支持向量机对数据集进行分类的代码。我想从weka模型中检索支持向量。我之前使用LibSVM编写了一个python脚本，它非常简单。我想使用SMO分类器来创建一个100%的weka应用程序，但这可能是一个不可能完成的任务。

浏览 3提问于2019-10-25得票数 0

1回答

MANOVA或多元回归

、

我们有几个独立变量(一些是超过5级的连续变量，一些是二进制的，一些是准区间的(5级-分类)。我们还有5个因变量，它们共享一个共同的结构。将所有连续/准区间作为协变量，并将二元变量作为因子变量进行MANOVA是否有用-或者进行5个单独的多元回归分析？谢谢

浏览 2提问于2014-12-01得票数 0

1回答

在Composer业务网络中有什么加密分类账数据的方法吗？

我认为分类账中的数据加密应该由超级分类账结构中的应用程序(客户端应用程序和链码)来完成。有没有办法用超级分类器对分类帐的数据进行加密？我应该在客户端应用程序或事务处理功能中实现加密吗？

浏览 0提问于2017-10-27得票数 0

回答已采纳

2回答

如何在R中同时运行几个线性回归？

、

如果我有一个包含变量A、X、Y和Z的数据集，并且我想运行两个线性回归-两者都以A为因变量，但一个以X为自变量，另一个以Y为自变量(注意-不是多元回归)，我该怎么办？ lm(A ~ X, Y, df = df)似乎不起作用，显然，lm(A ~ X + Y, df = df)变成了一种多元回归。我可以使用lm(A ~ ., - Z, df = df)，但我正在寻找一种方法，可以选择多个变量作为自变量。谢谢。

浏览 48提问于2020-10-16得票数 0

1回答

如何将不同特征类型的分类器训练在一起？例如字符串，数字，分类，时间戳等

、、、

我是机器学习领域的新手。我参加了Udacity的“机器学习入门”课程。所以我知道使用sklearn和python运行基本分类器。但他们在课程中教授的所有分类器都接受了单一数据类型的培训。我有一个问题，我想把代码提交分类为“干净”或"buggy“。我有一个特性集，它包含字符串数据(比如人名)、分类数据(比如“干净”和"buggy")、数字数据(比如否)。和时间戳数据(如提交时间)。如何同时训练基于这三个特征的分类器。假设我计划使用朴素的贝叶斯分类器和滑雪板。请帮帮忙！我正在尝试实现。任何帮助都是值得赞赏的。

浏览 3提问于2016-05-06得票数 1

回答已采纳

2回答

如何在风暴爬虫中使用蟒蛇螺栓？

、、

我有一些图像分类器是用python编写的。网站上有很多例子，描述了在stdin/stdout的风暴螺栓中使用python的方法。我想集成我的python图像分类器和风暴爬虫拓扑。有可能吗？谢谢

浏览 2提问于2020-01-04得票数 0

回答已采纳

1回答

范畴变量与回归的关联

、、、

我们进行数据分析和建立模型。例如，我构建了一个具有多个预测器(多元回归)的回归模型。然后我们检查了许多事情:正态性、多重共线性等，特别是我们检查了多重共线性、数值/连续变量、变差通货膨胀因子( VIF )等，如果我们发现存在多重共线性，那么我们就去掉了其中一个高度相关的特征。我的问题是:分类变量可以做些什么？我的意思是，如果两个分类变量是相关的/相关的，这是否意味着我必须放弃它？我不清楚如何处理分类变量，就像我们处理连续变量之间的相关性一样。我们所说的两个因素变量是相关的、相依的还是独立的，这是什么意思？如果有共线呢？你是如何识别共线的？你是怎么处理的？

浏览 0提问于2016-05-08得票数 1

1回答

选择独立于所使用模型的特性的最佳方法是什么？

、、、、

我正在使用tensorflow的DNNRegressor来建模一个多元回归问题。我想要形成一个最优的特征子集从一个混合袋的分类和连续的特征。最好的办法是什么？我之所以希望这种方法独立于模型，是因为我在tensorflow的直接上下文中找不到很多关于特征选择/评估的信息。

浏览 0提问于2018-06-12得票数 1

1回答

如何在R中求多元多元回归的AIC或BIC

、、

我试图比较R中的两个多元多元回归模型(参见) 当我使用AIC()或BIC()时，R说它不允许多个响应。对于多元多元回归模型，是否有一种方法可以得到一个单一的AIC/BIC或r^2 (或者对于多个反应，它在数学上是不健全的)？

浏览 2提问于2015-07-13得票数 1

回答已采纳

1回答

输出Scikit Learn OLS报告

、、

我正在对一堆数据子集运行OLS多元回归。我现在正在用它在我的Jupiter Python Notebook中打印结果： est = sm.OLS(y.astype(float), df_new.astype(float),hasconst=True).fit() print (est.summary()) 我想以某种有序的格式将每个摘要保存到.csvor .xcl中。现在，复制-粘贴不起作用--没有标准分隔符。有什么关于输出每个摘要的编程方法的提示吗？

浏览 14提问于2017-08-27得票数 0

回答已采纳

1回答

预测时间序列数据

、、、

我有如下数据集： 📷 这是测试用例1，我的目标是填充缺少的年份数据。由于年龄、性别和吸烟情况没有变化，所以我必须预测00年的情况和百分比数据，一直到54岁。我发现状态和百分比变量之间有很高的相关性。这似乎很简单。但我现在有点糊涂了。我应该使用多元回归吗？最好的方法是什么？

浏览 0提问于2020-08-17得票数 1

回答已采纳

2回答

我可以导出RapidMiner模型来与python集成吗？

、、、

在尝试了大量算法后，我使用RapidMiner训练了一个分类器模型，并在我的数据集上对它进行了评估。我还将模型从RapidMiner导出为XML和pkl文件，但我无法在我的python程序中读取它(Scikit Learn)。有没有任何方法在python程序中导入RapidMiner分类器/模型，并使用它来预测或分类我的最终应用程序中的新数据？

浏览 6提问于2016-06-02得票数 1

回答已采纳

1回答

如何在python中安装PostgreSQL函数？

、、

我想通过Python修改PostgreSQL数据库。比如把信息放进Python里。对PSQL数据库中的数据进行自动处理和分类。怎么做？ (简单问题:)

浏览 1提问于2018-07-04得票数 0

回答已采纳

1回答

如何在Python中提高不平衡数据集的查准率和召回率

、、、、

我构建了一个有监督的模型来对医学文本数据进行分类(我的输出预测了疾病的积极或消极发生)。数据非常不平衡(130例阳性病例与1600例阴性病例相比，这是可以理解的，因为这种疾病很罕见)。我首先清理了数据(删除了不必要的单词、词汇化等)。并在事后应用了POS。然后，我对清理后的数据应用了TfidfVectorizer和TfidfTransformer。对于分类，我尝试了支持向量机和随机森林，但即使在使用GridSearchCV调整了它们的参数(我还设置了class_weight = 'balanced')之后，对于正数据也只达到了56%的准确率和58%的召回率。有没有人有关于如何改

浏览 123提问于2018-07-17得票数 2

回答已采纳

2回答

不相关自变量对因变量的多元回归

、

考虑到多元回归(如Y ~ X1 + X2 + X3 )，当cor(X1, Y)、cor(X2, Y)和cor(X3, Y)都是0.2等小值时，您认为是否值得将多元回归模型与数据进行拟合，而且(X1, Y)、(X2, Y)和(X3, Y)的曲线没有(线性、非线性)不相关？总而言之，当每个自变量与因变量(视觉上是线性的和非线性的)不相关时，多元回归模型是否有可能给出显著的系数？对于相同的数据，神经网络等非线性模型是否有可能得到良好的预测结果？

浏览 6提问于2017-09-28得票数 0

1回答

如何在不删除整行/推算的情况下对缺失数据运行关联(NaN

、、

我正在尝试对一系列变量运行相关和多元回归，其中一些变量缺少值。我不想丢弃整个行/列或在数据丢失时输入数据，如何简单地跳过NaN值？具有NaN值的my columns示例：

浏览 2提问于2021-02-11得票数 0

1回答

投票回归模型，除对每种估计量的结果进行平均值外的其他方法

、、、

在我目前正在处理的一个回归问题中，我的模型在较高的值上表现得很好，但对于较低的值(例如，100,000,000到105,000,000,000之间的值正在被准确预测/有较低的误差分数，而从1,000,000到5,000,000,000的值没有)。我计划测试的一种方法是使用多元回归模型，其中一种是关于较低值的，另一种是关于较高值的。我已经看到了scikit的VotingRegressor，但是如果我正确理解的话，在预测值时，它只会将估值器的结果平均化。除了使用估值器的平均值之外，还有其他方法来进行多元回归模型的投票吗？由于分类问题可能使用软/硬投票，因此怀疑在回归问题中是否也有其他方法。

浏览 0提问于2022-07-12得票数 0

回答已采纳

1回答

在python中不进行编码的多类MultiOutput分类

、、、、

我正在做一个机器学习(数据挖掘)项目，我完成了数据探索和数据准备步骤，它是用python完成的！现在我要面对这个问题:我的数据集中有分类属性。经过研究，我发现对这类数据最合适的算法是一个决策树或一个随机forrest分类器！但我读过一些关于决策树和分类属性的类似问题，发现我使用的库(scikit-learn)不适用于分类属性。检查和，为了使其与分类一起工作，我需要将我的分类变量编码成数字变量，但我不想使用编码，因为我将根据答案松散属性的一些属性和一些信息，而且我的一些属性有超过100个不同的值。所以我想知道：有没有其他python库可以使用分类数据构建决策树而不进行任何编码？

浏览 0提问于2017-07-18得票数 1

回答已采纳

1回答

将朴素贝叶斯分类器保存在内存中

、

我是NLTK和机器学习方面的新手。我正在使用带有NLTK朴素贝叶斯分类器的Python。我使用NLTK创建了一个用于文本分类的朴素贝叶斯分类器，并将其保存在磁盘上。当需要对一些测试数据进行分类时，我还可以使用下面的python代码加载它： import pickle f = open('classifier.pickle') classifier = pickle.load(f) f.close() 但我的问题是，每当有新的测试数据到来时，我必须一次又一次地在内存中加载这个分类器，由于它的大小，加载需要很长时间(2-3分钟)。此外，如果我必须运行相同情感分析程序的两个实例，这将

浏览 3提问于2013-10-17得票数 1

1回答

如何在Python中进行三次或高次多项式多元回归？

、、、

我有一组数据，其中经度和纬度是自变量，温度是因变量。我希望能够执行外推，以获得纬度和经度范围之外的温度值。我认为最好的方法是执行多重回归。我知道sklearn有从他们的linear_model库执行线性多元回归的功能。 from sklearn import linear_model regr = linear_model.LinearRegression() regr.fit('independent data', 'dependent data') 然而，我的温度似乎与纬度或经度没有线性关系。因此，我推断的一些值似乎是错误的。我在想，也许我可以通过执行

浏览 15提问于2019-03-04得票数 3

1回答

在Python中使用numpy进行多元回归

、、、、

我正在学习使用Python进行机器学习，并且有一个关于回归的问题。我做了一些简单的回归(线性或多项式)，但我的问题是关于多元回归。我只使用x (输入数组)，y是输出。如果我有一些关于森林火灾的数据() X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area 7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0,2 7,4,oct,tue,90.6,35.4,669.1,6.7,18,33,0.9,0,12 在本例中，我的输入不是一个简单的数组，而是一个矩阵，我的输出是烧焦的区域。因此，对于我之前的数据，输入

浏览 0提问于2016-01-22得票数 1

1回答

如何在Google Co-lab中导入.dat文件

、

我是第一次在python中实现著名的虹膜分类问题。我有一个名为iris.data的数据文件。我必须在我的python项目中导入这个文件。我在Google Colab上试了试。样本数据属性包括： 1.隔片长(厘米) 2.隔片宽(厘米) 3.花瓣长(厘米) 4.花瓣宽度(厘米) 5.分类： 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0

浏览 14提问于2020-09-10得票数 0

回答已采纳

2回答

我们能否只使用BERT进行词嵌入，然后使用SVM/RNN进行意图分类？

、、、、

根据本文，"用于意图分类的系统包含以下内容的两个组件:字嵌入和分类器。“本文还对BERT+SVM和Word2Vec+SVM进行了评估。我试图做的相反，比较两个不同的分类器(RNN和SVM)使用伯特的字嵌入。我发现的大多数Python代码都使用BERT来解决整个意图分类问题，这使我感到困惑。示例我只想用BERT将单词映射到向量中，并将结果输入到分类器(SVM/RNN)中。伯特同时支持文字嵌入和文本分类吗？有人有解释吗？我尝试用Python测试的内容可行吗？我有一个有两列的dataframe :意图和问题。这是个小数据集。谢谢!

浏览 0提问于2020-08-04得票数 4

2回答

使用POS标签- NLP提高文本分类精度

、、、、

我正在做一个将推特分类为健康和政治类别的项目。我使用朴素贝叶斯算法进行分类。我试图通过使用POS标签来提高朴素贝叶斯分类的准确性。因为我认为，分配语言信息将提高分类效率。在预处理和应用pos标记之后，我的数据集如下所示： ID tweet Category pos_tagged_tweet 1 හාමුදුරුවරු සියලූම පූජකයන්ගේ මානසික සෞඛ්යය Health [(හාමුදුරුවරු, NNC), (සියලූම, NNC), (පූජකයන්ගේ, NNC), (මා

浏览 5提问于2021-09-20得票数 0

2回答

如何将机器学习分类器连接到Web应用程序？

、、、

我正在尝试构建一个情感分类器web应用程序，但我不知道该由谁来连接机器学习组件和web应用程序。我已经构建了在NodeJS服务器上运行的客户端web应用程序，并且我已经训练了一个保存为Python脚本的情感分类器。我的目标是让用户在web应用程序上提交文本，将其发送到Python脚本，进行分类，然后通过JSON返回结果。我应该如何设置机器学习-Web App管道？一种建议是在Flask中加载Python脚本，并使用Flask作为REST API。因为我只需要完成一项任务，所以使用Flask似乎有点过头了。

浏览 0提问于2015-05-28得票数 2

1回答

如何在Excel中进行多元回归？

我一直在网上寻找在Excel中进行多元回归的可能性，在那里我看到了Analysis ToolPak可以完成这项工作。然而，分析ToolPak似乎可以处理多变量线性回归，但不能处理多元线性回归(其中多元线性回归可能有多个因变量Y1，…，Yn = x1+x2..+xn，而一个因变量可以有多个自变量Y= x1+x2+..+xn)。是否有一种方法可以在Excel中进行多元回归，还是应该开始寻找其他程序(如R )？提前感谢

浏览 10提问于2015-06-22得票数 0

1回答

文本分类方法

、、、、

我有两个重要的列，产品名称和产品类别的数据。我想把一个搜索词归类为一个类别。创建分类器的方法(在Python中使用Sklearn & DaskML)是：清洁产品名称栏中的塞子、号码等。创建90% 10%的列车测试分割使用OneHotEncoder将文本转换为矢量对训练数据创建分类器(朴素贝叶斯) 测试分类器我实现了OneHotEncoder (或任何编码器)通过创建一个矩阵来将文本转换为数字，同时要考虑单词发生的地点和次数。 Q1。我是否需要在火车测试分裂之前还是火车测试分裂之后从文字转换成矢量？ Q2。当我将搜索新单词(可能已经不在文本中)时，我

浏览 0提问于2019-04-22得票数 0

2回答

如何在Python中计算相关比或Eta？

、、、、

根据这个的答案，在名义变量和区间变量(“数值”)之间最典型的“相关”度量是Eta，也称为关联比，它等于单向方差的根R平方(p值= ANOVA)。Eta可以看作是一种对称的关联度量，如相关性，因为方差分析的Eta (名义上为独立，数值为相依)等于Pillai的多元回归迹(以数字为独立的，虚拟变量集对应于名义上的依赖变量)。如果您能让我知道如何在python中计算Eta，我将不胜感激。事实上，我有一个带有一些数值和一些名义变量的数据。此外，如何绘制一个像热图一样的图呢？

浏览 7提问于2018-08-29得票数 1

回答已采纳

1回答

如何在拟合回归后使用Seaborn的驻留图？

、

我在Python中有一个简单的线性多元回归，看起来像这样： X_train,X_test,y_train,y_test=train_test_split(x_cols,df['Volume'],test_size=0.15) regr = LinearRegression() regr.fit(X_train, y_train) y_pred = regr.predict(X_test) 如何绘制此模型的残差？一开始我试着这样做： sns.residplot(y_pred, y_test) 但我不确定这是否真的显示了线性回归的残差。我是否将正确的参数传递给了residplo

浏览 3提问于2019-04-24得票数 3

1回答

未标记数据的文本分类

、、

我想根据给定的参数将数据分为两类。我的数据是来自两个不同来源的出版物，当比较dataset1和dataset2时，我想将其分类为“匹配”或“不匹配”。这些数据集是未标记的文本数据，包含五个属性(id、title、authors、classes、年份)，因此如果应用无监督算法，它将不会生成我的目标类。另一方面，有监督的算法需要标注不可用和耗时的数据。，在python中，什么是最好和最简单的方法？

浏览 4提问于2020-12-10得票数 0

回答已采纳

3回答

分类器所需训练数据集

、

目前，我正试图使用朴素贝叶斯技术在python中开发一个分类器。我需要一个数据集，这样我才能训练它。我的分类器会把给它的新文档分类为四个类别之一:科学技术、体育、政治、娱乐。有人能帮我找到这个数据集吗？我在这个问题上已经被困了一段时间了。任何帮助都将不胜感激。

浏览 0提问于2015-04-24得票数 2

回答已采纳

1回答

如何在两个步骤中使用TfidfVectorizer，增加分析文本的数量？

、、

我正在研究一个文本分类问题，在Python3中，使用sklearn。我正在执行以下步骤：清理所有课文训练分类器基于TfidfVectorizer的训练文本特征提取与矢量化生成分类器(RandomForestClassifier) 这是很好的工作，现在当我得到一个新的文本，我想分类，什么是最好的方式处理它？我理解Tfidf方法还会查看其他数据集中的特性，这就是为什么我现在将TfidfVectorizer应用于旧的dataset+the新文本。但是有什么办法我可以用一种渐进的方式去做吗？所以一旦训练结束，它就不会再被触动了。这有道理吗？提前感谢您的帮助！卢卡

浏览 0提问于2019-06-06得票数 1

回答已采纳

2回答

在statsmodels类中使用类别变量

、、

我想使用statsmodels OLS类来创建一个多元回归模型。考虑以下数据集： import statsmodels.api as sm import pandas as pd import numpy as np dict = {'industry': ['mining', 'transportation', 'hospitality', 'finance', 'entertainment'], 'debt_ratio':np.random.randn(5), 'c

浏览 0提问于2019-04-18得票数 9

回答已采纳