我使用的是堆栈溢出选项卡分类csv数据集,该数据集已加载到dataframe中:
X = df.post
y = df.tags
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 42)
除了其他一些分类模型之外,我还想运行BERT,但是,它需要一个变量preproc。我不确定哪一种功能会得到这个结果:
import ktrain
from ktrain import text
model = text.text_classifier('bert', (
我想用repeatedcv程序使用caret::train训练一个随机森林模型。我的数据有一些缺失的值,所以我想在train函数中使用preProcess="bagImpute"选项。我不想在train之外使用preProcess函数,因为我想为repeatedcv过程的每一次迭代提供bagImpute数据。但是,当我尝试这样做时,会引发一个错误:
Error in { : task 1 failed - "'n' must be a positive integer >= 'x'"
In addition: There w
我有一个binary classification问题,我需要根据2010-2015期间的客户交互来预测潜在的流行/流行产品。
目前,我的数据集包括1000 products,每个产品都被标记为0或1 (即二进制分类)。标签是根据2016-2018期间的客户交互决定的。
我正在计算how centrality measures changed over time for each product在2010-2015期间作为我的二进制分类问题的特性。例如,考虑下面的图,它显示了每个产品的degree centrality随时间的变化。
更具体地,我分析了随centrality meas
实际上,我知道在weka,中有一个GUI方法可以在10倍交叉验证中获取每个折叠的结果,但是我正在使用weka进行编程。
不幸的是,我来自java程序的结果与weka的探索中的结果非常不同。我的代码是部分图像描述,
Instances data1 = DataSource.read("D:/Users/.../XX.arff"); // upload the dataset
data1.setClassIndex(data1.numAttributes()-1); // set class index
data1.randomize(new Random(1))
data1.st
我有一个由181个样本、10个特征和一个目标变量组成的数据集。这10个特征本质上是数字和连续的。我必须执行二进制分类。我做了以下工作:
I have performed 3 Fold cross validation and got following accuracy results using various models:-
LinearSVC:
0.873
DecisionTreeClassifier:
0.840
Gaussian Naive Bayes:
0.845
Logistic Regression:
0.867
Gradient Boosting Classifier
0
为了找到与libsvm一起使用的最佳参数,我使用了下面的代码。我有一个文件,其中包含正负两个示例,每个示例都带有libsvm格式的hog向量。我有1000个积极的例子和4000个否定的例子。但按顺序排列,即前1000例为正例,其余为阴性。
问题:现在,我开始怀疑这段代码返回的准确性是否实际准确。这是因为当我阅读5倍交叉验证时,它把前4/5的数据作为训练,剩下的1/5进行测试。这是否意味着测试集都是阴性的呢?还是随机选取这些例子呢?
%# read some training data
[labels,data] = libsvmread('./heart_scale');
%