因此,我在一个列中有一个带有分类变量的PandasDataFrame,我想对它进行一个热编码,我使用了来自ML课程的以下代码
from sklearn.preprocessing import OneHotEncoder
onehotencoder=OneHotEncoder(categorical_features=[10])
Y= onehotencoder.fit_transform(X).toarray()
但是,我得到以下错误
ValueError: could not convert string to float:
使用以下方法将一些信息Y从df转换为对象
Y=df.iloc[:
想知道当列类型是分类的(特别是h2o enum类型)时,在h2o dataframe GroupBy对象中求和列时会发生什么。
将pandas数据帧转换为H2o数据帧。然后,我按某一列对行进行分组,并对其他列求和。
location_id price store
------------------
1 10 JCP
1 15 SBUX
3 20 HOL
then after grouping and summing; df.group_by('location_id').sum(['
我有一套由35个特性组成的数据。我注意到,当我将数据提供给svmtrain时,我会得到以下消息:
no convergence achieved within maximum number of iterations
当我将迭代“MaxIter”的次数增加到大约1,000,000时,上面的错误消失了,我开始使用“svmclassify”进行良好的分类。
另一方面,当我将数据提供给“fitcsvm”时,它会在默认的迭代次数"15,000“内快速收敛。然而,问题是当我尝试使用“预测”对数据进行分类时,我得到了错误的分类。
因此,简单地说,在增加迭代次数后,“svmtrain”对数据进行了正
我在Python中做一个分类任务,将不同乐器的音频文件分类到它们各自的类中,在我的例子中,有4个类,分别是Brass、String、Percussion和which。采用SVM算法作为分类器。我的代码看起来有点像这样(我不为分类器更改任何参数):
#X is feature matrix, y is class vector
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
#SVM Classifier
svm = SVC()
svm.fit(X_train,y_train)
svm_pred
我得到了客户的数据框架和有关他们活动的信息,并且我已经建立了一个模型来预测他们是否购买了产品。我的标签是一列'did_buy‘,如果客户购买了,则分配1,如果没有,则分配0。我的模型考虑了数字列,但我也想将分类列添加到预测模型中,但我不确定如何转换它们并在X训练中使用它们。以下是我的数据框列的简要介绍:
Company_Sector Company_size DMU_Final Joining_Date Country
Finance and Insurance 10 End User 2010-04-13 France
Publ
目前有一个数据框架,看起来类似于:
salary job title Raiting Company_Name Location Seniority
0 100 SE 5 apple sf vp
1 120 DS 4 Samsung la Jr
2 230 QA 5 google sd Sr
(我的df有比这个更明确的特性)