我的数据框中有列 city
London
Paris
New York
.
. 我是对列进行编码的标签,它将0分配给伦敦,1分配给巴黎,2分配给纽约。但是,当我为模型中的预测传递单个值时,我给出了城市名称New York,并将其赋值为0。如何保持不变,我希望如果纽约的值在训练阶段通过标签编码器分配2,那么它应该在预测时再次分配2。 Code
from sklearn.preprocessing import LabelEncoder
labelencoder=LabelEncoder()
df['city']=labelencoder.fit_transform(df[
我对蟒蛇很陌生。我在分类数据上训练了我的算法强大的文本,在训练中我遇到了一些解决方案的错误。我看到它需要使用LabelEncoder,所以我使用了它。从而解决了问题,完成了算法的训练。
我想知道为什么它不接受字符串是原始数据(在编码之前)。有什么方法可以给字符串字符的预测算法?这是我的代码:
import pandas as pd
import sklearn
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree
如果fit sklearn.preprocessing.LabelEncoder的标签类型为int,则由于某种原因,在inverse_transform期间,它将返回numpy.int64类型标签。
from sklearn.preprocessing import LabelEncoder
labels = [2,4,6] # just a list of `int`s
e = LabelEncoder().fit(labels)
encoded = e.transform([4,6,2])
decoded = e.inverse_transform(encoded)
type(decode
我有一个列有分类数据和一些nan值。我想填充nan值,而不是放弃它们。我真的不知道一开始该怎么做-编码还是指责?我首先尝试用LabelEncoder编码,然后用KNNImputer进行编码,但是它对我不起作用。最后,我希望使用OneHotEncoder以适当的形式获得值,并将它们作为ML模型的输入。我一开始是这样的,但这是错误的。
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
阅读:
它声明“使用一个热的,也就是一个K的方案来编码分类整数特征。”
这是否也意味着它只编码了一个单词列表?
一种热编码的维基百科定义( )
在自然语言处理中,一个热向量是一个1×N矩阵(向量),用于区分词汇表中的每个单词和词汇中的每一个单词。该向量由所有单元格中的0组成,唯一用于识别单词的单元格中的单个1除外。
在下面运行代码似乎LabelEncoder不是一个热编码的正确实现,而OneHotEncoder是一个正确的实现:
import numpy as np
from sklearn.preprocessing import MultiLabelBinarizer
from num
我对Python非常陌生,正在尝试使用以下查询运行决策树模型:
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import numpy as np
import pandas as pd
import sklearn as skl
data_forecast = pd.read_excel(".
我试着在叶子特征的样本上使用Knn。194列有990行。第二列是填充树叶的树名,它将是标签。
from sklearn import model_selection
from sklearn.preprocessing import LabelEncoder
from sklearn import preprocessing
from sklearn import neighbors, metrics
X = data.iloc[:, 2: 194]
y = data.iloc[:,1]
labelencoder = LabelEncoder()
y = labelencoder.fit_
我首先从excel数据集中设置X并将其转换为矩阵值:
X = dataset.iloc[:, 3:13].values
所以我有两列X,我需要标记为encode (国家和性别)。有三个国家,西班牙,法国和德国,只有两个性别。我用标签对它们进行编码:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1]) # the three countries
labelen
我如何按照自己的意愿将每个类别的唯一值编码为数值?
HeatingQC:供暖质量和供暖条件
Ex Excellent
Gd Good
TA Average/Typical
Fa Fair
Po Poor
我尝试将这些分类数据编码为数字。所以我使用了sklearn.processing.LabelEncoder。我所期望的是给Ex分配一个更大的数字,给Po分配一个更小的数字。即Ex = 4,Gd = 3,以此类推。
from sklearn.preprocessing import LabelEncoder
label_encoder = La
相似:
我希望有一个对象来处理标签编码(在我的例子中是用LabelEncoder)、转换和估计。对我来说很重要的是,所有这些函数都可以通过执行,只有一个对象。
我试过这样用管道:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
# mock training dataset
X = np.random.rand(1000, 100)
y
我是数据科学的新手,我想从分类数据中进行分类。我希望在使用K-means算法之前这样做,但是当我使用fit_transform()时,我得到了这个'error ValueError: bad input shape (2835,18)‘,我不知道如何修复它。我希望有人能帮助我。 import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
#load m
我正在尝试使用SciKit-learns线性判别分析包为一个标签分配坐标,该标签基于已知坐标的标签。训练坐标和标签存储在一个熊猫数据帧中,目标坐标和标签存储在另一个数据帧中。两个数据帧的行长不相等,训练集较大。我希望将标签应用到原始数据帧中的坐标上,以用作pd.merge的键。
我知道我可以在多边形或形状中使用matplot point来解决这个问题,但我想用这种方式来测试它。以下是我基于
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.preprocessing import
我正在使用LabelEncoder和OneHotEncoder来处理我数据集中的“分类数据”。在我的数据集中有一个列,它可以有两个值,要么是“汽油”,要么是“柴油”,我想对这一列进行编码。我正在运行这段代码,它给出了一个错误。 import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
dataset = pd.read_csv('ToyotaCorolla.csv')
X = dataset.iloc[:, 1:10].values
我想使用sklearn.preprocessing.LabelEncoder对元组列表进行标签编码,例如: [(4,5), (6, 7), (1, 1), (6, 7), ... ] 这样每个元组都有一个唯一的标签。但是,此结构被转换为2D np.ndarray,这是导致以下错误的原因: ValueError: y should be a 1d array, got an array of shape (N, 2) instead. 我如何操作我的初始结构,使其可以被正确编码(我假设这是唯一的解决方案,因为LabelEncoder是不可配置的)?
我正在将LabelEncoder应用于熊猫DataFrame,df
Feat1 Feat2 Feat3 Feat4 Feat5
A A A A E
B B C C E
C D C C E
D A C D E
我正在将标签编码器应用于数据帧,如下所示-
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
intIndexed = d
我正在编写一个使用ColumnTransformer和LabelEncoder对著名的泰坦尼克号数据集X进行预处理的示例。
Age Embarked Fare Sex
0 22.0 S 7.2500 male
1 38.0 C 71.2833 female
2 26.0 S 7.9250 female
3 35.0 S 53.1000 female
4 35.0 S 8.0500 male
像这样叫变压器:
from sklearn.compose impor
我有一个在句子分类任务中预测未见数据的代码。 代码是 from sklearn.preprocessing import LabelEncoder
maxlen = 1152
### PREDICT NEW UNSEEN DATA ###
tokenizer = Tokenizer()
label_enc = LabelEncoder()
X_test = ['this is boring', 'wow i like this you did a great job']
X_test = tokenizer.texts_to_sequences(X_te
我不明白我是怎么把事情搞得这么糟的。对编码非常陌生。 我正在尝试通过sklearn上的LabelEncoder运行一个pandas列,以便将字符串转换为值。如果我不通过LabelEncoder运行它,列就会打印出它应该打印出的名称列表。当我使用LabelEncoder时,每个值都直接更改为“LabelEncoder”。我做错了什么? import pandas as pd
from sklearn import preprocessing
import numpy as np
data = pd.read_excel('Data.xlsx', sep=',')