我试图得到与k近邻对应的类标签。在遍历文档 for KNeighborsClassifier时,()函数返回每个数据样本的类标签,而points ()函数返回总体矩阵中最近点的指数。
这是我的代码:
from sklearn.neighbors import KNeighborsClassifier
X_train = [[1.0,2.0], [2.0, 3.0], [4.0, 5.0], [6.0, 7.0]]
y_train = ['Hello', 'this', 'is', 'test']
neigh = KNeighborsClassifier(n_neighbors=2, n_jobs=8)
neigh.fit(x_train, y_train)
X_test = [[3.0, 3.0]]
>>> neigh.predict(xtest)
array(['Hello'], dtype='<U5')
>>> neigh.kneighbors(xtest)
(array([[1. , 2.23606798]]), array([[1, 0]]))
我想得到k近邻类的标签,。填充矩阵与文档中指定的类标签之间的关系是什么?
发布于 2018-10-09 11:58:52
问题:
填充矩阵与文档中指定的类标签之间的关系是什么?
答案是,人口矩阵的元素和类标签之间存在一对一的对应关系。第一个标号对应于总体矩阵的第一个元素,第二个标签对应于第二个元素,等等。例如,您的示例中有以下关系:
[1.0, 2.0] <-> 'Hello'
[2.0, 3.0] <-> 'this'
[4.0, 5.0] <-> 'is'
[6.0, 7.0] <-> 'test'
因此,如果您想获得k个最近邻的类标签,可以使用kneighbors
函数。函数从文档返回:
dist :表示指向点的长度的数组,只有在return_distance=True时才出现 ind :人口矩阵中最近点的数组指数。
这样做的目的是使用ind
数组获取类标签,如下所示:
from sklearn.neighbors import KNeighborsClassifier
X_train = [[1.0, 2.0], [2.0, 3.0], [4.0, 5.0], [6.0, 7.0]]
y_train = ['Hello', 'this', 'is', 'test']
neigh = KNeighborsClassifier(n_neighbors=2, n_jobs=8)
neigh.fit(X_train, y_train)
X_test = [[3.0, 3.0]]
prediction = neigh.predict(X_test)
distances, indices = neigh.kneighbors(X_test)
print([y_train[i] for i in indices[0]])
输出
['this', 'Hello']
发布于 2018-10-09 12:01:45
如果仔细观察,neigh.kneighbors(xtest)返回两个值。您获得的第一个数组是到两个最近邻居的距离列表。二是训练数据集中邻域的索引。
neigh.kneighbors(xtest)
(array([[1. , 2.23606798]]), array([[1, 0]]))
您只需从y_train获取这些索引的标签即可。
dist,indices = neigh.kneighbors(xtest)
for item in indices[0]:
print y_train[item]
https://stackoverflow.com/questions/52720270
复制相似问题