当我找到要创建的最佳集群数时,我试图计算silhouette score,但是得到了一个错误,上面写着:
ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)
我不明白这是什么原因。下面是我用来集群和计算silhouette score的代码。
我读取了包含要集群的文本的csv,并在K-Means集群值上运行n。我得到这个错误的原因是什么?
#Create cluster using K-Means
#Only creates graph
import matplotlib
#m
我正在尝试手工编写多重线性回归代码,为此,我编写了以下逻辑:
#building the model
#lets start with a random value of m and c
import numpy as np
n_samples,n_features=X_train.shape
weight=np.zeros(n_features)
bias=0
lr=0.0001 #l is the learning rate
mse=[]
for i in range (0,20000):
Y_pred=np.dot(X_train,weight)+bias
m
假设我有以下df:
Index | label | X1 | X2
0 | H | 50 | nan
1 | H | 150| nan
2 | Y | 150| 20
3 | Y | 200| nan
我希望基于标签的df进行分组,并在X1和X2上对结果进行求和。唯一的警告是,我想确保如果标签的所有值都是nan,那么最后的输出必须是nan。
期望的结果
Index | label | X1 | X2
0 | H | 200 | nan
1 |
我执行一个10倍交叉验证的回归模型。
for train, test in kf.split(X, Y):
print ("Fold ", cv)
print("Train", X[train].shape)
print("Test", X[test].shape)
# define the model
Breg = BayesianRidge(n_iter = 500, tol=0.0000000001)
# fit the data to the model
Breg.fit(X[train], Y[
请参阅下面的代码。由于某些原因,当我使用k折叠方法进行拆分时,在第二次拆分之后,示例的长度会发生变化。
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegress
我在下面的代码中有这个错误:AttributeError: 'dict' object has no attribute 'train': import tensorflow_datasets as tfds
mnist = tfds.load(name='mnist')
n_samples = 5
plt.figure(figsize=(n_samples * 2, 3))
for index in range(n_samples):
plt.subplot(1, n_samples, index + 1)
sample_im
我正在尝试使用train_test_split和决策树回归器进行训练建模:
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
# TODO: Make a copy of the DataFrame, using the 'drop' function to drop the given feat
我正在尝试使用ROC指标进行交叉验证来评估分类器,我遇到了来自Scikit learn的以下代码: # Import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y[y != 2]
n_samples, n_features = X.shape 我理解X,y = X[y!=2],y[y!=2]线路有困难,这条线路的用途是什么? 另外,有没有人可以帮我解释下划线n_samples, n_features的用法 谢谢!
最新情况**
我正在努力返回期望值Ex^2,我已经创建了一个函数,用于对平均值mu和sigma2的正常值进行采样。我想使用这个函数来生成正常值,然后对其中的每个值应用乐趣。我是否需要在循环中定义期望值,然后应用乐趣?我能在找到x^2后取平均值吗?我一直在做的事情是:
def fun(x):
y=x**2
return y
def EV(fun,n_samples,mu,sigma2):
for i in range(1,n_samples):
..。u= np.random.uniform(0,1,1) .Output.append(浮子(Y))返回输出
我想为我自己的数据集绘制多类情况的ROC曲线。通过,我了解到标签必须是二进制的(我有5个从1到5的标签),因此我遵循文档中提供的示例:
print(__doc__)
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import
我是向量空间模型(VSM)的初学者。我尝试了的代码。这是一个非常好的介绍VSM,但我设法得到了不同的结果与作者。这可能是因为一些兼容性问题,因为自从编写介绍以来,似乎已经发生了很大的变化。也许我也误解了这个解释。
我用下面的代码得到了错误的答案。有人能弄清楚这是怎么回事吗?我在下面发布代码的结果,下面是正确的答案。
我已经做了手工计算,所以我知道网站的结果是好的。还有一个使用相同的代码,但它的结果也与网站不同。
import numpy, scipy, sklearn
train_set = ("The sky is blue.","The sun is bright