文章/答案/技术大牛

发布

社区首页 >问答首页 >sklearn train_test_split - ValueError:发现样本数量不一致的输入变量：[2552，1] /Linear回归

问sklearn train_test_split - ValueError:发现样本数量不一致的输入变量：[2552，1] /Linear回归
EN

Stack Overflow用户

提问于 2020-08-31 22:17:36

回答 1查看 84关注 0票数 0

我需要帮助重塑我的输入以匹配我的输出。

我想创建一个对‘所有信息’信息进行矢量化和分类的模型，这样标签‘’Fall‘就可以分为0和1。然而，我一直得到[ValueError: Found input variables with inconsistent of samples: 2552，1]错误。这个“形状”看起来很好，但我不知道怎么修理它。

## Linear Regression

import pandas as pd
import numpy as np
from tqdm import tqdm
#instance->fit->predict

from sklearn.linear_model import LinearRegression

model=LinearRegression(fit_intercept=True)

data=pd.read_csv("Fall_test_0826.csv", encoding='cp949', header=0)
data.head(2)


X=data.drop(["fall"], axis=1)

y= data.fall


from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state = 0) 


from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect=TfidfVectorizer()
tfidf_vect.fit(X_train)#단어사전 만듬

X_train_tfidf_vect = tfidf_vect.fit_transform(X_train['All information']).toarray()
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf=LinearRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)


from sklearn.metrics import accuracy_score

print('Logisitic Regression _ {0:.3f}'.format(accuracy_score(y_test, pred)))

错误：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-85-bec6ead862c8> in <module>
----> 1 print('{0:.3f}'.format(accuracy_score(y_test, pred)))

~\anaconda3\lib\site-packages\sklearn\utils\validation.py in inner_f(*args, **kwargs)
     71                           FutureWarning)
     72         kwargs.update({k: arg for k, arg in zip(sig.parameters, args)})
---> 73         return f(**kwargs)
     74     return inner_f
     75 

~\anaconda3\lib\site-packages\sklearn\metrics\_classification.py in accuracy_score(y_true, y_pred, normalize, sample_weight)
    185 
    186     # Compute accuracy for each possible representation
--> 187     y_type, y_true, y_pred = _check_targets(y_true, y_pred)
    188     check_consistent_length(y_true, y_pred, sample_weight)
    189     if y_type.startswith('multilabel'):

~\anaconda3\lib\site-packages\sklearn\metrics\_classification.py in _check_targets(y_true, y_pred)
     79     y_pred : array or indicator matrix
     80     """
---> 81     check_consistent_length(y_true, y_pred)
     82     type_true = type_of_target(y_true)
     83     type_pred = type_of_target(y_pred)

~\anaconda3\lib\site-packages\sklearn\utils\validation.py in check_consistent_length(*arrays)
    254     uniques = np.unique(lengths)
    255     if len(uniques) > 1:
--> 256         raise ValueError("Found input variables with inconsistent numbers of"
    257                          " samples: %r" % [int(l) for l in lengths])
    258 

ValueError: Found input variables with inconsistent numbers of samples: [2552, 1]

enter image description here

scikit-learn

回答 1

Stack Overflow用户

发布于 2020-09-02 16:03:52

我认为您必须将代码中的代码行从

X_test_tfidf_vect = tfidf_vect.transform(X_test)

至

X_test_tfidf_vect = tfidf_vect.transform(X_test['All information'])

但是你的方法是错误的。您要进行线性回归，但要尝试使用分类指标(accuracy_score) (Reference)

这样做会导致错误ValueError: Classification metrics can't handle a mix of binary and continuous targets

所以这是行不通的，因为您的数组pred将保存浮点值，例如0.5，但是对于accuracy_score，您需要将类标签作为整数，例如0、1、2或3等。

您需要使用回归指标来评估您的线性回归。

看看可用的回归指标here。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63672551

复制

相似问题

问sklearn train_test_split - ValueError:发现样本数量不一致的输入变量：[2552，1] /Linear回归
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sklearn train_test_split - ValueError:发现样本数量不一致的输入变量：[2552，1] /Linear回归EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sklearn train_test_split - ValueError:发现样本数量不一致的输入变量：[2552，1] /Linear回归
EN