首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >线性回归问题中nlp和数值数据的组合

线性回归问题中nlp和数值数据的组合
EN

Data Science用户
提问于 2019-08-18 23:42:28
回答 1查看 2.1K关注 0票数 1

我对数据科学非常陌生(这是我的hello world项目),我有一个由复习文本和数字数据(如表格数量)组成的数据集。还有一个评论栏,它是一个浮动(该餐厅所有用户评论的avg)。因此,一行数据可能类似于:

代码语言:javascript
运行
复制
{ 
    rating: 3.765, 
    review: `Food was great, staff was friendly`, 
    tables: 30, 
    staff: 15, 
    parking: 20
    ... 
}

因此,在下面的教程中,我能够做到以下几点:

  1. 建立了一个线性回归模型来预测评级,输入是所有的数值数据列。
  2. 使用sklearn.TfidfVectorizer创建了基于评审文本的预测评等的回归模型。

但是现在我想将模型组合起来,或者将两者的数据组合为一个,以创建一个线性回归模型。那么,如何利用线性回归模型中的矢量化文本数据呢?

EN

回答 1

Data Science用户

发布于 2019-08-19 00:07:38

听起来你可以用FeatureUnion来做这个。下面是一个示例

代码语言:javascript
运行
复制
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

iris = load_iris()

X, y = iris.data, iris.target

# This dataset is way too high-dimensional. Better do PCA:
pca = PCA(n_components=2)

# Maybe some original features where good, too?
selection = SelectKBest(k=1)

# Build estimator from PCA and Univariate selection:

combined_features = FeatureUnion([("pca", pca), ("univ_select", selection)])

# Use combined features to transform dataset:
X_features = combined_features.fit(X, y).transform(X)
print("Combined space has", X_features.shape[1], "features")

svm = SVC(kernel="linear")

# Do grid search over k, n_components and C:

pipeline = Pipeline([("features", combined_features), ("svm", svm)])

param_grid = dict(features__pca__n_components=[1, 2, 3],
                  features__univ_select__k=[1, 2],
                  svm__C=[0.1, 1, 10])

grid_search = GridSearchCV(pipeline, param_grid=param_grid, cv=5, verbose=10)
grid_search.fit(X, y)
print(grid_search.best_estimator_)

希望从该示例中可以清楚地看到,如何使用它将您的TfidfVectorizer结果与您的原始特性合并。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/57764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档