CountVectorizer错误: ValueError:使用序列设置数组元素_ValueError:使用序列设置数组元素- Imblearn_SKLearn ValueError:使用序列设置数组元素 - 腾讯云开发者社区

python、scikit-learn、pipeline

在sklearn管道中使用make_column_transformer()时，我在尝试使用CountVectorizer时遇到了一个错误。我的DataFrame有两列，'desc-title'和'SPchangeHigh'。下面是两行的片段： features = pd.DataFrame([["T. Rowe Price sells most of its Tesla shares", .002152], ["Gannett to retain all seats in MNG pr

浏览 4提问于2019-05-24得票数 3

回答已采纳

1回答

如何通过解决这个错误来训练MultinomialNB [ValueError:坏输入形状(10，2)]

python、scikit-learn

这是数据，然后我使用countvectorizer，然后使用MultinomialNB()，但是我得到了错误。请告诉我正确的语法。 train = [('I love this sandwich.','pos'), ('This is an amazing place!', 'pos'), ('I feel very good about these beers.', 'pos'), ('This is my best work.'

浏览 0提问于2018-04-16得票数 0

回答已采纳

1回答

将CountVectorizer结果设置为pandas.DataFrame

python、pandas、dataframe、text-mining、countvectorizer

我需要用CountVectorizer生产的矩阵特性来设置pandas.DataFrame。 count_vect = CountVectorizer() count_vect.fit(text) xtrain_count = count_vect.transform(train_x) SaveTxt = pandas.DataFrame() SaveTxt['text']=xtrain_count 但是在最后一行SaveTxt['text']=xtrain_count中，我得到了以下错误！ raise ValueError('Cannot set

浏览 0提问于2019-08-02得票数 0

1回答

在Python中将分类数据转换为数值数据

python、machine-learning、encoding、nlp、categorical-data

我有一个数据集。它的一个列--“关键字”--包含分类数据。我尝试使用的机器学习算法只接受数字数据。我想把"Keyword“列转换成数值-我该怎么做呢？使用NLP？一袋话？我尝试了下面的方法，但我得到了ValueError: Expected 2D array, got 1D array instead。 from sklearn.feature_extraction.text import CountVectorizer count_vector = CountVectorizer() dataset['Keyword'] = count_vector.fit_tra

浏览 0提问于2019-10-07得票数 2

回答已采纳

2回答

连接轴的所有输入数组尺寸必须完全匹配。

python、scikit-learn

import pandas as pd from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer from sklearn.pipeline import Pipeline from sklearn.svm import LinearSVC from sklearn.preprocessing import MinMaxScaler from sklearn.compose import ColumnTransformer data = [[1, 3, 4, 'text', &#

浏览 2提问于2020-04-12得票数 5

1回答

多个要素作为ML NLP文本分析预测的输入

python、scikit-learn

我有8列作为输入和1列输出来预测。当我尝试安装countvectorizer和tfidf时，我得到了 ValueError: Found input variables with inconsistent numbers of samples: [7, 23752] 但是X_train.shape和X.shape是正确的，那么当我应用fit_transform时，为什么我会得到这个错误？代码 X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',

浏览 26提问于2020-04-21得票数 1

1回答

ValueError:索引和数据的大小应该相同

python、machine-learning、scipy、nlp

当我在亚马逊评论数据set.can上应用'Dbscan‘时，我遇到了这个错误。任何人帮助我 from sklearn.feature_extraction.text import CountVectorizer cv=CountVectorizer() X=cv.fit_transform((X_train)) from sklearn.cluster import DBSCAN clustering = DBSCAN(eps=1.0,n_jobs=-1).fit(X) C:\ProgramData\Anaconda3\lib\

浏览 49提问于2021-01-17得票数 0

2回答

只对文本列进行矢量化，并使用管道将数字列标准化

python、pandas、scikit-learn、pipeline、transformer-model

我正在尝试向量化文本列，然后标准化数字列。下面是python脚本： from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import GridSearchCV from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.compose import ColumnTransformer from sklearn.compose imp

浏览 14提问于2022-01-22得票数 1

1回答

为什么当有两个单词时，CountVectorizer会为一个双字元抛出一个“空词汇错误”？

python、scikit-learn、countvectorizer

我有一个CountVectorizer： word_vectorizer = CountVectorizer(stop_words=None, ngram_range=(2,2), analyzer='word') 实现该向量化器： X = word_vectorizer.fit_transform(group['cleanComments']) 抛出此错误： Traceback (most recent call last): File "<ipython-input-63-d261e44b8cce>", line 1, in

浏览 4提问于2017-05-12得票数 0

回答已采纳

1回答

ValueError :使用numpy设置具有序列的数组元素

python、arrays、numpy、python-3.5

我用python编写了这段代码。 data = np.empty(temp.shape) maxlat = temp.shape[0] maxlon = temp.shape[1] print(maxlat,maxlon) for i in range(0,maxlat) : for j in range(0,maxlon): data[i][j] = p_temperature(pr,temp[i][j]) 当我在Python 3.5中运行此代码时，我收到以下错误 ValueError : setting an array element with a sequen

浏览 0提问于2017-05-20得票数 3

回答已采纳

1回答

模型训练中不相容错误维数的值误差

machine-learning、classification、scikit-learn、decision-trees、numpy

我在数据集上实现了一个决策树。在此之前，我想用CountVectorizer转换一个特定的列。为此，我使用管道使其更简单。但是存在一个不兼容的行维的错误。码 # Imported the libraries.... from sklearn.feature_extraction.text import CountVectorizer as cv from sklearn.preprocessing import OneHotEncoder as ohe from sklearn.compose import ColumnTransformer as ct from sklearn.pipe

浏览 0提问于2020-05-16得票数 2

1回答

在尝试训练模型时，我得到了ValueError:使用序列设置数组元素

python、tensorflow

下面是代码。在尝试运行此文件时，我得到了ValueError:使用序列设置数组元素。 ValueError: setting an array element with a sequence. 我使用的是tensorflow 1.9 下面是我正在尝试运行的代码。

浏览 0提问于2018-10-27得票数 0

1回答

在训练模型时，出现了不兼容的行维值错误。

numpy、machine-learning、scikit-learn、data-science、decision-tree

我在上实现了一个决策树。在此之前，我想用CountVectorizer.转换一个特定的列。为此，我使用管道使其更简单。但是存在一个不兼容的行维的错误。代码 # Imported the libraries.... from sklearn.feature_extraction.text import CountVectorizer as cv from sklearn.preprocessing import OneHotEncoder as ohe from sklearn.compose import ColumnTransformer as ct from sklearn.pipel

浏览 1提问于2020-05-16得票数 3

回答已采纳

1回答

如何提前判断CountVectorizer是否会抛出ValueError:空词汇表？

python、python-3.x、scikit-learn、nlp

是否可以预先知道CountVectorizer是否会 ValueError:空词汇表？基本上，我有一个文档集，我想过滤掉那些不能通过CountVectorizer的文档(我正在使用stop_words='english') 谢谢

浏览 1提问于2019-01-05得票数 1

回答已采纳

4回答

CountVectorizer: AttributeError：'numpy.ndarray‘对象没有'lower’属性

python、numpy、scikit-learn、text-classification

我有一个一维数组，每个元素中都有很大的字符串。我正在尝试使用CountVectorizer将文本数据转换为数值向量。但是，我收到一个错误消息： AttributeError: 'numpy.ndarray' object has no attribute 'lower' mealarray在每个元素中都包含大字符串。这样的样本有5000个。我正在尝试将其向量化，如下所示： vectorizer = CountVectorizer( stop_words='english', ngram_range=(1, 1), #ngram_

浏览 1提问于2014-10-15得票数 14

7回答

Numpy ValueError:使用序列设置数组元素。此消息可能在没有序列的情况下出现？

python、arrays、numpy、element

为什么会出现此错误消息？ValueError:使用序列设置数组元素。谢谢 Z=np.array([1.0,1.0,1.0,1.0]) def func(TempLake,Z): A=TempLake B=Z return A*B Nlayers=Z.size N=3 TempLake=np.zeros((N+1,Nlayers)) kOUT=np.zeros(N+1) for i in xrange(N): kOUT[i]=func(TempLake[i],Z)

浏览 0提问于2012-11-09得票数 33

回答已采纳

3回答

numpy数组连接错误:无法连接0-d数组

python、arrays、numpy、concatenation

我试图连接两个numpy数组，但是我得到了这个错误。有人能给我一点关于这到底是什么意思的线索吗？ Import numpy as np allValues = np.arange(-1, 1, 0.5) tmp = np.concatenate(allValues, np.array([30], float)) 然后我得到了 ValueError: 0-d arrays can't be concatenated 如果我这样做了 tmp = np.concatenate(allValues, np.array([50], float)) 没有错误消息，但

浏览 3提问于2014-08-23得票数 17

回答已采纳

1回答

CountVectorizer MultinomialNB ValueError:维度不匹配

machine-learning、scikit-learn、naivebayes、multinomial、countvectorizer

我正在试着让我的MultinomialNB正常工作。我在我的训练和测试集上使用CountVectorizer，当然，这两个setz中有不同的单词。所以我明白了，为什么这个错误 ValueError: dimension mismatch 发生了，但我不知道如何修复它。我尝试了CountVectorizer().transform，而不是另一个帖子()中建议的CountVectorizer().fit_transform，但这给了我 NotFittedError: CountVectorizer - Vocabulary wasn't fitted. 如何正确使用CountVectori

浏览 0提问于2017-08-07得票数 1

2回答

如何消除色差错误？

python-3.x、matplotlib

我完全搞不懂为什么我会得到这个错误。任何帮助都将不胜感激！以下是错误信息： plt.hist(count，range=20，color = 'red')中的文件"C:/Python27/Scripts/Lab08realdeal.py"，第23行文件"C:\Python27\lib\site-packages\matplotlib\pyplot.py"，行2896，在hist stacked=stacked中，**kwargs) 文件"C:\Python27\lib\site-packages\matplotlib\axes_axes

浏览 0提问于2015-11-18得票数 0

1回答

如何在pandas数据帧上传输向量器？

python、pandas、machine-learning、scikit-learn

在拆分训练和测试数据后，我想在panda上使用sklearn TFIdfVectorizer 下面是拆分数据的代码： train = data_df train_df,test_df= train_test_split(train,test_size=0.2) 我尝试使用TFIdfVectorizer函数： start = time.clock() vect = CountVectorizer(ngram_range=(2,2)) train_df = vect.fit_transform(train_df) test_df = vect.transform(test_df) pri

浏览 0提问于2020-09-15得票数 0

1回答

我试图使用sklearn中的Python MultinomialNB来对某些数据进行分类，但是它返回了一个值错误。

python、arrays、machine-learning、scikit-learn、naivebayes

我试图使用MultinomialNB从滑雪分类一些数据。我已经制作了一个csv样本，其中包含了一些标记的培训数据，我想使用这些数据来训练模型，但是我收到了以下错误信息： ValueError: Expected 2D array, got 1D array instead: array=[0 1 2 2]. 我知道这是一个非常小的数据集，但我最终会添加更多的数据，一旦代码工作。这是我的数据：这是我的代码： import numpy as np import pandas as pd import array as array from sklearn.feature_extracti

浏览 4提问于2020-11-16得票数 2

回答已采纳

1回答

CountVectorizer失败，并显示错误的单词

python、pandas、scikit-learn、countvectorizer

我正在使用pandas dataFrame，并且正在尝试获取包含字符串的特定列中单词的出现次数。代码运行良好，直到有一行出现以下错误 --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-36-af8291199984> in <module> 6 7 cv = Co

浏览 41提问于2020-10-20得票数 0

回答已采纳

2回答

将张量对象中的实际数值赋给Tensorflow中的numpy数组

numpy、tensorflow

我正在尝试将张量对象中的一个矩阵切片为numpy矩阵，并将其用于部分计算。但是从张量对象到numpy数组的赋值不会像下面这样工作。 import tensorflow as tf import numpy as np def assignC(): C_copy = np.zeros((2,2)) C = tf.matmul(tf.transpose(x), x) C_copy[0,0] = C[0,0] #C_copy[0,0] = C[0,0].eval() # error saying "You must feed a value for pla

浏览 2提问于2016-06-21得票数 0

1回答

使用scikit-learn时出现属性错误

python、nltk、scikit-learn、feature-extraction

我正在尝试使用scikit使用余弦相似度来查找类似的问题。我尝试了互联网上提供的这个示例代码。和 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The

浏览 1提问于2013-03-05得票数 4

回答已采纳

2回答

ValueError:预期的2D数组，得到1D数组，而不是：

scikit-learn

我跟随这个例子在线进行简单的文本分类当我像这样创建分类器对象时 from sklearn.datasets import fetch_20newsgroups twenty_train = fetch_20newsgroups(subset='train', shuffle=True) from sklearn.feature_extraction.text import CountVectorizer count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(twenty_train.

浏览 0提问于2019-09-23得票数 0

回答已采纳

1回答

ValueError: sklearn.RFECV不支持unknown

python、numpy、scikit-learn、kaggle

我试图使用rfecv缩小与我的分类器真正相关的特征的数量。这是我写的代码 import sklearn import pandas as p import numpy as np import scipy as sp import pylab as pl from sklearn import linear_model, cross_validation, metrics from sklearn.svm import SVC from sklearn.feature_selection import RFECV from sklearn.metrics import zero_one_los

浏览 2提问于2013-11-27得票数 8

回答已采纳

1回答

Streamlit :序列的真值是不明确的。使用a.empty、a.bool()、a.item()、a.any()或a.all()

python、model、nlp、countvectorizer、streamlit

我试图在Streamlit.io应用程序上适应我的模型，但我得到了上面的值-错误。但它在Jupyter Notebook上不会给出同样的错误，请使用更好的方法。 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). File "c:\users\8470p\anaconda3\lib\site-packages\streamlit\ScriptRunner.py", line 311, in _run_script ex

浏览 17提问于2019-11-10得票数 1

回答已采纳

1回答

ValueError:使用序列Ask设置数组元素

least-squares、model-fitting

这个python代码： import numpy,math import scipy.optimize as optimization import matplotlib.pyplot as plt # Create toy data for curve_fit. zo = numpy.array([0.0,1.0,2.0,3.0,4.0,5.0]) mu = numpy.array([0.1,0.9,2.2,2.8,3.9,5.1]) sig = numpy.array([1.0,1.0,1.0,1.0,1.0,1.0]) # Define hubble function. def

浏览 0提问于2018-04-25得票数 0

1回答

如何将自定义文本数据格式用于sklearn的CountVectorizer()？

text、scikit-learn

有一个不错的。但是在上一篇教程中，他们使用sklearn的dataset和没有详细说明的“集群”对象，因此我很难将我的数据放在想要的形式上来使用sklearn方法。我希望对文本数据使用CountVectorizer.fit_transform(my_string_array)进行进一步处理，但是调用总是会引发一些错误： AttributeError：'list‘对象没有属性'lower’ 到目前为止，我已经尝试过初始化以下numpy数组类型，并将我的字符串加载到它们中，但它们都没有工作： Np.chararray(形状) np.empty(shape，dtyp

浏览 4提问于2017-02-22得票数 2

1回答

我正在制定一个梯度右旋阿尔戈。函数和我一直得到一个声明为ValueError的ValueError:用序列设置数组元素

python、numpy

def gradient_descent(epoch, x, y, alpha): cost = np.ones(epoch) #Tracking Costs features = x.shape[1] samplesize = x.shape[0] theta = np.ones(features) hypo = np.dot(x, theta) #Hypothesis Function for i in range(0, epoch): theta[0] = theta[0] -

浏览 2提问于2022-03-14得票数 -1

1回答

CountVectorizer在短词上引发错误

python、machine-learning、scikit-learn、valueerror、countvectorizer

谁能解释一下，为什么当我尝试fit_transform任何简短的单词时，CountVectorizer会抛出这个错误？即使我使用stopwords=None，我仍然得到相同的错误。以下是代码 from sklearn.feature_extraction.text import CountVectorizer text = ['don\'t know when I shall return to the continuation of my scientific work. At the moment I can do absolutely nothing with it,

浏览 8提问于2018-02-24得票数 1

回答已采纳

3回答

使用python实现的带有随机数的大数组

python、arrays、random

我需要生成一个包含随机数(10个⁵数)的大数组(或列表)。我试着这样做： vet = random.sample(range(10),100000) 但是当我试图跑的时候： vet = random.sample(range(10),10000) 在sample raise ValueError(“样本大于总体”)ValueError中，文件“/usr/lib/python2.7/随机性.py”，第320行:样本大于总体有什么解决方案吗？ tkns

浏览 1提问于2012-08-29得票数 11

回答已采纳

1回答

计数向量器ValueError:应为2维数组，实际为1

arrays、python-3.x、machine-learning、sklearn-pandas

我这里有一条错误消息： ValueError:应为2维数组，得到1，但我的变量似乎已经都是2维的。我的变量是这样的： #read preprocessed data traindata = ast.literal_eval(open('pretprocesirano.txt').read()) testdata = ast.literal_eval(open('pretprocesiranoTEST.py').read()) testdata=np.array(testdata).reshape(-1, 1) label_train=np.array(labe

浏览 0提问于2017-08-26得票数 0

1回答

CountVectorizer不适用于滑雪中的测试字符串

python、scikit-learn

我一直在用滑雪板做情感分析。我有一个csv文件的3000多个评论，我正在训练我的分类器60%的这些评论。当我试图对分类器进行自定义检查以使用CountVectorizer.transform()预测标签时，会引发以下错误： Anaconda\lib\site-packages\sklearn\feature_extraction\text.py", line 864, in transform raise ValueError("Vocabulary wasn't fitted or is empty!") ValueError: Voc

浏览 2提问于2016-04-19得票数 3

4回答

如何避免标记w/ sklearn特征提取

python、scikit-learn、feature-extraction、tokenization

我试图分析一些机器日志文件，而我正在查看的列可以具有‘Part.C1.11读取状态’这样的值。我想把完整的字符串看作一个标记，我不希望它被分割成'Part‘、'C1’、'11‘和'Reading#’和'Status‘。我有一种模糊的感觉，认为token_pattern是我需要调整的参数，所以我尝试指定字符串的开头和结尾，如下所示： from sklearn.feature_extraction.text import CountVectorizer cvo = CountVectorizer(token_pattern='^然而，最后一行抛出一

浏览 0提问于2019-07-02得票数 1

回答已采纳

1回答

在Scikit中学习CountVectorizer

python、scikit-learn、nlp、vectorization

我不确定在创建vectorizer = CountVectorizer类的实例时，vectorizer = CountVectorizer(tokenizer=word_tokenize)和CountVectorizer有什么不同请帮我说清楚。谢谢您抽时间见我。

浏览 15提问于2020-01-19得票数 1

1回答

成对距离在稀疏矩阵上失败，其错误消息不提供信息。

python、scipy、scikit-learn、sparse-matrix

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer from scipy.spatial import distance X = CountVectorizer().fit_transform(docs) X = TfidfTransformer(use_idf=False).fit_transform(X) print (X.shape) #prints (100, 1760) 然而，当我试图计算成对距离时，我会得到以下错误： distance.pdist(X, metric='

浏览 1提问于2017-07-05得票数 2

回答已采纳

1回答

使用CountVectorizer一次向量两个pandas列

python、pandas、scikit-learn

我想要一次在两列中应用Sklearn的CountVectorizer。我已经尝试过了： features = df[['col 1', 'col2']] results = df[['col 3'] vectorizer = CountVectorizer(lowercase=False) features = vectorizer.fit_transform(features) results = vectorizer.fit_transform(results) 但是我得到了这个错误： TypeError: expected strin

浏览 28提问于2020-05-02得票数 0

1回答

ValueError: X有5个特性，但RandomForestClassifier需要2607个特性作为输入

machine-learning、scikit-learn、nlp、countvectorizer

这就是我如何将文本转换为计数向量的方式。 cv1 = CountVectorizer() x_traincv=cv1.fit_transform(x_train) a = x_traincv.toarray() a 这是用于预测的模型。 from sklearn.ensemble import RandomForestClassifier as RFC rfc_b = RFC() rfc_b.fit(a,y_train) y_pred = rfc_b.predict(a) 这就是我如何利用现场的细节来预测 from sklearn.feature_extraction.text import

浏览 23提问于2022-03-07得票数 -1

1回答

矢量器对象toArray()，数组太大错误

python、numpy、scikit-learn

我已经创建了预处理数据。现在，我想将其矢量化，并将其写入一个文本文件中。在将向量器对象转换为数组时，我得到了这个错误。可能的解决方案是什么？ from sklearn.feature_extraction.text import CountVectorizer import numpy as np vectorizer = CountVectorizer(analyzer = "word", \ tokenizer = None, \

浏览 0提问于2017-03-23得票数 0

1回答

Python Try在Except?之后不执行？

python、loops、for-loop、valueerror、except

我被问题下面显示的python代码卡住了。这段代码是一个有监督神经网络项目的一部分。当遇到未知标签时，encoder.inverse_transform(x)会生成ValueError。我期望的是:代码为每个x返回一个结果，当x不在encoder.classes_中时，该x的结果将为'Onbekend'。它的作用是:当输出包含一个未知标签时，无论x的数量如何，代码都会产生一个'Onbekend‘。有人知道我在这里错过了什么吗？ import pandas as pd from sklearn import model_selection from sklearn

浏览 2提问于2020-08-22得票数 1

2回答

NLP文本分类CountVectorizer形状错误

python、scikit-learn、nlp、decision-tree、text-classification

我有一个文本数据集，其中一个列用于评论，另一个列用于标签。我想用该数据集建立一个决策树模型，我使用了向量器，但是它给出了ValueError: Number of labels=37500 does not match number of samples=1错误。vect.vocabulary_ returns {'review': 0}评审是列名。所以我认为它并不适合所有的数据。这是下面的代码，任何帮助都是非常感谢的。 from sklearn.model_selection import train_test_split X_train, X_test,y_train, y

浏览 18提问于2022-01-15得票数 0

回答已采纳

1回答

如何在散点图中绘制文本文档？

python、numpy、matplotlib、scikit-learn

我正在使用scikit执行文本分类，并且我正在尝试了解这些点相对于我的超平面的位置，以决定如何继续。但是我似乎不能绘制来自CountVectorizer()函数的数据。我使用了以下函数：pl.scatter(X[:, 0], X[:, 1])，它给出了错误：ValueError: setting an array element with a sequence. 你知道怎么解决这个问题吗？

浏览 1提问于2014-06-25得票数 0

1回答

在以下情况下如何运行随机分类器

python、machine-learning、random-forest

我正在尝试情感分析案例，并尝试为以下内容运行随机分类器： |Topic |value|label| |Apples are great |-0.99|0 | |Balloon is red |-0.98|1 | |cars are running |-0.93|0 | |dear diary |0.8 |1 | |elephant is huge |0.91 |1 | |facebook is great |0.97 |0 | 在从sklearn库中将其拆分成训练测试后，我对

浏览 13提问于2020-12-03得票数 1

回答已采纳

2回答

python:如何确定多维数组是否为空，以及值错误

python、arrays、numpy、multidimensional-array

我正在初始化这样的数组： import numpy as np g = np.array([no_classes, no_features, no_classes]) no_classes和no_features都是整数，假设它们分别等于2和3。所以我打算让g成为一个三维的形状数组(2,3,2)。稍后，我计算了一个名为temp_g的2D数组，它的形状为：(no_features，no_classes)。现在，在一个循环中，如果还没有分配到任何东西，我想用和temp_g分配g的g j th元素，否则我想使用简单的矩阵加法向它添加temp_g。 if g[j] is []: # <

浏览 1提问于2014-05-04得票数 1

回答已采纳

1回答

Python numpy数组，在保存到csv时出现了尺寸错误，预期的一维或二维数组，得到0D数组

python、pandas、numpy、countvectorizer

保存wordVect出错了， from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?', ] vectorizer = CountVectorizer(ng

浏览 0提问于2019-07-24得票数 0

回答已采纳

1回答

潜dirichlet分配的输入特征问题

python、lda

我试着用我的LDA模型做预测。但是当我把一个字符串传递给它时，它会给出一个错误的输入特性。现在，我的问题是，如何使我的模型接受任何输入，并仍然预测正确的主题。现在它需要54777作为输入。模型： cv = CountVectorizer(max_df=0.95, min_df=2, stop_words='english') dtm = cv.fit_transform(npr['Article']) LDA = LatentDirichletAllocation(n_components=7,random_state=42) LDA.fit(dtm) 预测

浏览 1提问于2022-02-08得票数 0

回答已采纳

2回答

ColumnTransformer的文本和数字特性存在值错误

python、machine-learning、scikit-learn

我正在尝试使用SKLearn 0.20.2来创建管道，同时使用新的ColumnTransformer特性。我的问题是，当我运行分类器：clf.fit(x_train, y_train)时，我一直得到错误： ValueError: all the input array dimensions except for the concatenation axis must match exactly 我有一列名为text的文本块。我的其他专栏都是数字性质的。我试图在我的管道中使用Countvectorizer，我认为这就是问题所在。会很感激能帮上忙的。在运行管道并检查x_ than /y_than

浏览 1提问于2019-02-05得票数 3

2回答

文本分类+朴素贝叶斯+ Python :输入包含NaN、无穷大或对dtype太大的值(‘float64’)

python、numpy、scikit-learn、text-classification、naivebayes

我试着用朴素的贝叶斯进行文本分类。这是我的密码： #splitting Pandas dataframe into train set and test set x_train, x_test, y_train, y_test = cross_validation.train_test_split(data['description'], data['category_id'], test_size=0.2, random_state=42) #production of bag of words from x_train count_vect = Cou

浏览 0提问于2018-09-27得票数 0

回答已采纳

2回答

删除在Python语料库中显示超过x%的单词

python、for-loop、text-processing

我正在处理一个大型语料库，其形式是标记/单词列表。语料库包含大约1900,000字，我已经运行了一个代码来获取最频繁的单词，现在语料库已经有14万字了。我想删除那些出现在文档中超过95%，而少于5%的单词。语料库样本 ['problems', 'guess', 'sleep', 'holy'] 首先我找到了最常用的词 from nltk.probability import FreqDist corpus_frequency = FreqDist(corpus) corpus_commom=corpus_frequency

浏览 5提问于2020-05-19得票数 2