NLP:将CountVectorizer应用于包含功能列表的列_将函数应用于包含日期时间的dataframe列_Flutter:将removeAt应用于包含嵌套对象的列表 - 腾讯云开发者社区

、、、

我想对包含单词和短语列表的列应用CountVectorizer。换句话说，语料库不是一个字符串，而是一个列表。问题是我遇到的CountVectorizer或任何其他相关函数都需要一个字符串作为输入。将列表连接到一个字符串中并对其进行标记化是没有意义的，因为有些短语包含2个单词。有什么想法吗？

浏览 33提问于2020-05-04得票数 1

1回答

在创建CountVectorizer对象的上下文中，对象是什么意思？

、、

我试图理解一些使用python进行自然语言处理的代码。这里的X是包含我所有电子邮件(文本数据)的数据帧。我已经用代码写了一些注释，但我仍然不明白这些注释是什么意思。示例:创建CountVectorizer对象意味着什么？第三行做什么，最后在第四行，为什么我不能使用print((X.get_feature_names()))来查看特性名称？from sklearn.feature_extraction.text import CountVectorizer #import Coun

浏览 18提问于2020-04-02得票数 0

回答已采纳

1回答

在scikit中使用Featureunion学习为tfidf组合两个pandas列

、、

在使用作为垃圾邮件分类的模型时，我想添加主题和正文的额外功能。combined_2 = FeatureUnion(list(features)) ('count_vectorizer', CountVectorizer

浏览 1提问于2016-01-11得票数 14

回答已采纳

2回答

如何将CountVectorizer应用于数据集的列？

、

我已经能够在单个文本字符串中使用CountVectorizer，但我有一个长度为80.000的数据集。如何将CountVectorizer应用于一列中的所有内容？我尝试了以下几点：cv = count_vect.fit_transform(df['Tokenized_Review

浏览 3提问于2021-01-05得票数 0

回答已采纳

3回答

如何解决具有两个以上值的因变量的分类问题

、、、

我有一个简单的NLP问题，在这里，我有一些书面评论，有一个简单的二进制的积极或消极的判断。在这种情况下，我可以将包含“单词袋”的X列作为自变量进行训练和测试，即稀疏矩阵中的单个单词。from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer(max_features = 300)indipenden

浏览 0提问于2018-12-27得票数 1

回答已采纳

1回答

在Python中将分类数据转换为数值数据

、、、、

它的一个列--“关键字”--包含分类数据。我尝试使用的机器学习算法只接受数字数据。我想把"Keyword“列转换成数值-我该怎么做呢？使用NLP？一袋话？from sklearn.feature_extraction.text import CountVectorizerdataset[

浏览 0提问于2019-10-07得票数 2

回答已采纳

1回答

部分拟合，如何确保一个热捕捉所有特征的一致性。

、

对大约四百万个样本进行了一些数据科学研究，其中很多列都是分类的。所以，我取数据的随机子集进行部分拟合，然后重复。getClass(x) for x in dfY.values],classes=np.unique([getClass(x) for x in dfY.values])) 如何确保每次我都能得到所有可能的类，并且它们的顺序是相同的？

浏览 0提问于2018-01-31得票数 0

1回答

如何对所有列应用命名实体识别函数，并返回符合条件的列名

、

我使用以下代码来识别列类型是否为"GPE“，这意味着一个字段包含一个地理政治实体的名称。import spacyimport en_core_web_smdf['new_col'] = df['text2

浏览 18提问于2020-06-30得票数 1

回答已采纳

1回答

将矢量化的术语映射到原始数据帧

、

我有一个包含域名的数据框列，即newyorktimes.com。我被“.”分开了。并将CountVectorizer应用于"newyorktimes“。newyorktimes.com newyorktimes usa newyorkreport.com newyorkreport usa "newyorktimes“也被添加为名为”split“的新数据框列我能得到术语频率 vectoriser = CountVectorizer<

浏览 11提问于2020-11-23得票数 1

1回答

CountVectorizer变换后的意外稀疏矩阵

、、、

我是NLTK的新手，在创建用于评论的分类器时遇到了麻烦。我不能理解当作为输入传递的数据的形状是(10000,1)时，转换后的数据的形状是1*1稀疏矩阵。我已经对原始审查数据进行了一点处理。像删除停用的单词，词干和删除标点符号。我需要帮助找出问题所在，如果需要更多详细信息来查找问题，请让我知道。

浏览 0提问于2017-12-10得票数 1

1回答

如何从Spacy库中的哈希值中取回字符串？

、、

如何从散列中取回字符串值？注意-这个问题主要是关于spaCy库的，而不是python。# import spacy package for english languagenlp = English() cat_hash = nlp.voca

浏览 10提问于2020-05-18得票数 0

1回答

如何在CountVectorizer中添加权重因子

、、、

我试图用LDA解决nlp聚类问题。我在使用CountVectorizer时遇到了来自sklearn的问题。，它对我的问题很有帮助：cvz = cvectorizer.fit_transform(df2['word']) 我只想在word列的值中添加某种权重因子。它应该是这样工作的</em

浏览 7提问于2017-09-30得票数 0

回答已采纳

1回答

熊猫+ CountVectorizer:如何快速过滤行

、、

我在潘达斯有一篇文字专栏：然后我将CountVectorizer应用于它：v = vectorizer.fit_transformTEXT_COL'])ft = v.get_feature_names()m = vectorizer.transform(df['TEXT_COL']) I需要: df的切片，它只<

浏览 3提问于2017-03-21得票数 1

回答已采纳

2回答

从两列数据中运行单列系列的CountVectorizer？

、、、、

如何将包含多列的熊猫数据栏中的单个列转换为CountVectorizer?系列 from sklearn.fe

浏览 6提问于2019-10-25得票数 0

回答已采纳

1回答

火花NaiveBayesTextClassification

、

这是我的密码： at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147){"text":"any text","label":"6.0"} 在这个话题上我真是个

浏览 4提问于2016-11-29得票数 0

回答已采纳

2回答

如何在scikit中向量化包含多个文本列的数据框而不丢失原始列的轨迹

、、、、

到目前为止，我已经将系列合并为一个系列，并用逗号分隔每个系列。"catA"] + "," + df["catB"] + "," + df["catC"] return s.split(",") vect = CountVectorizer(analyzer='word',tokenizer=my_to

浏览 0提问于2015-06-19得票数 3

回答已采纳

1回答

返回对于scikit learn中的特定功能具有非零条目的CountVectorizer中的行的索引

、、

我一直在搜索Python的sklearn包的文档。我使用我的语料库创建了一个CountVectorizer对象，并对其进行了拟合和转换。我正在寻找一个函数，它可以为某些特定的列返回具有非零条目的所有行的索引。那么，如果我的CountVectorizer中的行由音乐评论组成，列由特征组成(例如，有一列表示单词“lyrics”的计数)，那么sci kit-learn

浏览 0提问于2014-04-19得票数 3

1回答

使用FeatureUnion向来自不同列的countvectorizer添加功能

、、、、

我目前正在尝试添加一个额外的功能到一个countvectorizer矩阵，这个矩阵是用scikit-learn创建的。工作流程如下:我有一个dataframe，它包含一个包含文本的列和一个包含附加特性的列。我首先将我的数据分成训练数据帧和测试数据帧。然后，我在训练数据的文本列上应用countvectorizer。我现在试图确定的</em

浏览 22提问于2021-01-25得票数 0

回答已采纳

1回答

如何使用spacy或nlp映射包含句子的两个dfs的列

、、、、

每一个都包含一个id和相应的描述。也就是说，table1包含id1 description1，table2包含id2和description2。我必须比较描述1和2，并将表1的行映射到表2的匹配行(表2中将有多个行与表1的行匹配)。最终的输出表包含所有四列。我将NLP应用于原始数据集。我必须选择哪种预测算法？

浏览 0提问于2021-01-20得票数 0

3回答

从sklearn特征联合中获取特征

、

我有一个功能联合，它使用一些自定义转换器来选择文本和数据帧的各个部分。我想知道它在使用哪些功能。mask = union.named_steps['select_features'].get_support() 但是，我无法将此掩码应用于特征联合输出，因为我正在努力返回最终的转换。NB我尝试在每个转换器中包含一个'get_feature_names‘函数，

浏览 13提问于2017-12-28得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云