Sklearn TfidfVectorizer中的功能是否有最小术语长度要求_在C#中是否有魔术获得最长的线长度功能 - 腾讯云开发者社区

python、python-3.x、pandas、sklearn-pandas、tfidfvectorizer

我有一个用来计算Tfidf的pandas数据框架： df['sentence'] = ['buy donuts', 'buy donuts', 'buy donuts', 'buy donuts',sklearn的tfidfvectorizer。然而，我注意到一个奇怪的反常现象，即使min_df和max_df被设置为包含所有术语，它也没有包括一些术语作为

浏览 23提问于2019-10-19得票数 1

1回答

如何减少scikit中的管道足迹-学习？

machine-learning、python、scikit-learn

我写了一篇关于堆叠溢出的文章。由于它是有关科学知识，我希望我能获得一些帮助，从数据科学家在这个论坛。stackoverflow.com/questions/38640815/python-running-out-of-memory 不过，总的来说，我想征求意见，减少记忆使用时，一个人使用科学学习，因为这可能是一个日常的问题来处理作为一个数据科学家

浏览 0提问于2016-07-28得票数 0

1回答

检查python的tf- in学习成绩。

python、scikit-learn、tf-idf

我遵循的例子，以计算TF-以色列国防军的值使用学习。myvocabulary = ['life', 'learning'] corpuseverlasting learning", 2: "The unexamined life is not worth living", 3: "Never

浏览 2提问于2017-10-06得票数 1

回答已采纳

2回答

如何用tf-国防军对新文件进行分类？

python、scikit-learn、text-mining、tf-idf、text-analysis

如果我使用来自TfidfVectorizer的sklearn生成特征向量，如下所示：feature_names = TfidfVectorizer.get_feature_names() 然后根据feature_names计算新文档的<em

浏览 5提问于2016-10-18得票数 9

回答已采纳

1回答

如何禁用sklearn的默认停止词功能

python、machine-learning、scikit-learn、nlp、tf-idf

我试着得到日本词的tf值。我遇到的问题是，TfidfVectorizer把一些日语字符去掉了，我想把它们保留下来，作为停止词。以下是一个例子：tf = TfidfVectorizer(stop_wordswords_list)print (feature_names) 输出是：[

浏览 1提问于2017-06-05得票数 4

回答已采纳

2回答

如何在Scikit学习中实现TfidfVectorizer的手工工程特性？

python、scikit-learn、nlp

我正在使用下面的代码来生成一个tdidf-matrixtfidf_vectorizertfidf_matrix = tfidf_vectorizer.fit_transform(documents) print(tfidf_matrix.shape)返回(567, 209)，这意味着有567(documents)函数仍然使用209个术语的噪声列表，而不是手动选择的67

浏览 7提问于2017-12-21得票数 3

回答已采纳

1回答

用FeatureUnion为scikit学习管道中的单词包增加额外功能

python、machine-learning、scikit-learn

我已经挣扎了这么多，但仍然不知道如何使用额外的功能，与FeatureUnion的文本功能，在科学学习的管道。我有一个句子列表和他们的标签来训练一个模型和一个句子列表作为测试数据。然后，我尝试添加一个额外的功能(如每个句子的长度)到包字。为此，我编写了一个自定义LengthTransformer，它返回长度列表，并具有与我的火车列表相同数量的元素

浏览 0提问于2017-01-26得票数 2

回答已采纳

1回答

使用scikit学习tfidf向量器，从计数数据帧开始

python、nlp、scikit-learn、tf-idf

我有一个pandas数据框架，其中包含一系列文档的字数。是否可以对其应用sklearn.feature_extraction.text.TfidfVectorizer以返回术语文档矩阵？import pandas as pd b = [1,3,4,6]如何在df中获取计数的

浏览 2提问于2015-02-14得票数 5

1回答

TfidfVectorizer是否保持功能的顺序？

scikit-learn、tf-idf

我想知道TfidfVectorizer在使用scikit learn转换文档时是否保持了功能的顺序。下面是我正在做的事情：corpus = ['this movie is cool', 'I love this book']X = vec.

浏览 1提问于2016-01-05得票数 0

1回答

内存错误python中的TFIDF余弦相似度

python、out-of-memory、sparse-matrix、cosine-similarity

有一个包含项目描述的大型数据集。它包含项目ID和项目的文本描述。可以为描述中术语的tf_idf值构建余弦相似度矩阵。from sklearn.feature_extraction.text import TfidfVectorizer tf =

浏览 10提问于2018-08-15得票数 1

回答已采纳

5回答

滑雪的TfidfVectorizer词频？

python、scikit-learn、tf-idf

我有一个关于sklearn的TfidfVectorizer的问题，当它在每个文档中执行单词的频率时。我看到的示例代码是： >>> 'sandwich and I ate a sandwi

浏览 6提问于2016-03-02得票数 1

回答已采纳

2回答

使用TF-国防军与其他功能在科学工具包-学习

python、scikit-learn、pandas、tfidf

将文本分析与其他功能相结合的最佳/正确方法是什么？例如，我有一个包含一些文本和其他特性/类别的数据集。scikit学习的TF-国防军矢量器将文本数据转换为稀疏矩阵。但是，还有什么方法可以考虑到其他功能呢？我是否应该消除文本的tf-国防军表示，并将功能和文本合并成一个DataFrame？或者，我是否可以将稀疏矩阵保留为单独的列？正确的方法是什么？

浏览 0提问于2017-09-04得票数 14

回答已采纳

1回答

如何从滑雪板中的TF*下手值中获取字数

python、nlp、scikit-learn、tf-idf

我只想用一组句子的tf*以色列国防军矩阵来计算给定句子中的一个单词。我使用来自sklearn.feature_extraction.text的sklearn.feature_extraction.text。例子： sentences = ("The sun is shiny i like我知道获得术语频率

浏览 0提问于2015-08-27得票数 4

回答已采纳

4回答

如何使用sklearn计算文档和查询之间的tf-以色列国防军余弦相似度？

python、scikit-learn、tf-idf、cosine-similarity

我的目标是输入3个查询，并找出哪一个查询与一组5个文档最相似。到目前为止，我已经计算了完成以下操作的文档的tf-idf： allDocs.append(nlp.clean_tf_idf_text(document)) v

浏览 0提问于2019-04-14得票数 9

回答已采纳

1回答

更快的sklearn tf-idf向量器

python、machine-learning、scikit-learn、nlp、spacy

我试着在一个项目中使用sklearn的TfidfVectorizer，但Tfidf Vectorizer似乎占用了很多时间…… import spacy nlp = spacy.load('ja_core_news_lg')matrix = vectorize

浏览 14提问于2021-01-04得票数 1

1回答

决策树的特征重要性提取(scikit-learn)

python、tree、scikit-learn、decision-tree、feature-extraction

我一直试图了解我所建模的决策树中使用的特性的重要性。我感兴趣的是发现节点上选择的每个特性的权重以及术语本身。我的数据是一堆文件。这是我为决策树编写的代码，我修改了scikit中的代码片段--学习那个提取()： from sklearn.feature_extraction.text import TfidfVectorizer### Feature extract

浏览 1提问于2015-12-12得票数 0

2回答

TfIdfVectorizer删除包含所有停止词的文档

python、python-3.x、scikit-learn、tfidfvectorizer

我正在使用sklearn的TfIdfVectorizer来向量化我的语料库。在我的分析中，有一些文档因为包含所有的句号而被过滤掉。为了减少稀疏性的问题，并且因为在分析中包含它们是没有意义的，我想删除它。查看TfIdfVectorizer文档，没有可以设置的参数来执行此操作。然而，这有一个潜在的问题，我得到的停止词与向量器使用的

浏览 0提问于2019-03-07得票数 2

回答已采纳

1回答

tf-以色列国防军不同长度的文件

python、normalization、tf-idf、textblob

当文档长度非常不同时(例如，文档长度从500字到2500字不等)，我搜索了关于规范tf等级的网页。我发现的唯一的规范化讨论是将术语频率除以文档的长度，从而导致文档的长度没有任何意义。但是，这种方法对tf的规范化来说是非常糟糕的方法。如果有的话，这会导致每个文档的tf等级有很大的偏差(除非所有文档都是从几乎相同的</em

浏览 2提问于2016-09-26得票数 10

回答已采纳

2回答

将特性名称更新为scikit

python、machine-learning、nlp、scikit-learn

我正在试验这段代码import numpy as np vectorizer = TfidfVectorizersecond train data [u'aims',

浏览 8提问于2014-08-06得票数 6

回答已采纳

1回答

在给定范围内收缩长度列表的QuickCheck组合子

haskell、quickcheck

是否有一个QuickCheck函数可以生成一个长度在给定范围内的列表，类似于使用hedgegog实现的功能，例如： Gen.list (Range.constant 5 13) someGen 我猜人们会写下这样的话： do vectorOf n genA 让这样的函数变得多余，但我想知道是否有QuickCheck组合器来缩小列表，其不变量

浏览 14提问于2019-09-24得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云