如何使用TfIdfVectorizer查找重要的单词？_如何使用regex查找某个单词之前的所有单词？_如何使用NSRegularExpression查找泰语单词 - 腾讯云开发者社区

、、、、

代表文档的重要单词是'Bob‘和'Sara’。但使用max_features时，输出往往会显示频繁出现的单词。当语料库很大时，情况会变得更糟。我们怎么能只得到重要的单词呢？from sklearn.feature_extraction.text import TfidfVectorizer 'hi,',

浏览 104提问于2021-02-08得票数 1

回答已采纳

1回答

计数向量器会比tf-以色列国防军表现得更好(稍微)吗？

、、

对于二进制分类的任务，我有一个小的数据集，共有1000个文本(~590个正的和401个负的实例)。有了800套训练和200套测试，我得到了一个(略)更准确的计数矢量比tf-以色列国防军。此外，计数向量器选择相关的“单词”训练模型，而tf-以色列国防军没有挑选出这些相关的单词。即使是计数向量器的混淆矩阵也显示出比tf-国防军略好的数字.confusion matrix [ 6

浏览 0提问于2019-04-10得票数 0

回答已采纳

1回答

TF-IDF是否合并了单个学期的分数？

、、

我正在阅读TF-IDF，这样我就可以从我的语料库中过滤出常见的单词。在我看来，对于每个单词、文档对，您都会得到TF-IDF分数。你关注的分数是多少？您是否将所有文档的分数合并为一个单词？

浏览 6提问于2019-03-08得票数 0

2回答

如何用tf-国防军对新文件进行分类？

、、、、

如果我使用来自TfidfVectorizer的sklearn生成特征向量，如下所示：然后我将如何生成特征向量来对新文档进行分类？因为你不能计算单个文档的tf-国防军。使用以下方法提取特征名是否是正确的方法： feature_names = TfidfVectorizer</e

浏览 5提问于2016-10-18得票数 9

回答已采纳

1回答

如何在文本分类中显示随机森林上的特征重要性？

、、、、

在我们使用TfidfVectorizer或CountVectorizer转换语料库并将其转换为RandomForest之后，我们如何通过相应的单词和索引重新获得基尼重要性？vectorizer = TfidfVectorizer()X_test_vectorizer

浏览 52提问于2021-03-31得票数 0

1回答

基于TfidfVectorizer的n-图矢量化

、

我使用的TfidfVectorizer参数如下：我正在传达以下文字：“红色的太阳，粉红色的糖果。绿色的花。”这是get_feature_names():的输出 ['candy', 'candy green', 'coffee'

浏览 3提问于2018-08-31得票数 3

回答已采纳

1回答

在每一份文件/总数中，哪10个词的TF-以色列国防军值最高？

、、、、

我正试图得到每个文档最高的TF-以色列国防军分数为10的单词。 from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer</em

浏览 1提问于2020-11-08得票数 2

回答已采纳

2回答

如何从sklearn TfidfVectorizer中删除所有非英语标记？

、

TfidfVectorizer(analyzer='word', ngram_range=ngram_range, min_df=0, stop_words=lang) 我正在尝试向量化我的语料库，但我的语料库同时包含英语和阿拉伯语单词我想删除阿拉伯语单词。

浏览 19提问于2019-07-31得票数 0

回答已采纳

2回答

SKLearn TF-以国防军下降号码？

、

我在做文字分析，我想忽略那些仅仅是数字的“单词”。例如：从课文“这是斯巴达千！”只应使用“this”、“is”和“Sparta”这几个词。有办法这样做吗？多么?

浏览 3提问于2017-08-31得票数 4

回答已采纳

1回答

是否有特定的指标或方法来删除TF IDF词汇表的尾部？

、、、、

我已经从gensim或tfidfvectorizer获得了一个TF IDF词汇表。是否有特定的指标或方法来删除TF IDF词汇表的尾部？我指的是Zipf图中的尾部。如何将其可视化？我想看看当我删除词汇表中的单词数量时，准确性是如何变化的。例如，我的词汇表有175000的单词。

浏览 1提问于2019-11-27得票数 0

1回答

是否有一种方法可以根据所提取的命名实体在文档中的重要性/发生情况对其进行排序？

、

寻找一种方法，根据其在上下文中的重要性/相关性，对任何文档中的数十个和数百个指定实体进行排序。提前感谢！

浏览 0提问于2019-08-14得票数 5

1回答

如何使用卡方检验从文档中计算关键字？

、、、、

should schools have uniform","schools discipline","legalize marriage","marriage culture"]但是，我没有标签，当我运行上面的代码时，我得到了：有没有办法使

浏览 22提问于2018-07-28得票数 3

回答已采纳

1回答

如何从一列数据帧中计算tfidf分数并提取具有最小分数阈值的单词

、

我取了一列数据集，每一行都有文本形式的描述。我正在尝试查找tf-idf大于某个值n的单词，但代码给出了一个分数矩阵，如何对分数进行排序和过滤，并查看相应的单词。tempdataFrame['description'].apply(lambda from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfV

浏览 16提问于2019-04-06得票数 3

回答已采纳

1回答

Python是指在每个集群中打印单词的绝对频率。

、、、、

你好，有办法打印出集群中每个单词的绝对频率吗？我的代码是这样的：X = vectorizer.fit_transform(list) for ind in order_centroids[i, :5]: print 我的

浏览 6提问于2021-12-10得票数 0

回答已采纳

1回答

学习:不要使用一些单词作为一个词的特征，而是在搭配中使用。

、、

我正在使用Python和scikit进行文本分类--学习。经过分类和测试，我的算法在测试集和简历集，我想提高准确性。我看到了信息最丰富的特性(由于问题)。我看到，在集信息最多的特性中，我有<e

浏览 3提问于2014-07-22得票数 1

回答已采纳

1回答

将tfidf矩阵打印到文件中

、

我想将此tfidf过程的结果打印为文本文件中的(word，2.333)。目前，它先打印所有单词，然后打印分数。我该怎么做呢？我还希望按照IDF值对文件进行排序，以获得最重要的单词。sklearn.feature_extraction.text import TfidfTransformer results.e

浏览 0提问于2015-12-11得票数 3

1回答

如何将c++与单词边界进行匹配

、

我希望在Python3中将单词"c++“与单词边界相匹配，但我猜测\b也会在加号上触发。为了清楚起见，我简化为以下测试用例：我希望我可以保留单词边界，但以某种方式更改它的设置。这样做的原因是我想把正则表达式放在TfidfVectorizer的token_pattern中，在这个TfidfVectorizer中，我无法控制它们如何使用它。

浏览 0提问于2018-05-19得票数 3

1回答

如何了解NLP模型中与特定类相关的单词？

、、、、

我使用Logistic回归算法和TF-下手向量器训练了一个“消费者投诉分类”的NLP模型。我想知道我的模型与某一特定类相关的单词。我在找这样的东西- Class 1 =“帮助我的模型识别输入文本属于这个类的单词列表”

浏览 5提问于2020-06-21得票数 2

回答已采纳

2回答

我试图删除TfidfVectorizer中法语和英语中的断句。到目前为止，我只从英语中删除了断句。当我尝试为stop_words输入法语语言时，我会收到一条错误消息，上面说它不是内置的。我正在使用Python对这700行进行集群项目。然而，我的集群出现了一个问题:我得到了满是法语停止词的集群，这正在破坏我的集群的效率。我的问题如下：有没有任何方法来添加法语停止词或手动更新内置的英语停止词列表，以便我可以消除这些不必

浏览 0提问于2019-08-05得票数 5

回答已采纳

1回答

只计算单字表的tf-以色列国防军权重

、、

我想从文件中得到特定单词列表的tf-国防军权重。例如，我有如下感兴趣的词。但我只想从使用scikit-learn的文档组中获得上述单词的权重。任何想法都会对我有很大帮助。

浏览 0提问于2019-02-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云