在Python中对Twitter数据框使用列举化和Tf- Idf计算时出错

python、tf-idf、lemmatization

我有一个tweet的数据帧，我试图在词条化的'tweet‘列上计算Tf-Idf。我对词汇化的结果有一个问题，并且在尝试计算Tf-Idf时得到一个错误。w_tokenizer.tokenize(tweet)] df['tweet_lemmatized'] = df['tweet'].apply(lemmatize_text) 这是一个包含新列‘tweet_lemmat

浏览 54提问于2020-07-27得票数 2

回答已采纳

2回答

序列、tf-国防军和余弦相似性

python、scipy、cluster-analysis、trigonometry、tf-idf

我试着用python根据tf-国防军矩阵对一些文档进行聚类。idf = np.log(idf)然后，我使用scipy对这些向量进行聚类： from scipy.cluster import hierarchymethod='complete',metric='cosine

浏览 2提问于2012-12-03得票数 2

回答已采纳

3回答

CountVectorizer+TfidfTransformer和TfidfVectorizer有什么区别？

machine-learning、scikit-learn、tfidfvectorizer、countvectorizer

要将ML算法应用于文本，必须对其进行数值表示。使用sklearn进行此操作的一些方法如下： TfidfVectorizerCountVectorizer+TfidfTransformer和TfidfVectorizer有什么区别？

浏览 9提问于2020-10-27得票数 1

回答已采纳

2回答

使用TF-下手测试和训练集具有不同数量的特征

scikit-learn、classification、tf-idf、training-data

我们将使用TF-以色列国防军作为特征值，使用单词袋训练二进制分类器。我们为我们的培训文件提供了m特性(从技术上讲，m是我们在清理和预处理后的所有n个文档中拥有的唯一标记的数量)。我们首先应该像对待培训文件一样，对测试文件进行预处理。然后，我们应该使用TF-以色列国防军为我们的测试文件构建一个特征向量。这里有两个问题：对于培训和测试集，功能的数量将是不一样的。只计算一份测试文件，甚至其中几份，<

浏览 4提问于2017-06-23得票数 2

1回答

如何在TfidfVectorizer中计算术语频率？

python-3.x、scikit-learn、tf-idf

我知道，默认情况下，TfidfVectorizer将在术语频率上应用l2规范化。文章解释了它的方程。我在用古吉拉特语写的文本上使用TfidfVectorizer。以下是它的输出细节：ખુબ વખાણ કરે છે 我使用的代码是：在这里，token

浏览 2提问于2017-02-24得票数 3

回答已采纳

2回答

基于实例学习带关键字的句子标记

machine-learning、nlp

我不需要代码，我只是在寻找一些关于如何实现这一点的指针和方法/文件/可能的想法。

浏览 3提问于2015-09-07得票数 2

回答已采纳

1回答

文档分类:在特征过滤之前还是之后？

classification、feature-selection、feature-extraction

我发现tf-以色列国防军在这方面可能非常有用。然而，我不知道该在什么时候使用它。在总结一个与特定主题有关的网站时，反复提到它，这是我目前的过程：正规化和茎含量检索给定文档的每一毫克的计数，过滤低长度和低出现的单词。在结果集上训练分类器(如NaiveBayes ) 我的问题是:tf-以色列国防军在这里适合什么地方？在正常化/堵塞之前？

浏览 0提问于2014-12-10得票数 8

回答已采纳

4回答

我如何可视化tf-以色列国防军向量的数据点，以便进行kmeans聚类？

python、scipy、scikit-learn、k-means、tf-idf

我有一个文件清单和tf-以色列国防军的分数，每个独特的词在整个语料库。我如何在二维图上想象它，给我一个度量我需要多少个星系团来运行k-方法？print "num_samples: %d, num_features: %d" %(num_samples,num_features)如你所见，我可以把我的句子转换成tf-国防军文件矩阵.但我不知道如何绘制tf-以色列国防军得分的数据点.

浏览 1提问于2014-12-15得票数 13

1回答

使用textVectorization创建子模型并在Keras中嵌入层：'str‘对象在Keras中没有属性'base_dtype’

python、tensorflow、keras、deep-learning、jupyter-notebook

我正在使用文本和数值数据建立一个多输入的Tensorflow NLP模型。为此，我计划创建两个子模型，一个用于文本，另一个用于数值数据，然后将它们的输出连接到我的主模型中。对于文本子模型，我一直在遵循文本矢量化和嵌入的Keras指南(和)，并使用TF-国防军加权，对所有的比例表进行索引。text_vectorizer.get_vocabulary())) vocab_size = len(text_vectorize

浏览 6提问于2021-04-28得票数 1

1回答

使用Python查找文档频率

python、python-2.7

嘿，大家，我知道这里已经问过几次了，但是我很难用python找到文档频率。我试图找到TF-以色列国防军，然后找到他们之间的cosin分数和一个查询，但被困在寻找文件的频率。doc_IDF = [A for A in words_IDF if len(A) >= 3 and A.isalpha()] print TFvec else

浏览 1提问于2016-02-04得票数 1

回答已采纳

1回答

火花流-卡夫卡推文流的分类

apache-spark、pyspark、spark-streaming、apache-spark-mllib、sentiment-analysis

上下文是以下我有一个简单的卡夫卡生产者，它模拟一个推特流(从一个文件中读取)和一个TweetAnalyzer消费者，它应该处理和分类在一个火花流上下文上的推文，一旦它收到它们。为了对接收到的tweet进行分类，我已经在磁盘上建立并存储了TF和朴素贝叶斯模型，这些模型是在星火流上下文启动之前加载的。对于处理过的每个tweet (词干、标点符号等)，我应该计算它的TF-以色列国防军向量(特征向量)，并分别利用先前加载的以色列国防军<em

浏览 2提问于2016-07-24得票数 1

回答已采纳

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词填充了他们的TF和TF-IDF分数。在我目前的大部分分析中，我一直在使用R中的tm包，但为了更进一步，我已经开始使用Python语言中的gensim库。

浏览 3提问于2019-07-11得票数 0

2回答

如何在doc2vec中找到文档中最相似的术语/单词？

python、cluster-analysis、gensim、word2vec、doc2vec

我应用Doc2vec将文档转换为vectors.After，在聚类中使用向量，并计算出与每个集群的质心最接近/最相似的5个文档。我的问题是，在Doc2vec中，是否有任何方法可以找出文档中最主要或最简单的术语/单词。我正在使用python的gensim包作为Doc2vec实现

浏览 3提问于2017-09-05得票数 0

回答已采纳

2回答

为Textacy中的单个单词计算TD-IDF

python、machine-learning、nlp、spacy、textacy

我试图使用来计算跨标准语料库的一个单词的TF-以色列国防军得分，但是对于我收到的结果有点不清楚。logger.info("tf_idf:") logger.i

浏览 1提问于2019-04-19得票数 5

回答已采纳

3回答

将tf-idf用于分类任务，如情感分析任务，是否正确？

machine-learning、document-classification

我经常看到人们在情感分析等文本分类任务中使用tf-idf向量化。根据我的理解，它会惩罚出现在很多文档中的单词的分数。(倒置文档频率)通常我们会忽略那些超过0.5df的单词。然而，假设我正在做情感分析，我有一个单词出现在+ve评论的每个文档中，而在-ve评论的文档中出现的次数为零或很少。因此，在我看来，使用惩罚高文档频率是违反直觉的。那么，将tf-idf矩阵用于文本分类任务是一个好主意吗？

浏览 4提问于2015-11-04得票数 1

2回答

情感识别的分类数据集

opencv、csv、dataset、machine-learning、sentiment-analysis

我从事一些研究教育工作，需要有分类面部情感的数据集来训练分类器。例如，性别分类很简单:我可以创建csv文件，并根据性别将任何图像标记为0或1。就像这样： .../..我找到了带有关键点的图像数据集，因此我可以根据不同的情绪对它们进行聚类，但是如果以前手动标记它们，则会有更高的准确性。也许有人有直接的信息源，或者有类似信息的链接。谢谢。

浏览 4提问于2013-11-02得票数 2

3回答

在比较不同格式的文档时替代TF-国防军和余弦相似的方法

nlp、text-mining、similarity、cosine-distance

我使用一个职务列表数据库来实现这一点。目前，该代码的工作方式如下：2)每项职业(如：)，将该职业的职务列表的处理文本合并到一个文档中。3)计算职业文件中每项技能的TF-国防军。在此之后，我不确定应该使用哪种方法根据用户的技能列表对职业进行排名。我见过的最流行的方法是将用户的技能也当作文档来处理，然后计算技能文档的TF-国防军，然后使用余弦相似度

浏览 0提问于2017-01-02得票数 15

1回答

tf-以色列国防军不同长度的文件

python、normalization、tf-idf、textblob

我发现的唯一的规范化讨论是将术语频率除以文档的长度，从而导致文档的长度没有任何意义。这使得tf-idf等级在与doc1匹配时会自动大于d

浏览 2提问于2016-09-26得票数 10

回答已采纳

1回答

在BigQuery中使用javascript计算tf时UDF工作人员在执行过程中超时

javascript、google-bigquery、user-defined-functions、tf-idf

我尝试在BigQuery中实现一个查询，该查询可以使用to从更大的文档集合中为文档查找顶级关键字。在计算关键字的tf-国防军得分之前，我清理文档(例如删除停止词和标点符号)，然后从文档中创建1、2、3和4克，然后在n克中进行词干处理。为了执行这一清理，我使用javascript库和js创建和词干。现在，当我在上尝试查询时，大约30分钟后，该查询将

浏览 1提问于2019-07-30得票数 0

3回答