c语言查询文本词频_c语言词频统计_使用c语言做词频统计 - 腾讯云开发者社区

、、

有没有什么Ruby gem或者其他的文本分析工具？词频、模式检测等(最好理解法语)

浏览 0提问于2011-09-30得票数 12

回答已采纳

1回答

Gensim:有机会获得Word2Vec格式的词频吗？

、、

我正在使用快速文本预训练模型进行研究，我需要词频来做进一步的分析。fasttext网站上提供的.vec或.bin文件是否包含词频信息？如果是，我如何获得？我正在使用load_word2vec_format加载使用model.wv.vocabword.count尝试的模型，它只给你词频排名，而不是原始词频。

浏览 25提问于2019-11-07得票数 2

回答已采纳

1回答

我的任务是从外部文件中读取数字列表并显示其中的统计数据。我最初的计划是计算特定值在代码中出现的次数，但我遇到了两个问题:外部文件的输出与文件中的值不同，并且我无法使用下面的for循环计算代码中的单个数字。提前谢谢。 #include <stdio.h> #include <stdlib.h> #include <string.h> int main(void) { FILE *fpointer; fpointer = fopen("randice.txt","r"); char filename[600];

浏览 1提问于2020-12-14得票数 2

1回答

短语查询的Lucene评分

我使用StandardAnalyzer索引我的文本。然而，在查询时，我正在进行术语查询和短语查询。对于术语查询和短语查询，我相信lucene在计算词频和词频方面没有问题.然而，对于像Dirichlet相似这样的模型来说，这是很好的。对于BM25Similarity或TFIDFSimilarity模型，它需要以色列国防军(术语)和以色列国防军(短语)。lucene是如何处理这个问题的？

浏览 2提问于2014-11-21得票数 0

回答已采纳

1回答

读写文件

、

我写了一个程序，它应该从文件中读取文本，然后它应该在不同的file.how中写入词频。我能做到吗？

浏览 4提问于2011-01-02得票数 0

2回答

基于词频的文本约简算法

、、、、

如何减少PHP中基于单词频率的文本？例如，如果我有这个文本： house house house house book book book 它应该简化为这样的东西(或任何类似的形式)： house house book 因此，这样，最常用的词仍然是房子2，书1。

浏览 4提问于2018-05-07得票数 0

回答已采纳

4回答

上下文自然语言资源，我该从哪里开始？

、

我在哪里可以找到一些.Net或概念资源来开始使用自然语言，在那里我可以从文本中提取上下文和主题。我不希望使用词频算法。

浏览 0提问于2008-09-24得票数 2

回答已采纳

2回答

是否有在单词和句子两级工作的分类器？

、、、、

在scikit学习或nltk分类器中，通常考虑术语频率或TF。我也想考虑词频，句子结构进行分类。我有15类问题。每一个都有包含新行的句子的文本文件。类别城市包含这句话： In which city Obama was born? 如果我考虑术语频率，那么可能不考虑以下内容。因为数据集中的奥巴马或城市与查询语句不匹配 1. In which place Hally was born 2. In which city Hally was born? 是否有既考虑词频又考虑句子结构的量词。因此，在训练时，它也对类似句子结构的输入查询进行分类。

浏览 7提问于2014-12-03得票数 0

回答已采纳

1回答

在elasticsearch中存储令牌频率，而不是存储文本

、、、

根据我对文档的理解，elasticsearch是如何工作的，它计算词频*不同的词频。它将文本转换为某种术语频率字典，该字典还包括这些术语最频繁的位置的索引。我要做的不是存储文本，而是存储每行数据的词频。当我简单地上传全文时，搜索效果很好，但在包含文本的10+mil页面的完整解决方案中，搜索效果就不会很好。如果文本内容不相关，那么只存储词频不是更有效吗？编辑:数据的匿名性也是相关的，因此我不希望完整的句子和段落存储在外部。

浏览 12提问于2019-03-04得票数 1

3回答

从网页中剥离HTML并计算词频？

、、、、

在Groovy中，如何抓取网页并删除HTML标记等，只留下文档的文本？我希望将结果转储到一个集合中，这样我就可以构建一个词频计数器。最后，让我再提一次，我想用Groovy来做这件事。

浏览 2提问于2008-10-16得票数 4

回答已采纳

3回答

统计R中多个列的词频

、、、

我在R中有一个数据框，它有多个列，其中包含多个单词文本响应，如下所示： 1a 1b 1c 2a 2b 2c student job prospects money professors students campus future career unsure my grades opportunities university success reputation my job earnings courses

浏览 2提问于2018-11-16得票数 1

2回答

多类感知器的特征向量

、、

我正在尝试用python实现多类感知器。当涉及到多分类时，我已经完全理解了感知器算法的概念，但仍然对我们应该从训练数据中提供的特征向量感到困惑。这个问题只是一个文本(文档)分类问题。我正在尝试在文本预处理阶段使用单字词频作为感知器的特征。当我基于每个训练文档中的词频为每个文档构建特征时，构建的特征恰好是非常稀疏的(文档中出现的每个标记的词频为0，没有出现的词频为0)。我的问题是关于这方面的替代方案。有没有更好的构造特征向量的解决方案？谢谢!

浏览 7提问于2020-02-13得票数 0

1回答

text_general上的第一个Solr调用非常慢

、、

对于字频文本查询，我在索引上执行Solr查询。facet.field使用facet.mincount和facet.limit参数进入text_general字段。查询有时非常慢(大约是)。在我的3GB索引上10秒)，有时以良好的速度执行。我认为快速查询都是由于内部Solr缓存，但我不知道为什么有时查询如此缓慢。我还没有使用过，但是在这里添加常见的查询(特别是这个单词频率调用)是否有意义呢？

浏览 4提问于2011-11-09得票数 0

1回答

计算余弦相似度

、

如何计算余弦相似度以使用jdbc完成我的搜索引擎项目。我有表词频查询来存储用户的输入，表词频文档来存储文档的所有信息，我做了计算查询和文档加权。计算余弦相似度后的输出是用户输入的与查询相关的文档的显示。我没有任何想法，也不知道如何计算它，因为它涉及到数据库中的表。

浏览 4提问于2011-04-13得票数 1

1回答

使用矩阵1中的索引从矩阵2中提取行

、、、、

我有两个矩阵，一个是文本，另一个是文本中的单词频率。我从字频矩阵中删除一行。然后如何使用文本号(从文本矩阵中提取行索引)从单词频率矩阵中提取一行？例如：步骤1:文本列表我有一个行文本列表，其中每一个文本都以其行号来表示： >>print type(texts) >>print texts.shape <type 'numpy.ndarray'> (53,) 步骤2:根据文本的行号选择文本我有一个这样的范围： >>print train_range >>[ 1 2 3 4 5 6 7 8 9 10

浏览 2提问于2012-09-07得票数 0

5回答

使用Python自动从上下文中选择标记

、

如何使用Python从文章或用户的帖子中选择标记？下面的方法可以吗？从文本中构建一个单词频率列表并对它们进行排序。删除一些常见的单词，并选择列表中的前10个单词作为标签。如果上面的方法是好的，什么库可以检测哪些词是常见的，比如“，if，you等”，以及哪些是描述性单词？

浏览 1提问于2009-11-21得票数 4

回答已采纳

2回答

计算每个单词的频率

我一直在上网，并意识到MySQL并不是最好的方式来获得这一点，但我还是要问。什么样的查询、函数或存储过程会让任何人看到或使用跨文本列的单词频率。 ID|comment ---------------------- Ex. 1|I love this burger 2|I hate this burger word | count -------|------- burger | 2 I | 2 this | 2 love | 1 hate | 1

浏览 4提问于2014-03-14得票数 2

回答已采纳

2回答

我们可以训练Spacy进行文本摘要吗

、、

Spacy可以训练NER，文本分类。我们可以使用它的功能进行摘要，所以我们可以训练spacy来提高摘要的准确性吗？

浏览 67提问于2021-09-22得票数 0

1回答

如何在weka中表示用于分类的文本？

、、、、

你能告诉我如何在weka中表示文本分类的属性或类吗？通过使用什么属性可以进行分类？词频还是仅仅是词频？ARFF格式的可能结构是什么？你能给我举几行这种结构的例子吗？非常提前感谢您。

浏览 0提问于2011-11-29得票数 8

2回答

在使用管道()时，子进程如何向父进程返回两个值？

、、、

我让我的子进程计算文本文件中单词的频率。我正在为IPC使用pipe()。子进程如何将单词名称和词频同时返回给父进程？我的源代码是用C语言编写的，我正在UNIX环境中执行它。

浏览 7提问于2011-09-28得票数 2

回答已采纳

1回答

文本东京化后的单月不同词频

、、、、

我在NLP上做了一些工作，我做了一些标记化和文本预处理的任务，同时发现：用于绘制词频的功能： def len_distribution(X): x = [len(n) for n in X] plt.hist(x, bins=len(x)) plt.xlabel('Number of words') plt.ylabel('Number of texts') plt.title('Distribution of text length on dataset') plt.show() 单词频率在标

浏览 4提问于2020-11-17得票数 1

回答已采纳

1回答

如何按相关性对appengine搜索索引结果进行排序？

、

我正在做一个项目，它使用Google App Engine的文本搜索API来允许用户搜索包含words字段的文档。我正在使用MatchScorer进行排序，根据的说法，它“根据文档中的词频来分配分数”。当用户输入类似于"business promo“的查询时，我将其转换为类似于words:business OR words:promo的查询字符串。我本以为这会在只包含其中一个单词的文档之前返回同时包含"business“和"promo”的文档(因为文档说它会根据文档中的词频来分配分数)。但是，我经常看到在包含两个单词的文档之前只包含其中一个单词的结果。我也尝试过使用

浏览 0提问于2014-04-11得票数 3

2回答

R: TM包从单个列中查找单词频率

、、

最近，我一直在尝试使用data.frame包在R中的一个tm列中找到单词频率。虽然data.frame本身有许多基于数字和字符的列，但我只对一个纯文本列感兴趣。虽然我在清理文本本身时没有遇到任何问题，但是当我试图使用findFreqTerms()命令提取单词频率时，我会得到以下错误： Error: inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")) is not TRUE 我认为这意味着我需要将数据转换为DocumentTermMatrix或TermDocumentMatrix，但是，由于我只有一

浏览 2提问于2015-02-25得票数 2

回答已采纳

2回答

用户识别算法

假设您有一个很大的IRC chan日志，您想要找出哪个用户正在使用多个帐户。作为输入，您有用户连接到服务器的时间，以及某种类型的文本分析(词频等)，而作为输出，您需要两个用户“匹配”的可能性。使用ANN可以做到这一点吗？有没有更好的算法来完成这项任务？ PS :使用IP地址不是可接受的解决方案:)

浏览 2提问于2011-02-22得票数 6

回答已采纳

5回答

跟踪/计数词频

、、

我想在一个好的设计上获得一些社区的共识，以便能够存储和查询单词频率计数。我正在构建一个应用程序，在这个应用程序中，我必须解析文本输入并存储一个单词出现的次数(随着时间的推移)。因此，考虑到以下投入： “杀死一只嘲弄的鸟” “嘲笑钢琴手” 将存储以下值： Word Count ------------- To 1 Kill 1 A 2 Mocking 2 Bird 1 Piano 1 Player 1 之后，可以快速查询给定任意单词的计数值。我目前的计划是简单地将单词和计数存储在数据库中，并依赖于缓存单词计数值。但我怀疑，我不会获得

浏览 8提问于2010-05-17得票数 8

回答已采纳

2回答

使用c++/boost::regex提取HTML文件的特定部分

、、、

我有一系列成千上万的HTML文件，并且为了运行词频计数器的最终目的，我只对每个文件中的特定部分感兴趣。例如，假设以下内容是其中一个文件的一部分：  <div class="preview_content clearfix module_panel"> <div class="textelement "><div><div><p><em>"Portion of interest"&l

浏览 4提问于2012-10-16得票数 1

回答已采纳

2回答

本地存储网站的词频计数器

、

我有一个半大型网站存储在本地(从服务器上使用httrack)。此特定网站的目录结构有几个文件夹/子文件夹以及大量的html文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c代码等)可以让我在所有html文件中生成单个词频计数器表。这里的诀窍是，我只对计算实际的内容词感兴趣(即，不是html代码，尽管如果是这样的话，这些代码稍后可以很容易地删除)。任何建议都是非常感谢的！

浏览 3提问于2012-10-05得票数 0

回答已采纳

2回答

根据列表找出表中的词频

、

现在我有了dtm，所以我将dtm转换为频率表 freqs <- as.data.frame(inspect(dtm1)) 下面是freqs的外观，它包含一行显示这些单词在文档中的出现频率 I really hate school how can are you hi 4 5 3 2 3 1 4 5 1 我有一个清单 list <- c("hi", "how", "are", "you") 如何根据列表找出词频列表中的词频，

浏览 2提问于2016-01-17得票数 0

5回答

遇到循环中找不到的文件，如何继续处理？

、

System.out.println("Please enter the required word :"); Scanner scan = new Scanner(System.in); String word = scan.nextLine(); String [] array = word.split(" "); int filename = 500; String[] fileName = new String [filename]; int a = 0; try { for(a=0; a&

浏览 1提问于2011-03-08得票数 0

回答已采纳

2回答

根据相关性对一个文档的多个查询进行排序

给出一个查询列表和一个文档，我想根据查询与给定文档的相关性对查询进行排序。对于每个查询，我计算了查询中每个单词的词频。(术语频率定义为单词在文档中发生的次数除以文档中的总单词数) 现在，我总结了查询中每个术语的频率。例如： search query: "Hello World" document: "It is a beautiful world" tf for 'Hello': 0 tf for 'World': 1/5 = 0.2 total tf for query 'Hello World' = 0

浏览 3提问于2017-03-06得票数 0

回答已采纳

1回答

如何用其他字典中的值累计地更新字典？

、

我有一个主字典来保存整个语料库的词频，并且为每个文本文件保留单词频率。我循环遍历每个文件，生成每个文件的WF，然后依次更新主字典。我的代码如下。有捷径吗？谢谢! master_dict = {} for txtfile in txtfiles: file_dict = {} file_dict = get_word_freq(txtfile) #A function is defined for k, v in file_dict.items(): if k in master_dict: master_dict[k] +=

浏览 0提问于2019-02-08得票数 1

回答已采纳

2回答

最好的全文搜索开源项目(.NET优先)是什么？

、、

我已经用Lucene库开发了一个索引和搜索应用程序。但这个库在我的上下文中在自定义排名方面有一些限制，除了它的性能之外，我还需要可伸缩性和访问各种词频等。有没有强大的开源全文本库可用？

浏览 0提问于2010-11-08得票数 12

回答已采纳

1回答

是否可以直接修改术语频率/术语向量？

、、

我想使用Lucene.NET来存储和查询术语向量。但是，我不希望从文档中创建术语向量。相反，我希望能够直接编写和更新术语向量，而不需要术语/标记的位置或偏移。解决方法是从术语向量生成文本，即从术语向量生成文本。 foo: 3; bar: 1 生成文本 foo, foo, foo, bar 让Lucene索引这段文字。如果我想将bar的词频更新为2，我可以获取存储的文本(或者从旧的术语向量生成它，如果我不存储它)，将它更改为 foo, foo, foo, bar, bar 并更新索引中的相应文档。对于这样简单的任务来说，这是相当昂贵的。显然，这不是用例，Lucene是为之构建的。不过，我还是

浏览 0提问于2014-02-23得票数 4

回答已采纳

2回答

获取字符串中的3个单词计数

我正在尝试获取一个字符串中3个单词的词频。例如： $string =“这是一个示例文本。它是用作示例的示例文本。”；我想要输出： “是样本”(2) “样本文本”(2) ……诸若此类提前谢谢。

浏览 0提问于2014-02-07得票数 1

1回答

使用egrep的不带停用词的词频

、、、、

浏览 1提问于2017-10-18得票数 0

2回答

按日期统计的词频

、

我想存储来自词频的信息，如下所示 Date My_List 02/21/2020 [kitchen, chair] # just an example; I would like to keep only nouns 02/23/2020 [baby, cousin, secret ] # just an example 04/12/2019 [table, book, photocamera, apartment] #just an example …… 在My_list上，有使用频率最高的单词列表。我的原始数据集

浏览 21提问于2020-08-21得票数 0

回答已采纳

1回答

词的词频和文档频率

、

我已经写了一些代码来查找存储在位置路径中的文件中包含的单词的词频和文档频率。每个文件都是通过函数cleanDoc()从文本文件中获取单词，我想以表格的方式将词频归档，这样所有文档中的所有单词都应该被认为是查找计数。有谁能告诉我应该如何实现它吗？我只使用NLTK。 import collections import os.path import glob import nltk wdict = set() path = "C://Python27//Corpus Files//*.*" #this function cleans up a doc (removes stop

浏览 1提问于2014-02-10得票数 0

1回答

R (tidytext + ggplot2)中三个组的小面图字比例

、、、、

在“文本挖掘与R Silge & Robinson的文本挖掘”的第一章中，R Silge&Robinson提出了以下代码来生成中显示的情节，并将奥斯汀的书中的单词频率(比例)与威尔斯和勃朗特·西斯特的词频进行了比较。 library(gutenbergr) library(janeaustenr) library(dplyr) library(stringr) library(tidytext) library(tidyr) library(scales) original_books <- austen_books() %>% group_by(book)

浏览 6提问于2022-09-08得票数 0

回答已采纳

1回答

统计data.frame中的词频为是和否

、

我有一个单词“是”和“否”的data.frame，如下所示： Answer 1 YES 2 NO 3 YES 4 NO 5 YES 6 YES 如何统计这个data.frame中的词频？预期输出如下所示： YES NO 4 2

浏览 8提问于2021-01-09得票数 0

1回答

我可以使用R检查文档聚类中预定单词或短语的频率吗？

、、

我正在使用R中的"tm“包进行文本挖掘，在生成术语文档矩阵后，我可以获得词频： freq <- colSums(as.matrix(dtm)) ord <- order(freq) freq[head(ord)] # abit acal access accord across acsess # 1 1 1 1 1 1 freq[tail(ord)] # direct save month will thank list # 106 107

浏览 2提问于2015-06-23得票数 0

1回答

弹性搜索忽略match_phrase查询中的tf

我正在尝试解决以下问题。我生成match_phrase查询，并且希望忽略分数中的词频。我尝试使用常量查询，但是： "constant_score查询不支持match_phrase“ 然后我试着写一个自定义的相似度函数，但是seam不再支持侧边插件。还有别的主意吗？谢谢

浏览 6提问于2017-02-13得票数 1

1回答

如何在python 3中解析括号以求和词频

、、

对于给定的行，我有一个单词及其频率的输入，但是，我希望有一个单词频率的总计数。我知道从整个文件中计算词频有很多解决方案，但我的输入中每行都有括号，每个单词都有括号。我无法提取单词并进行计数，因为每行有不同数量的单词。任何帮助都将不胜感激！一个输入示例： [('Company', 1)] [('Tax', 1), ('Service', 1)] [('"Birchwood', 1), ('LLC"', 1), ('Enterprise,', 1)]

浏览 1提问于2013-11-05得票数 0

2回答

比较文档-文档相似度

、、、、

我目前正在进行NLP/IR中的一个java项目，并且对此相当陌生。该项目由大约1000个文档组成，其中每个文档大约有100个单词，结构为具有词频的词袋。我想根据文档(从集合中)找到类似的文档。使用TF-IDF，为查询(给定文档)和集合中的所有其他文档计算tf-idf，然后将这些值作为具有余弦相似度的向量进行比较。这能让我们对它们的相似性有一些了解吗？或者，由于大查询(文档)，这是否不合理？有没有其他相似性度量可以更好地发挥作用？谢谢你的帮助

浏览 2提问于2015-04-24得票数 0

1回答

在solr中减少词频的权重？

、

如何更改Solr的评分函数以降低“词频”的权重？我使用了一个类似pagerank的文档boost作为相关性因子。我的搜索索引目前将许多“垃圾邮件”或没有得到很好清理的文档放在顶部。我知道分数是根据词频(搜索词在文档中出现的频率)、反向文档频率和其他()来计算的。我可以只增加提振，但这也会削弱其他因素。是在查询时指定函数(以及默认函数是什么)，还是必须更改配置和重新编制索引？我正在使用django-haystack和solr，如果它有区别的话。

浏览 0提问于2017-09-29得票数 0

3回答

在自然语言处理中有没有减少词汇表大小的好方法？

、、、

在处理文本分类、问答等任务时，从语料库生成的原始词汇量通常太大，包含许多“不重要”的单词。我见过的最流行的减少词汇量的方法是丢弃停用词和低频词。例如，在gensim中 gensim.utils.prune_vocab(vocab, min_reduce, trim_rule=None): Remove all entries from the vocab dictionary with count smaller than min_reduce. Modifies vocab in place, returns the sum of all counts that were

浏览 0提问于2020-02-11得票数 1

1回答

绘制条件频率分布时以百分比格式显示y轴

、、

当绘制文本语料库中某些单词的条件频率分布时，y轴显示为计数，而不是百分比我遵循Steven Bird，Ewan Klein和Edward Loper在"Natural Language Processing with Python“中概述的代码，以显示不同语言的UDHR在Jupyter Notebook中的单词频率分布。 from nltk.corpus import udhr languages = ['Chickasaw', 'English', 'German_Deutsch', 'Greenlandic_Inuktik

浏览 23提问于2019-04-01得票数 2

回答已采纳

2回答

字数统计的效率

、、、、

我的任务是开发一个简单的文本分析器，它接收行作为输入，并统计词频，然后打印按出现次数排序的词，并在相同的频率下按字母顺序打印。我想让它尽可能地节省时间和空间，并试图找出哪种数据结构将是最好的，与哪种排序算法相结合。现在，我在脑海中已经有了一个快速排序的版本，但这意味着我的单词在被计数后必须已经放在一个数组中。静态数组在处理输入时会立即使搜索操作的时间复杂度为O(n) -所以我在考虑利用另一种结构(如平衡二叉树)进行处理，然后将其转换为数组。我的想法正确吗，或者将树转换为数组会损害我的效率吗？有什么建议吗？谢谢

浏览 2提问于2015-04-21得票数 0

1回答

Python:单词列表的NLTK概率

、

我一直在统计语料库中的单词列表，并看到单词列表的概率。我一直在计算每个单词的频率，然后用EXCEL进行求和，但这需要很长时间。我的单子上有几千个单词。我只想总结出词频列表的总次数，然后看看词频的概率。 genres = ['C:/A1.txt','C:/A2.txt','C:/A3.txt'] modals = ['can', 'could', 'may', 'might', 'must', 'will'] cfd = nltk.Condi

浏览 1提问于2012-10-01得票数 0

回答已采纳

3回答

Python词频统计程序

、

我用python创建了一个简单的单词统计程序，它读取一个文本文件，统计词频，并将结果写入另一个文件。问题是，当单词重复时，程序会写入同一单词的初始计数和最终计数。例如，如果单词" hello“重复3次，程序将在输出中写入3个hello实例，如下所示：词频统计你好-1 你好-2 你好-3 代码是： counts ={} for w in words: counts[w] = counts.get(w,0) + 1 outfile.write(w+','+str(counts[w])+'\n')' 任何帮助都将不胜感激。我是python的新手

浏览 0提问于2014-02-19得票数 1

1回答

从pandas函数创建数据帧

、

我正在尝试一些文本分析，并编写代码来显示给定数据集中每个月出现的单词。我有下面的函数，每个月输出给定单词的频率-但是我正在努力将其转换为数据帧(列；月，词频)。感谢您的帮助！ import collections df=df.set_index(df['Date']) for u,v in df.groupby(pd.Grouper(freq="M")): words=sum(v['Processed'].str.split(' ').values.tolist(),[]) c = collections.C

浏览 23提问于2020-11-09得票数 0

回答已采纳