有没有可能在C中使用两个缓冲区精确地计算一个单词在文件中的出现频率？

、、

我有一个1 1GB大小的文件。我想知道"sosowhat“这个词在文件中出现了多少次。我已经使用fgetc()编写了一段代码，它从文件中一次读取一个字符，对于1 1GB大小的文件来说，这太慢了。因此，我创建了一个大小为1000的缓冲区(使用mmalloc)来一次保存文件中的<

浏览 26提问于2020-07-14得票数 2

1回答

Ngram模型: Good-Turing平滑

、

我目前正在参加竞赛，争取在大学获得一份工作。我们正在使用一个简单的3-gram模型。问题是，为了节省内存，我们别无选择，只能忽略出现1、2、3次的单字，以及在我们的训练集中出现过一次的双字。这里的问题是，我们如何计算/估计每个ngram的概率，以便当我们找到一个看不见的单词或短语时，概率不是0？为了好

浏览 1提问于2014-12-09得票数 1

9回答

处理大量数字的最有效的排序算法

、、、、

我正在做一个大型项目，我不会在这里进行总结，但该项目的这一部分是要获取一个非常大的文本文档(最少大约50,000个单词(不是唯一的))，并按使用最多到最少使用的顺序输出每个唯一的单词(可能前三个将是"a当然，我的问题是，最好的排序算法是什么？我正在读计数排序，我喜欢它，但我担心的是，与唯一单词的数量相比，值的<

浏览 0提问于2009-06-05得票数 9

回答已采纳

1回答

是否有方法确定在excel中用逗号分隔的列中单词的频率？

我可以使用"countifs“来计算某个特定单词出现在excel工作表列中的次数。但是，是否有一种方法可以自动显示数据列中最常见的单词和出现频率？就像。在示例图像中，列A有不同单词aa、am、aq...separated的逗号行。我想计算一下C栏显示的最常见的<e

浏览 5提问于2022-03-09得票数 1

回答已采纳

3回答

vb.net检查字符串中是否存在单词并执行相应操作

、

我读取了一个文本文件，删除了所有标点符号，然后读取了String()中的所有单词。我想要计算单词，所以我需要一些具有两个字段的String()，单词和频率。在我添加一个单词之前，我会用Function CountMyWords计算它在文本中出现的次数。如果单词已经在<

浏览 51提问于2021-03-30得票数 0

回答已采纳

1回答

计算文档中单词模式的频率

、

我正在尝试计算文档中单词模式的频率。例如，单词模式“自然语言处理”在文档中出现了多少次。我尝试使用TF-IDF和Bag of words。然而，它给了我每个单词单独的频率。有没有办法使用NLP，文本挖掘来解决这个问题？提前感谢

浏览 0提问于2021-04-21得票数 0

1回答

支持1词频的Tag Cloud算法

、、、

我希望在Objective-C中创建一个标签云，并且我正在尝试找到一个好的算法。我试过几个，一开始似乎工作得很好，但它们都有一个缺点:如果出现频率最低的单词和出现频率最高的单词出现的频率一样高，整个过程就有缺陷。示例(Google中的第<e

浏览 4提问于2011-10-25得票数 2

回答已采纳

3回答

用于计算包含字母组合(中间有重复和字母)的单词数的Unix命令

、

如何计算包含所有字母a、b和c的文本文件中的单词数。这些字母可能在单词中出现多次，该单词也可能包含其他字母。(例如，应将"cabby“计算在内。)使用应返回2的示例输入：我都试过了： grep 'abcdef

浏览 0提问于2014-04-09得票数 2

2回答

MySQL查询中的单词频率评分

、、、

我正在处理一个由2列组成的单表数据库:一个整数wordID和varchar。该表有几千行长，是通过编程读取大量文本并在一个空间上拆分，然后将单个单词插入数据库中创建的。我想要做的是计算每个单词的计数(我自己做的)，以及每个单词的“分数”--也就是说，一个单词mush在数据集中显示一个分数<em

浏览 4提问于2013-11-13得票数 1

回答已采纳

2回答

如何根据两个txt文件中的相对词频对词典进行排序

我正在尝试编写一些代码来读取两个单独的文本文件，过滤掉常见的单词，计算每个文件中单词的频率，最后按照两个列表之间的相对频率顺序输出。因此，理想的输出是文件1中出现频率相对较高的单词应该出现在列表的

浏览 16提问于2020-05-30得票数 1

1回答

Python词频排序

、、、

我被要求编写一个计算文本文件中单词的程序。我能够数出单词和它们的频率，并将它们存储在字典中。现在，我必须将这些数据写入另一个文本文件中，但频率会降低。如果两个单词的频率相同，则该单词必须按字母顺序写入输出文本文件。我将<

浏览 2提问于2016-02-19得票数 0

回答已采纳

3回答

用人工智能方法求解Hangman

我把它命名为"AI方式“，因为我想让应用程序在没有人与人交互的情况下玩挂人游戏。应用程序对每个单词进行Hangman游戏，直到获胜或失败为止。这里的限制是最大错误的猜测。26显然是没有意义的，让我们假设6是最大错误的</e

浏览 6提问于2012-02-09得票数 8

回答已采纳

1回答

句子重要性得分和词频分布

、

我正在使用stanford-nlp来分析新闻文章。我需要计算单词频率分布来确定单词在文章中的重要性，这样我就可以根据单词重要性/频率计算句子重要性分数。我已经在文章中使用HashMap计算了词频，但我想知道斯坦福-nlp中是否有执行单词重要性和句子重要性计算的东西

浏览 13提问于2017-08-13得票数 0

1回答

QTP或UFT VBScript

、、、

有没有人能帮助我们解决我们所关心的问题我们有一个网站，如果用户点击一个链接，它会下载一个pdf文件到我们计算机中的下载文件夹部分。现在我们需要一个函数或一些代码，我们可以在QTP或UFT中实现，它应该能够从下载文件夹中读取pdf文件

浏览 1提问于2016-08-08得票数 1

2回答

从大型文件中查找单词频率

、、、、

我有一个这样的文本文件：andwentamericaengland 3 and 1 jerry 1 tom我拥有的文本文件大约是30 in的，因此不可能在内存中加载所有内容所以我现在做<

浏览 6提问于2019-09-22得票数 1

2回答

计算表示马尔可夫链规则的字典中值的总频率和相对频率

、、、、

我制作了一个函数make_rule(text, scope=1)，它简单地遍历一个字符串并生成一个字典，作为马尔可夫文本生成器的规则(其作用域是链接字符的数量，而不是单词)。>>> rule = make_rule("abbcad", 1){'a': ['b', 'd'], 'b': ['b', '<em

浏览 29提问于2019-04-16得票数 0

回答已采纳

5回答

如何在java中统计单词

、

我正在寻找一个算法，提示或任何源代码，可以解决我的以下问题。例如，我有两个文档: Doc A => "brown fox jump“Doc B => "dog not jump

浏览 0提问于2009-12-31得票数 5

回答已采纳

2回答

用Java阅读法语字符

、、、

我必须做一个类似于网络索引的作业。基本上，我有几个文件(ASCII格式)，我必须计算单词的频率。现在，关于使用<e

浏览 4提问于2014-11-22得票数 2

回答已采纳

1回答

计算列中字典单词的频率并生成新的"dictfreq“列

、、

似乎是一个简单的命令，但我似乎找不到在R中生成这个词的好方法--基本上，我只想在另一个dataframe列的word dict中计算字典中每个单词的频率：

浏览 1提问于2020-11-24得票数 0

回答已采纳

3回答

余弦相似度文档距离

、

我得到了两个文档，并要求我计算文档中每个单词出现的频率。例如，在doc1和doc2中，单词“猫”分别出现了两次，然后它总共出现了4次，我需要计算它出现的频率。通过过去三个晚上的谷歌搜索，我发现了一个很棒的算法，叫做余弦相似度。我现在明白了它是如何工作

浏览 4提问于2015-03-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Ngram模型: Good-Turing平滑

处理大量数字的最有效的排序算法

是否有方法确定在excel中用逗号分隔的列中单词的频率？

vb.net检查字符串中是否存在单词并执行相应操作

计算文档中单词模式的频率

支持1词频的Tag Cloud算法

用于计算包含字母组合(中间有重复和字母)的单词数的Unix命令

MySQL查询中的单词频率评分

如何根据两个txt文件中的相对词频对词典进行排序

Python词频排序

用人工智能方法求解Hangman

句子重要性得分和词频分布

QTP或UFT VBScript

从大型文件中查找单词频率

计算表示马尔可夫链规则的字典中值的总频率和相对频率

如何在java中统计单词

用Java阅读法语字符

计算列中字典单词的频率并生成新的"dictfreq“列

余弦相似度文档距离

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐