最高频率单词算法_文本文件中出现频率最高的单词_js出现频率最高 - 腾讯云开发者社区

所以我有一个BST，它的元素是TreeNode类型。每个TreeNode对象包括一个WordFreq对象，它由一个名为word的字符串变量和一个名为freq的整数变量组成。元素是我的程序从文件中读取的单词，所以变量" word“是字符串，变量freq表示单词在文本中出现的频率。因此，我想做的是，通过整个BST，并找到TreeNode的最大频率(最大的频率)。我试过很多种方法，但似乎行不通。单词按字母顺序排列在树上，而不是按频率排序。以下是我的方法： public WordFreq getMaximumFrequency() { return getMaximumFrequenc

浏览 0提问于2015-01-16得票数 0

回答已采纳

1回答

如何在O(N)时间内从包含N个单词的文本文件中获得K个最常用的单词？

、、、

我需要从包含N个单词的文本文件中打印出K个最常用的单词，时间复杂度为O(N)。我试过使用HashMap，方法是将单词作为键，将出现的次数作为值，然后根据值对其进行排序。但是，按值对HashMap进行排序需要O(NlogN)，这比我的要求要多。如果K= 10，那么我需要从文本文件中打印10个最常用的单词。

浏览 2提问于2021-04-12得票数 2

9回答

处理大量数字的最有效的排序算法

、、、、

我正在做一个大型项目，我不会在这里进行总结，但该项目的这一部分是要获取一个非常大的文本文档(最少大约50,000个单词(不是唯一的))，并按使用最多到最少使用的顺序输出每个唯一的单词(可能前三个将是"a“、"an”和" the ")。当然，我的问题是，最好的排序算法是什么？我正在读计数排序，我喜欢它，但我担心的是，与唯一单词的数量相比，值的范围太大了。有什么建议吗？

浏览 0提问于2009-06-05得票数 9

回答已采纳

1回答

在平衡树中查找最大频率[作业]

、、

作业任务：为了能够知道文件中有多少个唯一的单词，以及单词出现的次数，您将开发一个特殊的树数据结构。将类命名为TreeSetCounter。这种树中的节点由一个单词和一个计数器组成。实施的过程： addWord-如果单词不存在，则将该单词添加到树中。如果该单词已经是计数器增量 Make empty () -使树均匀出现次数最多的getMaxFrek () -return字。怎样才能最有效地做到这一点呢？ iterator () -返回树的迭代器。用于按字母顺序打印树。使用平衡树实现作为起点。编写一个读取文件并打印单词和每个单词出现次数的程序。谁能给我一些想法，我应该如何实现这一点，以及哪

浏览 0提问于2016-04-28得票数 0

3回答

在5 5GB文件中查找k个最常用单词的部分堆排序

、、、、

我知道我想要使用什么算法，但想知道我必须更改什么，因为文件太大了。我想使用hash来存储单词的频率，使用min-heap来存储最频繁的单词，并在遍历单词时相应地调整min-heap。我想这应该需要O(nlogk)。如果我有太多的数据要存储在内存中，我的算法需要如何改变。这是一个我很难理解的问题，不仅仅是这个特定的问题，我只是给出上下文，以便它可能有助于解释。

浏览 1提问于2013-02-27得票数 3

回答已采纳

1回答

vb.net字云索引

、、、

我使用基于单词列表和它们的频率的wordcloud。我从文本文件中加载列表，并将它们显示在Listview和image中。当文本文件没有被索引时(首先是最高的频率)，单词云不会使具有最高计数的单词最大。是否有一种方法可以先加载最高频率的单词，而不必更改列表？ Imports WordCloudGen = WordCloud.WordCloud Imports System.IO Public Class WordCloud Private Sub WordCloud_Load(sender As Object, e As EventArgs) Handles MyBase.Load

浏览 4提问于2021-03-29得票数 1

回答已采纳

1回答

Python函数将列表RDD转换为具有唯一单词及其计数的成对RDD？

、、

我该如何写一个函数来转换一个RDD，它是一个单词列表，比如'Alpha'，'Beta'，'Gamma'，'Beta'，'Alpha‘，成对的RDD包含唯一的单词和它们出现的次数，在本例中是('Alpha'，1)，('Beta',2)，('Gamma',2)？

浏览 0提问于2015-06-15得票数 0

1回答

如何解析具有任意数量邻居的CFG？

、、、

我正在做一个项目，试图使用上下文无关的语法来解析图像。我们正在尝试构建图像片段的树，然后使用机器学习来解析使用这些可视语法的图像。我发现看起来很理想，问题是它是为字符串解析而设计的，字符串中的每个终端最多有两个邻居(前后的单词)。在我们的视觉语法中，每个片段可以紧挨着任意数量的其他片段。解析这些可视化语法的最佳方法是什么？具体来说，我可以使用SVM-CFG对我的数据进行编码吗？或者我必须编写自己的内核/解析库？

浏览 0提问于2012-05-07得票数 2

回答已采纳

2回答

在txt文件中计数单词的函数

、、

我对这里的java很陌生，所以请耐心点。我目前正在尝试创建执行以下操作的代码：将代码添加到processFile函数中，计算每个单词在文件中出现的次数。将代码添加到processFile函数中，循环遍历HashMap以查找最常见的单词。循环结束后，为奖金需求#1添加的变量应该包含最常用单词的值。到目前为止，我已经想出了这个问题，想知道是否有人能帮助我取得更大的进步。 Map<String, Integer> freq = new Hashmap<String, Integer>(); FileInputStream

浏览 6提问于2016-04-07得票数 0

3回答

用人工智能方法求解Hangman

我把它命名为"AI方式“，因为我想让应用程序在没有人与人交互的情况下玩挂人游戏。情况如下：一个可用的单词列表，其中将包含数十万个英文单词。应用程序将从列表中选择一定数量的单词，例如20个单词。应用程序对每个单词进行Hangman游戏，直到获胜或失败为止。这里的限制是最大错误的猜测。26显然是没有意义的，让我们假设6是最大错误的猜测。我尝试了在上提到的策略，但效果并不好。基本成功率约为30%。对于战略和我应该挖掘的领域有什么建议/评论，以找到一个公平的好策略？非常感谢。 -Simon PS:一个看起来相当不错的JavaScript实现。()

浏览 6提问于2012-02-09得票数 8

回答已采纳

1回答

一个不错的分词方法

我有一组短字符串(平均长度< 12)。字符串主要是英文单词的序列(名称、字典单词等)。但是，单词之间没有分隔符。我想将每个字符串拆分成单独的单词。我用谷歌搜索了一下，但什么也没找到。有什么标准方法可以做到这一点吗？另外，我在哪里可以得到字典，其中也包括人名，以及其他英语单词。请注意:字符串可能不符合英语的语法规则。字符串的示例如下所示：请勿打扰伊洛维简 iamagoodperson

浏览 1提问于2015-02-03得票数 1

1回答

带前导数的字符串排序向量

、、、

我正在做一个家庭作业问题，它要求我从输入文件和整数k中读单词。解决方案需要打印一个单词及其频率的列表，从最频繁的到最频繁的k。如果唯一字数小于k，则只输出该字数。这将是像map这样的容器的蛋糕，但问题限制了我只能使用向量和字符串，而不能使用其他STL容器。我被困在这样的地方，我有一个列表，所有的单词在一个文件和他们相应的频率。现在我需要根据它们的频率对它们进行排序，并输出k个单词。问题是，分类很困难。频率可以是不同的数字。如果我使用string::sort()按填充零对它们进行排序，我将无法知道要填充多少个零，因为输入对程序员来说是未知的。下面是函数的代码： void word_fre

浏览 3提问于2017-05-10得票数 2

回答已采纳

2回答

在许多文件中，最常用的单词是什么？

、

在许多文件中找到最频繁的单词(分布在多台机器上)的最有效算法是什么？每台机器都可以给出最频繁的单词-or的计数--存在于其文件中。是否有一种算法或技术来找到答案--确定性的--而不要求每台机器提供所有的单词？如果不是的话，最好的方法是尽可能少的查询机器来给出一个接近的答案。

浏览 3提问于2013-12-11得票数 3

回答已采纳

12回答

确定英语单词的难易程度

、

我正在做一个基于文字的游戏。我的单词数据库包含大约10,000个英文单词(按字母顺序排列)。我计划在游戏中有5个难度等级。相对来说，第1级显示最简单的单词，第5级显示最难的单词。我需要将10,000个长单词列表划分为5个级别，从最简单的单词到困难的单词。我正在寻找一个程序来为我做这件事。，有人能告诉我，是否有一种算法或方法来定量地测量一个英语单词的难度？我有一些想法，围绕着“字长”和“词频”作为因素，并提出了一个公式或什么东西来完成这一点。

浏览 0提问于2011-02-28得票数 25

1回答

扩展布尔模型的解释？

我们正在实现扩展的布尔模型，但是我们不知道如何使用给定的公式：这里的公式：包含三个“变量”，但我们不知道它们是什么意思。假设我们已经处理了文档集合，所以我们映射了集合中的所有单词，并且对于每个术语，我们有每个文档中出现的次数以及整个集合中(具体术语的)出现次数。

浏览 1提问于2013-04-26得票数 0

1回答

FFT:当样本小于fs/2时如何求出单边谱

、、

我正在写一段代码，计算出在歌曲的任何时候播放的频率(音符)(音符，目前我正在测试它，只捕捉歌曲的第一秒)。为此，我将音频文件的第一秒分解为8个不同的块。然后对每个块执行FFT并用以下代码绘制它： % Taking a second of an audio file and breaking it into n many chunks and % figuring out what frequencies make up each of those chunks clear all; % Read Audio fs = 44100; % sample frequency (Hz

浏览 3提问于2017-12-30得票数 0

回答已采纳

2回答

在一组小文本中查找关键字

、、

我有一套将近2000条短信。我的目标是在这些文本中找到关键词，以理解它们的主题，或者简单地理解最常见的单词和表达方式。我希望一些算法的思想，，得分，单词和识别时，他们经常聚集在一起，。我在这里读过一些其他相关的问题，但是我正在试图获得更多关于这个主题的信息。所以任何想法都是非常受欢迎的。非常感谢! -- 我已经提取了断句。删除后，我有7000多个单词，我的问题是如何评分这些词，从哪一点，我可以考虑从我的关键字列表中删除一些。此外，如何得到关键的表达，找到的词，走到一起。

浏览 1提问于2014-06-24得票数 0

2回答

预测自动补全背后的算法/理论？

、、、、

简单单词自动完成功能仅显示与已经键入的字符匹配的单词列表。但我想根据单词出现的概率对自动完成列表中的单词进行排序，这取决于之前键入的单词，依赖于文本语料库的统计模型。为此，我需要哪些算法和数据结构？你能给我一些好的教程的链接吗？

浏览 0提问于2012-07-12得票数 13

回答已采纳

1回答

keras.tokenizer.text_to_sequence只是简单地转换为数字向量，还是更多？

、、

我现在正在尝试学习keras的细节。在处理包含句子的数据集时，我将执行以下操作 from keras.preprocessing.text import Tokenizer max_features = 2000 tokens = Tokenizer(num_words=max_features) tokens.fit_on_texts(list(X_train)) tokenized_train = tokens.texts_to_sequences(X_train) # Converting to ints tokenized_test = tokens.texts_to_sequenc

浏览 33提问于2020-05-13得票数 1

回答已采纳

2回答

CountVectorizer max_features如何处理相同频率的纳克？

、、、

我有一个关于CountVectorizer和TfidfVectorizer的问题。我不清楚在max_features中如何选择相同频率的ngram。如果我们说max_features = 10000和100 not在一个语料库中的频率是相同的，那么CountVectorizer是如何区分特征中的ngram和哪些不是呢？玩具例子，我们有一个有八个独特单词的语料库。单词“牛仔裤”和“猫”有相同的freq 1。我们采用max_features=7。为什么“猫”出现在特征中，而“牛仔裤”不是，反之亦然？ data = ['gpu processor cpu performance',

浏览 1提问于2018-03-26得票数 2

2回答

Linq group字符串数组按计数和排序

、

我有一个像这样的List<string> _words "Car", "Car", "Car", "Bird", "Sky", "Sky" 我想按每个单词计数的降序对其进行排序，这样最终的List<string>将是 "Car", "Sky", "Bird 我如何在LINQ中做到这一点？我真的不需要每个单词的计数在SQL中，这将是： select word, count(1) as count1 from word group by

浏览 0提问于2014-09-08得票数 7

回答已采纳

1回答

字云不能正确显示单词的频率。

、、、

我已经在单词云中绘制了我的文本数据。这是我的数据框架 vocab sumCI aid 3 tinnitu 3 sudden 3 squamou 3 saphen 3 problem 3 prednison 3 pain 2 dysuria 3 cancer 2 然后我把它转换成这样的字符串。(实际上，我复制了数据框架中每个单词发生的次数，然后将其输入函数)： aid aid aid tinnitu tinnitu tinnitu sudden sudden sudden squamou squamou squamou 然后，我使用了以下代码来可视化文本数据：

浏览 0提问于2019-02-07得票数 9

回答已采纳

3回答

凯撒密码W/频率分析下一步如何进行？

、、、、

我知道以前有人问过这个问题，我有点掌握了如何比较密码和英语之间的频率表(这是我在我的程序中使用的语言)，但我不知道如何将它转化为代码。 void frequencyUpdate(std::vector< std::vector< std::string> > &file, std::vector<int> &freqArg) { for (int itr_1 = 0; itr_1 < file.size(); ++itr_1) { for (int itr_2 = 0; itr_2 < file.at(i

浏览 5提问于2015-03-03得票数 0

回答已采纳

3回答

如何将词作为数字特征纳入分类

、、、

在任何机器学习算法中，使用单词本身作为特征的最佳方法是什么？问题是我必须从特定段落中提取与单词相关的特征。我应该使用字典中的索引作为数字特征吗？如果是这样的话，我将如何将这些标准化？通常，单词本身在NLP中是如何用作功能的？

浏览 0提问于2010-11-18得票数 6

回答已采纳

6回答

“停止单词”列表中的英语？

、、、、

我正在为一些英语文本生成一些统计数据，我想跳过"a“和"the”这样乏味的单词。我在哪里能找到这些无趣词汇的列表呢？这些单词的列表是否与英语中最常用的单词列表相同？更新:这些显然被称为“停止词”，而不是“跳过单词”。

浏览 11提问于2009-08-02得票数 21

回答已采纳

2回答

短语之间的相似度得分

、、、

Levenshtein距离是一种测量单词之间差异的方法，但不适用于短语。有没有一个很好的距离度量来衡量短语之间的差异？例如，如果短语1由n个单词组成( x1 x2 x_n )，而短语2由m个单词组成(M words y1 y2 y_m )，我认为它们应该按单词模糊对齐，那么对齐的单词应该有一个关于它们相似程度的分数，并且应该对未对齐的单词应用某种间隙惩罚。这些积极的分数和消极的分数应该以某种方式进行汇总。这似乎涉及到一些启发式方法。有没有一种现有的解决方案来衡量短语之间的相似性？Python是首选，但其他解决方案也不错。谢谢。

浏览 73提问于2019-04-12得票数 0

1回答

Android自定义键盘建议

、、、、

我正在为android构建一个自定义键盘，它至少支持自动完成建议。为了实现这一点，我将用户输入的每个单词(而不是密码字段)存储在一个包含简单模型、单词及其频率的Room数据库表中。现在，为了显示建议，我使用了一个Trie，它是由这个数据库表中的单词填充的。我的查询基本上是根据单词的频率按表排序，并将结果限制在5K (我不想过度填充Trie，这5K单词可以被认为是用户最喜欢的单词，他经常使用，需要建议)。现在我的实际问题是ORDER子句，这是一个快速增长的数据集，让我们以0.10万单词排序来获得5K单词似乎有点过头了。我怎样才能重做这个方法来提高整个建议逻辑的效率。

浏览 5提问于2022-05-12得票数 2

回答已采纳

1回答

二叉树:如何找到具有给定累积频率的索引

、、

我试图在二进制索引树(BIT)中查找具有给定累积频率的索引。我能够在O(log(n)*log(n))中解决这个问题，方法是借助二进制搜索和一个计算任意索引的累积频率的函数来实现它。但是我想用O(log(n))来解决这个问题。所以请帮帮忙。

浏览 0提问于2013-05-28得票数 3

回答已采纳

2回答

字符串中的关键词

、、

有没有人知道一个可用的PHP函数，它接受一段文本，比如几百个单词，然后生成一个关键字数组？即。最重要的、经常出现的独特术语是什么？谢谢，菲利普

浏览 0提问于2009-08-27得票数 2

回答已采纳

1回答

有没有一种方法可以给出下面的矩阵作为kmeans聚类程序的输入？

、、

假设我有下面的"Pageview matrix“ 列标题:图书放置资源br aca 每行表示一个会话这是我的矩阵，示例： 4 5 0 2 2 1 2 1 7 3 1 3 6 1 6 保存在.txt文件中我可以将此作为k-means程序的输入，并基于最高出现频率获得聚类吗？我该如何使用它？

浏览 1提问于2011-05-01得票数 0

回答已采纳

12回答

如何在内存不足的环境中找到书中的高频词？

、

最近，在一次技术面试中，我被要求编写一个程序来查找教科书中出现频率最高的单词(出现次数最多的单词)。程序的设计方式应该是，以最小的内存处理整个课本。性能不是问题。我可以编程来找到单词的频率，但它消耗了大量的内存。如何减少此操作对内存的占用？有什么策略/解决方案吗？ -Snehal

浏览 13提问于2009-04-12得票数 5

回答已采纳

3回答

Mapreduce字数统计Hadoop最高频字

、、、

因此，从Hadoop教程网站()了解如何使用map reduce方法实现单词计数，我了解了它是如何工作的，并且输出将是具有该频率的所有单词。我想要做的只是让输出成为我所拥有的输入文件中出现频率最高的单词。 Example: Jim Jim Jim Jim Tom Dane 我希望输出结果是 Jim 4 字数统计的当前输出是每个单词及其频率。有没有人编辑过字数统计，让它只打印最高频率的单词及其频率？有谁对如何做到这一点有什么建议吗？我如何编写另一个从WordCount的输出中找到最高频率单词的MapReducer？还是有别的办法？任何帮助都将不胜感激。谢谢! WordCount.ja

浏览 0提问于2015-03-06得票数 2

3回答

排序Trie数据结构

、、、

我需要跟踪文本中单词的出现情况，这种情况需要按降序排列。我最初使用的是哈希映射数据结构，但是当我进一步研究的时候，我发现了"Trie“数据结构。我认为"Trie“数据结构在灵活性和复杂性方面都是跟踪事件发生的完美方法。不过还有一个要求，我需要按降序排序。所以基本上是在深度优先搜索中遍历"Trie“。就实现而言，这有点棘手，所以我想知道我是否在正确的轨道上。任何意见都会很好。在这种情况下，最好的数据结构是什么？注意:排序顺序是下降的，所以如果"A“出现5次，"B”出现2次，排序顺序应该是"A"，"B“。同样，两个出现相同情况的

浏览 0提问于2013-11-04得票数 3

回答已采纳

6回答

用于单词搜索游戏的随机字母选择算法，允许拼写多个单词。

、、、

我在做一个-like单词游戏。用户将得到如下所示的一个字母网格： O V Z W X S T A C K Y R F L Q 用户使用任何相邻的字母链来识别一个单词，比如中线上的“堆栈”这个词。然后用机器代替所用的字母，例如(小写的新字母)： O V Z W X z e x o p Y R F L Q 请注意，您现在可以使用新字母拼写"OVeRFLoW“。我的问题是:我可以使用什么算法来选择新的字母，最大限度地增加用户可以拼写的长单词数？我希望游戏是有趣的，并涉及拼写，例如，有时6个字母，但如果你选择坏的字母，游戏涉及用户只是拼写3个字母的词，而没有机会找到更大的单词。例如：你

浏览 3提问于2010-02-15得票数 14

1回答

如何为keras托卡器选择num_words参数？

、、、、

tokenizer = Tokenizer(num_words=my_max) 我正在使用keras预处理标记器来处理机器学习模型的文本语料库。托卡器的参数之一是定义字典中单词数的num_words参数。如何选择这个参数？我可以选择一个巨大的数字，并保证每个单词都会被包括在内，但是某些只出现一次的单词如果作为一个简单的“词汇表外”标记组合在一起，可能会更有用。设置这个参数的策略是什么？我的特殊用例是一个处理tweet的模型，所以每个条目都小于140个字符，并且在使用的单词类型上有一些重叠。这种模式是针对kaggle竞争的，目的是提取能体现一种情绪的文本(即“我的老板在欺负我”，还“欺负我”)

浏览 3提问于2020-05-12得票数 2

回答已采纳

2回答

为什么在嵌入之前用频率计数来表示单词？

、、、、

在通过嵌入得到单词的向量表示之前，将单词映射到数字。这些数字被选择为数据集中该单词的频率。为什么会有这样的惯例？它有什么效果吗?还是武断的？

浏览 0提问于2021-08-22得票数 2

回答已采纳

1回答

错误：` `filter()`输入`..1`出现问题

、、、、

我正在编写一个函数，以合并到闪亮的应用程序中，从一组预定义的文件中预测下一个单词。当我创建使用ngram预测下一个单词的函数时，我遇到了这个错误 x object of type 'closure' is not subsettable i Input ..1 is top_n_rank(1, n). Run rlang::last_error() to see where the error occurred. In addition: Warning message: In is.na(x) : is.na() applied to non-(list or vec

浏览 79提问于2020-10-09得票数 3

回答已采纳

4回答

PostgreSQL是否使用tf-idf？

、

我想知道在带有GIN/GiST索引的PostgreSQL 9.3中的全文搜索是否使用tf-idf (词频-逆文档频率)。特别是，在我的词组专栏中，我有一些更受欢迎的词，而有些词则非常独特(即名称)。我想对这些列建立索引，以便匹配的唯一单词的权重将高于普通单词。

浏览 10提问于2013-08-18得票数 7

4回答

词频特征归一化

、、、、

我正在提取文档的特征。其中一个特性是the frequency of the word in the document。问题是，在训练集和测试集中的句子数量不一定相同。所以，我需要在某种程度上规范它。我想到的一种可能性是，将单词的频率除以文件中的句子数。我的上司告诉我，最好用对数的方式来规范它。我不知道那是什么意思。有谁可以帮我？提前谢谢你， PS:我也看到了的话题，但对我没有帮助。

浏览 3提问于2016-01-15得票数 2

回答已采纳

3回答

大量的英语非代词文本

、

作为自学python的一部分，我写了一个允许用户玩绞刑者的脚本。目前，要猜测的绞刑犯单词只需在脚本代码的开头手动输入即可。相反，我想让脚本从一个很大的英文单词列表中随机选择。这是我知道怎么做的--我的问题是首先找到要工作的单词列表。有没有人知道网上有1000个常见英语单词的来源，在那里它们可以作为一个文本块或类似的东西下载，我可以使用它？ (我最初的想法是从古腾堡项目中拿到一大块小说这个项目只供我自己消遣，不会在其他地方找到，所以版权等对我来说并不是很重要，但这样的东西很可能包含太多不适合绞刑者的名字或不标准的单词。我需要文本，只有在拼字游戏中使用合法的字，基本上)。我想这是一个有点奇怪

浏览 3提问于2010-04-12得票数 1

回答已采纳

2回答

有没有很好的网页摘要？

、

假设我给你一个URL...can，你分析单词并说出该页面的“关键字”？(除了使用元标签之外) 有没有很好的开源摘要？(最好是Python)

浏览 1提问于2009-11-25得票数 1

回答已采纳

1回答

使用ColdFusion / jQuery进行查询的推荐单词

、

我有一个利用MySQL全文功能的ColdFusion查询(在布尔模式下)。我没有使用verity。搜索页面利用布尔搜索查询，根据精确的单词匹配快速返回结果。但我没有办法建议纠正拼写。我的问题是。有没有办法在提交查询后提供建议的单词列表，就像在Google中那样(基于相似性或常见的拼写错误的单词)？任何关于如何实现这一点的建议都将不胜感激。

浏览 0提问于2013-05-12得票数 1

8回答

像HashMap这样的东西，但是已经排序了？

、

我正在编写一个Java程序，它解析文本文件中的所有单词，然后将它们添加到HashMap中。我需要计算文件中包含了多少个不同的单词。我还需要找出最高计数的单词。HashMap由映射到一个整数的每个单词组成，该整数表示单词出现的次数。有没有像HashMap这样的东西可以帮我解决这个问题？

浏览 0提问于2009-12-02得票数 4

6回答

有没有一种算法可以从英文文本中提取出有意义的标签

、、

我想从任何大小的英文文本中提取一个“有意义的”标签的缩减集合(10最大)。非常有趣，但它的算法似乎非常基础(只是单词计数) 有没有其他现有的算法可以做到这一点？

浏览 1提问于2008-09-15得票数 8

2回答

列出以固定前缀开头的`k‘单词，按其频率的降序排列

、、、、

我有一个关于10^5英语单词的列表，以及它们的初始频率。我想要写一个单词完成建议程序，它将返回一个最大的k单词列表，从一个给定的前缀开始，按其频率的降序排序。数据结构还应该能够将单词的频率计数更新为1(每当使用一个单词时)。例如，给定'engin‘作为前缀和k = 3，它应该返回这样的列表- {17，"engine"}，{10，"engineer"}，{4，"engineering"} } k的值应该在1，15以内。如果按频率排序不是问题，那么Trie数据结构就应该足够了，但事实是这样的。有人能提示我任何数据结构或解决这个问题的方法吗

浏览 4提问于2014-09-29得票数 0

1回答

C# Word云库中未记录的参数

我一直在使用这个库()来生成一个单词云图像。然而，我注意到，对于'words‘参数中的每个单词，它都有一个'frequencies’参数。我找不到关于这个“频率”参数的任何文档，我的测试也无法产生任何结果。有人能提供这方面的信息吗？ using WordCloudGen = WordCloud.WordCloud; var wc = new WordCloudGen(width, height); wc.Draw(words, frequencies);

浏览 2提问于2021-02-16得票数 0

1回答

获取较大单词列表的谷歌点击数

、

我看到了一些与我的问题相关的问题，但没有具体的答案。简而言之，我有一个更大的单词列表(超过1000个)，我想获得每个单词的谷歌点击数。特别是，我在上读到了这篇文章。但如何处理大型列表的问题仍然悬而未决。请，我会非常感谢，如果有人可以拖一些Python代码与我可以发挥和建立脚本。

浏览 0提问于2011-05-18得票数 0

3回答

我需要一个关于文本挖掘的想法，以便从大量文件中挖掘数据

、

我是数据挖掘的新手。我正在做我的B.Tech最后一年，我最后一年的项目标题是“使用文本挖掘从学生反馈中提取和分析管理学科的教师表现”。在这里，我们将有许多包含学生反馈的文件，每个学生将有一个单独的文件。从所有这些文件中，我们必须检索有用的信息。有没有人能建议我怎么开始，要用什么工具？要使用的技术有哪些？我熟悉JAVA(jse)，我可以用java编程语言来实现吗，如何实现？致敬..。Upendra.S

浏览 1提问于2011-12-21得票数 1

回答已采纳

1回答

字云使用短语而不是单个单词

、、、

我正在为单个单词生成一个字云图像，这很好。我想为短语生成图像。，对于两个单词短语，我需要使用~链接它们。我尝试过这种连接我的短语的方法，但它仍然只需要考虑两个单词。这是限制，还是有一种方法来生成超过两个单词短语的字云？ wordcloud = WordCloud( width=1000, height=1000, background_color='black', stopwords=STOPWORDS).generate(str(text)) fig = plt.figure( figsize=(10, 10), faceco

浏览 1提问于2020-01-02得票数 0

回答已采纳

2回答

高效算法(散列、排序)

、、、

我有以下问题-我得到了一个文本文件，包含大量的单词和重复允许。我需要写一个算法，输出1000个单词，它们的频率以递减的顺序出现。下面是一个例子 **input.txt** aa aa bb cc bb bb bb dd dd **output.txt** (note - frequencies can be repeated) bb 4 aa 2 dd 2 cc 1 这是我解决这个问题的方法。首先阅读所有的单词，并将它们存储在中，并以word作为键。这样做的最终结果是，我有所有的单词和他们的频率。现在，我遍历并为每个键值对创建一个对象{word，frequency}，然后将其插

浏览 3提问于2013-09-29得票数 1

回答已采纳