如何统计一个单词在多个文本中的出现次数？_统计多个单词的单词出现次数的问题_如何统计每个单词在多个文本文件中的出现次数 - 腾讯云开发者社区

、、、、

有一个目录，里面有几个文本文件。如何统计每个文件中每个单词的出现频率？单词是指一组字符，可以包含字母、数字和下划线字符。

浏览 1提问于2012-03-30得票数 3

回答已采纳

6回答

计算文本中每个单词出现的次数- Python

、

我知道我可以在文本/数组中找到一个单词，如下所示： if word in text: print 'success' 我想要做的是阅读文本中的一个单词，并尽可能多地计数这个单词(这是一个简单的计数器任务)。但问题是，我真的不知道如何read已经读过的单词。最后:统计每个单词出现的次数？我曾经想过保存在数组中(甚至是多维数组，所以保存单词和出现的次数，或者用两个数组保存)，每次在数组中出现一个单词时，都要求和1次。那么，当我读到一个词时，我能不能不用类似的东西来读它呢： if word not in wordsInText: print 'su

浏览 2提问于2018-03-16得票数 0

回答已采纳

1回答

Cmake统计文件中单词的出现次数

我知道这听起来很奇怪。但是出现了一个新的要求，我们需要使用CMake (特别是以独立于平台的方式，不假设我们有任何其他工具，如python、perl等)来统计特定单词在所有C++文件中的出现次数。这有可能吗？如果是，是如何实现的？

浏览 0提问于2014-10-22得票数 0

1回答

说明将并行性应用于计算目标单词出现次数的程序意味着什么

、

这是学校用的。我正在写一个java程序，它统计某个单词在文件中出现的次数，但它需要使用多线程来完成这项任务。但我不确定这意味着什么:并行是否意味着我获得文件的总字数，创建两个线程，然后给每个线程分配文件的不同部分进行处理？

浏览 0提问于2020-04-16得票数 0

2回答

JTextArea中的特定字数

、

我手头的任务是向Jbutton添加一个事件，该事件将统计在JTextArea中显示的单词的出现次数。代码如下所示，但这会计算每一个单词； private void btnCountActionPerformed(java.awt.event.ActionEvent evt) { if(!(txtaInput.getText().trim().length()==0)){ String a = String.valueOf(txtaInput.getText().split("\\s

浏览 0提问于2014-05-20得票数 0

1回答

如何统计一个单词在多个文本中的出现次数？

、

我有一个二叉树，它存储所有单词及其在文本中的出现情况。单词为关键字，出现次数为值如果我有多个文本，我要创建多个树吗？此外，我还想计算idf (逆文档频率-该单词在所有文本中出现的次数)。我如何才能做到这一点？

浏览 13提问于2020-07-23得票数 0

回答已采纳

2回答

如何计算单词在一列中出现的次数，python

、、

如何在Python中统计一个单词在一个字符串中出现了多少次？例如： file|context ----|------- 1 | Hello world 2 | Round and round 我想计算单词的出现次数： file| context | word_count ----|-----------------|--------------------- 1 | Hello world | {'hello':1,'world':1} 2 | Round and round | {'round':2,&#

浏览 2提问于2017-09-15得票数 0

4回答

使用java计算文本文件中重复单词的数量

如何在java中从路径打开文本文件，并使用标记器计算文件中重复的单词数。例如:我想使用路径名打开一个文件，并准备读取和统计文件中重复的单词

浏览 0提问于2010-12-31得票数 0

1回答

在文本文件中搜索并统计包含特殊字符的特定短语

、、

我有一个搜索短语列表，其中一些是单个单词，一些是多个单词，一些在它们之间有一个连字符，而其他可能有括号和连字符。我正在尝试处理一个文本文件目录，搜索这些短语的100+，然后统计出现的次数。看起来下面的代码在2.7x的python中工作，直到它命中带连字符的搜索短语。我观察到一些文本文件中至少有一个连字符的搜索短语出现了一些意想不到的计数。 kwlist = ['phraseone', 'phrase two', 'phrase-three', 'phrase four (a-b-c) abc', 'phrase five

浏览 0提问于2017-10-25得票数 2

2回答

是否有可能标记n在vim中的模式的第n次出现？

、、

假设我有一条如下所示的短信。那个人在走路，那个人在吃东西。如何使用替换将其转换为以下内容？男人1在走路，2人在吃饭。我知道我可以使用:%s/\<man\>//gn来统计单词man的出现次数，并且知道/\%($pattern$.\{-}\)\{n - 1}\zs\1可以找到第n次出现的模式。但我该怎么标记第n次呢？任何帮助都是真诚的感谢，谢谢。

浏览 3提问于2016-08-29得票数 5

回答已采纳

2回答

将hashmap key与文本文件中的单词进行比较并更新值

、

我一直在使用hashmap来存储文本文件中的唯一单词。现在，我需要将hashmap中的每个单词与另一个更大的文本文件进行比较，并跟踪每个单词在文本文件中出现的频率。在最初添加到hashmap时，我只插入键并将值设置为0。我的计划是使用'value‘作为每个单词在较大文本文件中的频率。我的尝试如下；我首先使用scanner读取原始文件，并将单词存储到hashmap中。接下来，我再次使用scanner，但这次使用的是较大的文本文件。从现在开始，我有点卡住了。我不知道如何更新'value‘和索引'key’。这是我所拥有的； Scanner fileScanner = n

浏览 0提问于2012-06-03得票数 1

回答已采纳

2回答

如何在MS Word中搜索连续的特殊字符？

、

我想查找并替换括号(用于文本内引用)以及前面的空格。我知道表示空格的特殊字符是^w，也知道如何使用$*$查找所有括号。问题是我不知道如何组合或连接特殊字符。如何查找并替换(some text)的所有实例(左括号前有一个空格)？我在试着做单词统计。将$*$替换为nothing会在句点前面留下一个空格，因为我通常会在文本内引用和前面的文本之间留一个空格。句点前的空格会导致句点被计为一个单词。我不确定操作系统是否会有所不同，但我使用的是Mac。

浏览 0提问于2021-04-12得票数 1

5回答

计算文件字数的最简单方法

我正在尝试以最简单的方式编写一个程序，用Scala语言统计文件中单词的出现次数。到目前为止，我有以下几段代码： import scala.io.Codec.string2codec import scala.io.Source import scala.reflect.io.File object WordCounter { val SrcDestination: String = ".." + File.separator + "file.txt" val Word = "\\b([A-Za-z\\-])+\\b".r

浏览 1提问于2013-03-19得票数 12

回答已采纳

1回答

当我已经对文件进行了标记化时，如何创建倒排索引？

、、、

我正在尝试创建一个倒排索引。我正在读取一个文本文件的行，这个文本文件在每行的第一个位置有一个文档docId的id，其余的行有关于这个文档的关键字。为了创建倒排索引，我首先必须对这个文本文件进行标记化。我写了一个函数，把每个单词都存储在一个向量中。我唯一的抱怨是，我还将docId作为字符串存储在向量中。以下是tokenize函数的标头(如果需要)： void tokenize(string& s, char c, vector<string>& v) 现在，在标记文件之后，我必须创建一个函数，将每个单词放入映射中，我正在考虑使用一个无序映射，在映射中，每个单词都出现一

浏览 7提问于2015-02-11得票数 0

1回答

Python -找出文本文件中每对可能的单词在同一行中出现的频率的最有效方法？

、、、、

这个问题很容易解决，但我不确定我得到的解决方案在计算上是否有效。所以我在请教专家！要浏览一个大文件，收集(整个文件)两个单词在同一行中出现的频率的统计数据，最好的方法是什么？例如，如果文本只包含以下两行： “这是白色棒球。”“这些家伙有白色的棒球棒。” 您将最终收集以下统计信息：(this，is: 1)，(this，the: 1)，(this，白色: 1)，(this，棒球: 1)，(is，the: 1)，(is，白色: 1)，(is，棒球: 1)……以此类推。对于条目(棒球，白色: 2)，该值将为2，因为这对单词在同一行中总共出现了2次。理想情况下，统计信息应该放在字典中，其中键在元

浏览 0提问于2010-10-02得票数 2

回答已采纳

2回答

查找包含正则表达式的任何文字

、

在我的C#程序中，我有一个正则表达式文本解析器，它可以查找所有出现在双方括号中的单词。例如，[ anything ]会找到单词anything。在第二步中，我想要计算找到的单词(在我的示例中: anything)在整个文本中出现的频率。为此，我尝试创建一个RE，其中包含找到的单词和计数，以及我得到的匹配数。问题是，找到的单词还可以包含特殊字符和以下正则表达式： string foundWord = "(anything"; Regex countOccurences = new Regex(foundWord); 当变量包含像'(‘这样的特殊字符时，显然会失败。Exp

浏览 0提问于2009-10-23得票数 0

回答已采纳

4回答

python regex，用于计算只有一个特定单词的字符串中的行数

、

我想要找出一个给定的字符串是我的字符串中一行上的唯一单词的次数。例如，如果单词为"max"，字符串为： str = """max hello max max hi max""" 正确的输出应该是2。我尝试使用re.findall函数： from re import findall findall(r'^\max\n', str) 但它只统计了一次"max"的出现 ['max\n']

浏览 0提问于2017-08-19得票数 0

2回答

在一个句子中查找多个单词

、、

我希望为我的网站，其中包含几个课程的搜索工具。我基本上想输入一个单词，如果这个单词存在，我们当然会查看所有页面，然后根据单词出现的次数对页面进行分类。因此，我制作了一个包含"coursnumero“、"textcours”、“liencour”的SQL表，在课程文本中包含了相关课程的所有文本。我有： SELECT count(*) FROM `cours` WHERE `textcours` like '%super%' groupby `coursnumero` 它显示1，但我的句子中有2个单词"super“，我如何解决这个问题？

浏览 0提问于2018-05-07得票数 0

2回答

如何检查字符串中要查找的单词的前一个字母是否存在？递归

、

我目前正在创建一个java程序，它使用递归来统计字符串中特定单词的出现次数，但是，如果前面的字母是'a'，则该计数不会递增。我找不到一种方法来检查我要查找的单词的第一个字母之前的前一个字母。我尝试使用indexOf，然后减去1来检查前面的字母，但不起作用。下面是我目前的工作函数： //The value of text is abrichbbarichacrich //While the value of find is rich //Expected output should be 2 static int Count(String text, String find)

浏览 22提问于2021-05-23得票数 1

6回答

返回文本之间亲和力的函数？

、、、

假设我有一个 string1 = "hello hi goodmorning evening [...]" 我有一些次要的关键字 compare1 = "hello evening" compare2 = "hello hi" 我需要一个函数来返回文本和关键字之间的亲和力。示例： function(string1,compare1); // returns: 4 function(string1,compare2); // returns: 5 (more relevant) 请注意，5和4只是示例。你可以说--写一个函数来统计出现的次数-

浏览 0提问于2011-01-25得票数 11

回答已采纳

2回答

对于短文本，LDA的缺点是什么？

、、

我试图理解为什么潜在的狄利克雷分配(LDA)在像Twitter这样的短文本环境中表现不佳。我已经读过论文“A biterm topic model for short text”，然而，我仍然不理解“单词共现的稀疏性”。在我看来，LDA的生成部分对于任何类型的文本都是合理的，但在短文本中导致糟糕结果的是采样过程。我猜LDA基于两个部分对一个单词的主题进行采样：(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文本的(1)部分不能反映它的真实分布，这会导致每个单词的主题分配不佳。如果你发现了这个问题，请随时发表你的想法，并帮助我理解这一点。

浏览 2提问于2015-04-22得票数 25

回答已采纳

4回答

我可以使用数组的内容作为散列的键吗？

、

我希望我的数组成为我的新散列的键。我正在写一个统计文档中单词出现次数的程序。 my @array = split(" ", $line); keys my %word_count = @array; #This does nothing 这段代码是在我逐行阅读infile时发生的。我正在尝试找到一种方法来完成这个项目使用散列。单词是关键字，它们出现的次数是值。但是，这一步尤其让我感到困惑。

浏览 0提问于2012-04-11得票数 2

1回答

Hadoop Mapreduce HDFS数据块拆分

、、

我的问题是，我有一个由空格分隔的100个单词的文本文件，我需要做一个单词统计程序。那么，当我的名字节点将文件拆分成HDFS块时，我们如何确保拆分只在单词的末尾完成呢？也就是说，如果我将文本文件中的第50个单词作为Hadoop，如果将其拆分为64MB的块时，当前块的存储空间可能会达到64MB，位于单词Hadoop的中心，因此一个块包含'had‘，而另一个块包含'oop’。如果这个问题听起来很傻，很抱歉，但请提供answer.Thanks。

浏览 1提问于2017-10-26得票数 1

1回答

将多个映射合并为一个映射，其给定键的值是组合映射中键的值的总和

我已经写了一个程序，它可以识别文本文档中所有唯一的单词，并计算每个单词出现的次数。为了提高程序的性能，我尝试将单词计数分解成几个可以并行运行的goroutine。最初，我尝试使用通过引用每个goroutine传递的单个map，其中每个goroutine将计算文档部分中的单词。这引起了恐慌，因为程序试图同时从多个goroutine写入相同的映射。为了解决这个问题，我创建了一个互斥锁来防止多个goroutine同时写入map。此时，程序按预期运行，但与WordCount函数的原始顺序实现相比，没有性能差异。转念一想，这并不奇怪，因为互斥锁迫使其他goroutines在写入map之前等待，从而阻

浏览 14提问于2019-03-31得票数 1

3回答

使用Hadoop MapReduce进行排序字数统计

、、、

我对MapReduce非常陌生，我完成了一个Hadoop字数统计示例。在该示例中，它生成单词计数未排序文件(带有键-值对)。那么，是否可以通过将另一个MapReduce任务与前一个任务相结合来按单词出现的次数对其进行排序呢？

浏览 1提问于2010-03-31得票数 10

1回答

将字数向量反变换为原始文档

、、、、

我正在训练一个简单的文本分类模型(目前使用scikit-learn)。使用我使用的词汇表将我的文档样本转换为单词计数向量 CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays) 来自sklearn.feature_extraction.text。这很有效，我可以随后将这个单词计数向量作为特征向量来训练我的分类器。但我不知道的是，如何将这些字数统计向量逆变换为原始文档。CountVectorizer确实有一个函数inverse_transform(X)，但它只返回唯一的非零令牌。据我所知

浏览 10提问于2017-07-13得票数 2

1回答

如何测量单词的共现频率

在单词共现中频率是如何定义的？是这两个词同时出现的次数/语料库中的文档总数或两个单词同时出现的次数/(第一个单词出现的次数+第二个单词出现的次数)？

浏览 37提问于2019-03-05得票数 0

1回答

如何计算MySQL blob文本中某个特定单词的出现次数？

、、、

我已经将文本文件的内容作为blob存储在MySQL表中。我想从该文本中统计一个特定单词出现的次数。有什么办法我能做到吗？

浏览 2提问于2015-04-05得票数 0

回答已采纳

4回答

如何使用python正则表达式统计文本中特殊字符后面的单词的出现次数

、、

我想用python统计一下'people‘这个词在文本中出现的次数。为此，我使用了计数器和Python的正则表达式： for j in range(len(paragraphs)): text = paragraphs[j].text count[j] = Counter(re.findall(r'\bpeople\b' ,text)) 然而，在这里，我的代码没有考虑到人的出现。人民!人民?当单词后面跟着一个特定的字符时，我如何修改它来计算大小写？谢谢你的帮助

浏览 0提问于2018-10-24得票数 1

2回答

Python:计算HTML中的特定单词数

、、

所以，我是一名Python新手，在学习网络抓取方面有相当的困难。我打算计算这个HTML页面中的单词数量，并显示哪些单词只出现一次，以及“女士”一词显示了多少次。到目前为止，我已经想出了这个： import requests from bs4 import BeautifulSoup import operator from collections import Counter def my_start(url): my_wordlist = [] my_source_code = requests.get(url).text my_soup = BeautifulSoup

浏览 23提问于2020-06-15得票数 2

回答已采纳

1回答

使用scrapy框架查找网站中最常用的5个单词

、、

通过获取页面内容和查找文本表单页面，我可以在没有的情况下找到前5个常见词。然后根据出现次数将单词转储到字典中。但是我想利用scrapy的工具来做这件事。但我不确定我应该把项目中的字典放在哪里来保存单词计数，这样爬行器就可以将数据发送到公共位置，然后更新字典。如何使用scrapy查找最常用的单词？我可以使用scrapy的统计数据收集模块，以便在完成爬行后可以打印统计数据吗？

浏览 6提问于2018-12-30得票数 0

1回答

如何使用Python语言中的MapReduce来计算一个单词序列在文件中出现的次数？

、、、、

考虑一个包含由空格分隔的单词的文件；用Python语言编写一个MapReduce程序，该程序统计每个3个单词的序列在文件中出现的次数。例如，考虑以下文件： one two three seven one two three three seven one seven one two 每个3个单词序列在此文件中出现的次数为： "three seven one" 2 "four seven one two" 1 "one two three" 2 "seven one two" 2 "two three seven"

浏览 43提问于2021-04-11得票数 0

回答已采纳

2回答

是否有可能在存储在MySQL中的文本中找到重复模式？

、、

有可能在课文中找到重复的模式吗？我的桌子看起来像这样： CREATE TABLE `textanalysis` ( `ID` int(11) NOT NULL AUTO_INCREMENT, `abstract` text, UNIQUE KEY `ID` (`ID`), FULLTEXT KEY `abstract` (`abstract`) ) ENGINE=MyISAM AUTO_INCREMENT=2 DEFAULT CHARSET=latin1; 我想找出文本中的单词或词组，然后做一个统计。

浏览 2提问于2010-12-02得票数 0

回答已采纳

1回答

如何检查每个数组对象在字符串中出现的次数，然后将其保存到单独的数组中？

、

基本上，我在这里尝试做的是获得一个文本输入(一个段落)，然后将每个单词保存到一个数组中。然后，我想对照原始段落检查数组中的每个单词，看看它出现了多少次。通过这样做，我希望能够检查主题是什么。最初，我开始这是一个开放式的学校项目，但我更感兴趣的是为了我自己的理智，如何做到这一点。这是我的代码(这是在我请求上面的html代码中的文本输入之后)： $paragraph = $_POST['text']; $paragraph = str_replace(' ',' ',$paragraph); $paragraph = str_replace(&#

浏览 0提问于2015-02-04得票数 0

4回答

字符串中的单词出现次数(单词计数)

、、

我一直在写字符串中出现的单词。我得到了一些使用compareToIgnoreCase的提示(在任务笔记中)。所以我尝试了这样的方法： splitwords = StringCont.split("\\s"); for(int i=0; i<splitwords.length; i++) { if(splitwords[1].compareToIgnoreCase(splitwords[i]) == 0) splitcount++; } 当然，这正是我所能做的，而且可能是不好的方法。当我运行代码时，我有时会遇到数组异常，有时它会运行。缺少的是:检查所

浏览 0提问于2009-12-21得票数 0

回答已采纳

1回答

使用c#互操作从word文档获取格式

、、、、

我使用Word Interop和n C#在工作中建立一个程序，其中一个功能是获得字数统计。现在，这不能是字数统计，因为我需要模拟工作中使用的CAT toool的字数。我发现的问题之一是CAT工具使用文本格式来拆分单词。这意味着，如果单词format带有st上标，word将计算一个单词(因为这两个单词之间没有任何分隔)，CAT工具会根据文本格式的变化计算2个单词。 CAT工具会跟踪格式的变化，并且这些信息会打断单词。因此，我可以逐个单词，逐个字符，并检查所有的可能性(字体，粗体，斜体，等等)，但这将是非常慢的工作多个文档，每个有1000个单词。有人知道更好的解决方案吗？

浏览 0提问于2012-01-05得票数 0

回答已采纳

3回答

如何为大量的文本创建字典并列出最常用的单词？

、

我对编码很陌生，我正试图从大量的文本中创建一个字典，并且也想要显示最频繁的单词吗？例如，如果我有一个文本块，如： 1788年1月22日，乔治·戈登·诺埃尔·拜伦(George Gordon Noel Byron )在伦敦出生，右脚被棍棒击中。他是苏格兰贫困女继承人、贫穷的苏格兰女继承人凯瑟琳·戈登( Catherine Gordon )和约翰船长(“疯狂杰克”)拜伦( John，“疯狂杰克”)·拜伦(John，“疯狂杰克”)拜伦(John，“疯狂杰克”)·拜伦(John，“疯狂杰克”)拜伦(John，“疯狂杰克”)拜伦(John，“疯狂杰克”)的儿子。这位挥霍钱财的船长挥霍了妻子的遗产，因

浏览 1提问于2019-07-09得票数 0

2回答

文本目录内的Bash代码单词出现计数

、、、

浏览 0提问于2014-12-09得票数 1

3回答

用于计算包含字母组合(中间有重复和字母)的单词数的Unix命令

、

如何计算包含所有字母a、b和c的文本文件中的单词数。这些字母可能在单词中出现多次，该单词也可能包含其他字母。(例如，应将"cabby“计算在内。) 使用应返回2的示例输入： abc abb cabby 我都试过了： grep -E "[abc]" test.txt | wc -l grep 'abcdef' testCount.txt | wc -l 这两个函数都返回1而不是2。提前感谢！

浏览 0提问于2014-04-09得票数 2

1回答

如何用python绘制Matplotlib中单词出现的时间序列？

、、、

我有一个包含以下内容的文本文件 'word' , 'timestamp' word1 , 1546403642 word2 , 1546392481 word1 , 1546403642 word3 , 1546394402 ... 第一个字段是单词(最多10个单词，多次出现)，第二个字段是该单词出现的时间戳。我没有问题读取这个文件，用Pandas解析这个CSV文件，并将linux时间戳转换成另一种格式，但我不知道如何将它放在Matplotlib中，以显示每个单词在时间上的出现情况，如下所示：我正在寻找一个

浏览 0提问于2019-01-02得票数 0

回答已采纳

2回答

是否仅保留特定于域的关键字？

、、、

我正在尝试为我的集合中的某些文档确定最受欢迎的关键字。假设领域是“计算机科学”(当然，包括网络、计算机体系结构等)从文本中保留这些特定于领域的关键字的最佳方法是什么？我试过使用Wordnet，但我不太清楚如何最好地使用它来提取这些信息。考虑到我事先并不知道所有领域特定的关键字，有没有什么众所周知的单词列表可以用作白名单？或者，有没有什么好的nlp/机器学习技术来识别领域特定的关键字？

浏览 0提问于2011-11-03得票数 4

回答已采纳

2回答

查找散列集中每个单词在文本文档中出现的次数

、、、

我正在用Java实现一个朴素的贝叶斯文本分类算法。到目前为止，我所做的是，声明一个名为declare的哈希集，它存储来自给定文本文件(测试文件)的所有唯一单词。该算法中的一个步骤是将测试文件的所有成员连接到单个文本文件中。这是一个相当大的文件，其中包含每个文件中的单词。现在，我必须用连接的文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种数组结构，其中包含每个单词的频率。但话又说回来，我会有太多的条目。有人能给我更好的建议吗？

浏览 3提问于2012-06-03得票数 0

1回答

从文本文件python读取字符串

我正在阅读文本文件中的单词，并将它们与一组单词进行比较，以查看它们在示例文档中出现了多少次。例如，我有一个文本文件，我想看看"engineer“这个词发生了多少次。问题是，对于我的示例数据，字符串比较不起作用。我看到这个程序确实是在读一个看起来像“engineer”的<type 'str'>单词，但是没有匹配的地方。当使用ord(character)打印单词中每个字符的ASCII时，每个字符之间似乎有0。然后，字符串"engineer“的输出如下所示： 0 101 0 110 0 103 0 105 0 110 0 101 0 101 0 114

浏览 0提问于2018-06-11得票数 1

回答已采纳

1回答

我将如何排序一个字符串降序列表，然后升序(如果绑定的话)？

、

好吧，这个问题会让你说“什么？”但我试着给出一些背景。我正在编写一个程序，读取一个纯文本文件，按单词发生的次数降序排序文件中的字符串，然后对于发生次数相同的单词，我必须按字母顺序对这些单词进行排序…… 现在，我有一个名为“word”的数组列表，其中包含了我打开的文本文件中的每个单词。那么，如果出现了平数，我如何按降序按已发生的单词数排序，然后按字母顺序进行升序呢？所以如果我有一份清单是： [a, a, a, a, b, c, c, c, c, d, d, e, e, e, e, e] 排序后的输出列表如下： e : 5 a : 4 // notice the words that occu

浏览 0提问于2018-09-13得票数 1

1回答

比较两个文档中所有单词的出现次数

我目前正在做一个项目，在这个项目中，我需要比较两个文本文档，文档1中的所有单词都要在文档2中重复出现，而不考虑单词的位置。例如，如果文档1包含一个段落，其中单词“in”出现了10次，那么文档2也必须包含10次“in”。如果单词放在不同的位置，没问题。我该怎么做？？……提前谢谢。

浏览 1提问于2013-03-19得票数 0

1回答

如何将不同维度的两个特征结合起来？

、、

让我们来考虑文本分类的问题。因此，如果文档被表示为单词袋，那么我们将有一个n维特征，其中n个单词在文档中。现在，如果我决定我也想使用文档长度作为特性，那么这个特性的维度(长度)将是一个维度。那么，我如何结合使用这两个特征(长度和包字)。现在应该将特征考虑为二维(n维矢量(弓形)和一维特征(长度)).如果这不起作用，我如何组合这些功能。在这方面有什么建议也会有帮助吗？

浏览 3提问于2012-09-08得票数 1

2回答

查找文本中最常见的字符

我需要使用获取文本文件并对其进行分析的方法来实现一个带有接口的包--统计字符总数，并找到最常见的符号和单词。要在文本中的每个符文中找到最频繁的字符i循环，将其转换为string，并将其作为map的键追加。该值是一个递增计数器，它计算该字符在给定文本中发生的频率。现在，我遇到了以下问题--我不知道如何在我的地图上得到最高值的密钥。下面是代码： package textscanner import ( "fmt" "log" "io/ioutil" "unicode/utf8" "st

浏览 4提问于2017-03-17得票数 0

回答已采纳

4回答

NLP for java，我应该使用哪个工具包？

、、、

我正在进行一个项目，它需要计算txt文件中每个字的出现情况。例如，我有这样一个文本文件：银湖在IPO候选人中寻找的是3家被盈利压碎的公司:苹果、Cirrus Logic、IBM的Palmisano:你如何成为一家百年老公司如果上面有三个句子显示在文件中，我想计算每个单词的出现情况。在这里，公司和公司应该被认为是同一个词“公司”(小写)，因此“公司”一词的总出现量是2。是否有任何NLP工具包可以区分“家庭”和“家庭”这两个词实际上来自同一个单词“家庭”？我将统计每个单词的出现情况，以进一步进行朴素贝叶斯训练，因此获得每个单词的准确出现数是非常重要的。

浏览 3提问于2011-12-15得票数 1

回答已采纳

4回答

查找特定格式的实例字符串在给定文本中出现的数量

、、、、

我有一个很大的字符串，其中可以有多次出现的特定单词(文本后面跟一个冒号，比如"test:")。例如，如下所示： word: TEST: word: TEST: TEST: // random text "word“出现两次，"TEST”出现三次，但数量是可变的。此外，这些单词不必按相同的顺序排列，并且在与单词相同的行中可以有更多的文本(如“TEST”的最后一个示例所示)。我需要做的是将出现次数附加到每个单词，例如，输出字符串需要是这样的： word_ONE: TEST_ONE: word_TWO: TEST_TWO: TEST_THREE: // rando

浏览 1提问于2011-12-25得票数 3

回答已采纳

2回答