统计原始文件中的词频并将其映射

文章/答案/技术大牛

发布

2回答

python、pandas、numpy、counter、countvectorizer

我正在尝试使用计数向量化器的一个修改版本，我使用它来适应一个系列。然后我得到单元格中值的所有计数的总和。例如:这是我的系列，我在上面安装了计数向量器。到目前为止，我只成功地获得了一个稀疏矩阵，但它打印出了单元格中元素的总数。但是，我希望将计数映射到整个系列。

浏览 32提问于2021-08-18得票数 1

回答已采纳

5回答

遇到循环中找不到的文件，如何继续处理？

java、exception-handling

totalCount); 输出：1字数:2总数: 119词频: 0.0168字数:3总数:119词频: 0.0252关于字数统计: 0.0

浏览 1提问于2011-03-08得票数 0

回答已采纳

3回答

Python词频统计程序

python-2.7、word-frequency

我用python创建了一个简单的单词统计程序，它读取一个文本文件，统计词频，并将结果写入另一个文件。问题是，当单词重复时，程序会写入同一单词的初始计数和最终计数。例如，如果单词" hello“重复3次，程序将在输出中写入3个hello实例，如下所示：你好-1你好-3counts ={} counts我是python的新手

浏览 0提问于2014-02-19得票数 1

2回答

在Lucene索引中修改.tim和.tip文件

java、lucene

我有一个具有多个索引的Lucene应用程序，其中相关性评分由于不同索引之间的词频差异而受到影响。我的理解是术语词典(.tim文件)包含“术语统计信息”，比如每个术语的文档频率统计信息。我在想，一种方法可能是修改每个索引(和相关段)的.tim文件，并更新“术语统计”。是否可以用这种方式覆盖或修改.tim和.tip文件？

浏览 1提问于2014-06-25得票数 0

1回答

是什么决定了缓存速度？

file、caching、disk

我有一个程序，从一个文件中读取并对其执行操作(统计词频)....I有4个不同的文件大小，我得到所有的缓存速度，但最大的。为什么无论我运行多少次，最大的文件都只能以磁盘速度运行？过多的内存使用会限制缓存的运行吗？大文件大小为27 gb。在windows上运行。这是文件缓存，不是CPU缓存

浏览 2提问于2011-05-07得票数 0

回答已采纳

2回答

统计多个文件中的词频

python、python-3.x、frequency、word-frequency

我正在尝试编写一段代码来统计包含大约10000个文件的文档中单词出现的频率，但我得到的不是总频率，而是最后一个文件的单词计数，因为它将覆盖前一次迭代。到目前为止我的代码是：import glob file_list = glob.glob(TARGET_FILES)

浏览 1提问于2018-03-26得票数 0

3回答

如何统计输入文件中的词频？

python、file、input、word

我正在尝试让我的程序读取由逗号分隔的单词组成的一行。例如，如果我们有：在输入文件中，程序需要在一行中分隔每个单词，并去掉逗号。在此之后，程序将计算输入文件中单词的频率。，它打印了同一单词的初始计数，该单词被计数了两次。此程序的输出将为：cat 2 man 2

浏览 2提问于2020-12-11得票数 1

5回答

包含值和键的字典的python词频

python

我是第一次学习python，我知道如何使用词频来计算列表中每个唯一变量的个数，如下所示 else: 然而，我想知道通过使用double for循环，单词频</e

浏览 2提问于2020-02-18得票数 0

1回答

在Java和Lucene中处理来自RSS提要的大量字符串的最佳实践

java、string、rss、lucene

我有这样一种情况:我有一个每小时一次的批处理作业，它必须解析大量的RSS提要，并从每个提要的每个项目中提取标题和描述元素的文本到字符串中，然后Lucene将计算它们的词频for each feed get text from title这与从每个提要

浏览 3提问于2010-12-06得票数 1

1回答

Python:单词列表的NLTK概率

python、nltk

我一直在统计语料库中的单词列表，并看到单词列表的概率。提前谢谢你！

浏览 1提问于2012-10-01得票数 0

回答已采纳

1回答

将多个映射合并为一个映射，其给定键的值是组合映射中键的值的总和

最初，我尝试使用通过引用每个goroutine传递的单个map，其中每个goroutine将计算文档部分中的单词。这引起了恐慌，因为程序试图同时从多个goroutine写入相同的映射。此时，程序按预期运行，但与WordCount函数的原始顺序实现相比，没有性能差异。转念一想，这并不奇怪，因为互斥锁迫使其他goroutines在写入map之前等待，从而阻止并行计算。words, startWord, endWord, freqs, &waitGroup, &

浏览 14提问于2019-03-31得票数 1

1回答

获取Solr中文档子集的总词频

solr、lucene、faceted-search

我对使用Solr分析文档并获取符合特定条件的所有文档的词频很感兴趣。 } <lst name="car">1</lst> <lst name="black&qu

浏览 0提问于2013-05-15得票数 1

1回答

gensim:在doc2vec词汇表中检索词频

dictionary、word2vec、gensim、doc2vec、vocabulary

我刚刚在doc2vec模型词汇表中遇到了的单词统计。我想知道是否有其他方法可以检索单词频率，而不是 print(str(word) + str(vocab_obj.count)) 也许有一种更好的方式通过gensim库(即在txt文件中输出单词和频率)？

浏览 20提问于2018-01-30得票数 0

1回答

Hadoop:每个tar/zip文件对应一个映射器

hadoop、hadoop-streaming

我有几个要计算统计数据的目录。也就是说，我的mapper函数接受一个文件夹树作为输入，并根据目录及其所有子目录的内容输出一些静态数据。计算在每个目录上都需要很长时间。没有减速机。我可以为要处理的每个目录创建一个tar/zip文件，并将其复制到HDFS中。但是，如何确保为每个tar文件创建一个映射器，并将tar文件的全部内容发送到该<em

浏览 0提问于2015-05-23得票数 1

1回答

统计文本中的词频并创建曲线图

r、text、bioinformatics、biometrics、mining

我有一个包含40802个基因名称的数据框架列表，还有一个包含14000篇文章信息的数据框架。文章信息包括文章、摘要、日、月、年。我真的很感激任何关于如何做到这一点的想法。我已经尝试了

浏览 8提问于2017-08-03得票数 0

1回答

从阿拉伯文本输出的空WordCloud PNG

python-3.x、word-cloud

cloud.generate_from_frequencies(dictionary) cloud.to_file("wordCloud.png")` 📷 问题是我成功地构建了Python脚本，它迭代通过阿拉伯文本并统计每个单词的频率，但是wordcloud输出的是空的PNG，就像上面的图像一样，我无法解决它，可能它与utf-8编码有关，但我仍然不知道如何在wordcloud中实现它。文本阅读，迭代和统计词频代码正在完美地工作，

浏览 21提问于2020-06-13得票数 0

2回答

如何在一个目录下的所有文件上运行脚本？

python、directory

我有一个脚本，它执行一些基本的文本清理和标记化，然后计算和排序词频。我能够让脚本在单个文件上工作，但我需要在整个目录上实现它的帮助。因此，简而言之，我想使用这段代码来统计整个目录中的全局词频(而不是返回每个文件的单个值)。下面是我的代码： import refrom collections import Counter file = open("german

浏览 15提问于2020-01-09得票数 0

3回答

合成地图:从其他地图获取数据

c++、dictionary、vector、stl

我需要使用map<string,int>从文件中取出出现的单词，然后将它们复制到map<int, vector<string>, cmpDec >中，并按降序打印它们。我尝试将文件中的词频复制到map<string, int>，然后尝试将其复制到map<int, vector<string> >，但没有任何结果map&l

浏览 0提问于2019-01-24得票数 0

2回答

如何统计词汇化列表中的中文词频？

python、tokenize、word-frequency

我使用的是python 2.7。我想统计一下汉语的词频。我如何使用我的标记化列表来做到这一点？我想找出下一步句子的位置。所以，希望我能计算出单词的频率，并给出每个单词在同一时间的起点和终点。我试图计算输入文件中的词频，这与我的标记化没有任何关系。但它也给了我一个错误的结果。对于计数器部分，它向我显示: Counter({u&#x

浏览 3提问于2013-11-05得票数 1

2回答

使用频率计数的前缀搜索

elasticsearch、elasticsearch-6

当我为文本建立索引时，我将每个单词的频率计数存储在数据库中。这很好用，因为所有的搜索都是基于整个单词的，并且所有可能的搜索都是已知的。但现在我想添加前缀搜索(搜索单词的一部分)的选项。我可以使用以下命令从elasticsearch的前缀搜索中获得结果/命中结果：{ &q

浏览 0提问于2018-11-01得票数 3

点击加载更多