统计文本中的词频并创建曲线图

、、、、

我有一个包含40802个基因名称的数据框架列表，还有一个包含14000篇文章信息的数据框架。文章信息包括文章、摘要、日、月、年。我真的很感激任何关于如何做到这一点的

浏览 8提问于2017-08-03得票数 0

3回答

Python词频统计程序

、

我用python创建了一个简单的单词统计程序，它读取一个文本文件，统计词频，并将结果写入另一个文件。问题是，当单词重复时，程序会写入同一单词的初始计数和最终计数。例如，如果单词" hello“重复3次，程序将在输出中写入3个hello实例，如下所示：你好-1你好-3counts ={} counts我是python的新手

浏览 0提问于2014-02-19得票数 1

1回答

cloud.generate_from_frequencies(dictionary) cloud.to_file("wordCloud.png")` 📷 问题是我成功地构建了Python脚本，它迭代通过阿拉伯文本并统计每个单词的频率，但是wordcloud输出的是空的PNG，就像上面的图像一样，我无法解决它，可能它与utf-8编码有关，但我仍然不知道如何在wordcloud中实现它。文本阅读，迭代和统计<em

浏览 21提问于2020-06-13得票数 0

1回答

在Java和Lucene中处理来自RSS提要的大量字符串的最佳实践

、、、

我有这样一种情况:我有一个每小时一次的批处理作业，它必须解析大量的RSS提要，并从每个提要的每个项目中提取标题和描述元素的文本到字符串中，然后Lucene将计算它们的词频for each feed get text from tit

浏览 3提问于2010-12-06得票数 1

1回答

统计文本中的单词频率？

、、

可能重复：实现这一点的最有效的算法方法是什么？

浏览 1提问于2011-01-12得票数 11

3回答

统计R中多个列的词频

、、、

我在R中有一个数据框，它有多个列，其中包含多个单词文本响应，如下所示：studentopportunities university我希望能够计算1a、1b和1c列中单词组合的频率，以及2a、2b和2b组合的单词频率。目前，我正在使用这段代

浏览 2提问于2018-11-16得票数 1

1回答

机器翻译中的字符串相似度有哪些深入的学习方法？

、、、

我对机器翻译感兴趣，更具体地说，我想研究两个字符串之间的相似之处。我想知道是否有深入学习的方法来进行文本特征提取。我已经尝试过著名的统计方法，如余弦相似度、Levenstein距离、词频等。谢谢

浏览 0提问于2018-05-20得票数 0

回答已采纳

5回答

包含值和键的字典的python词频

我是第一次学习python，我知道如何使用词频来计算列表中每个唯一变量的个数，如下所示 else: 然而，我想知道通过使用double for循环，单词频</e

浏览 2提问于2020-02-18得票数 0

2回答

Java Stanford NLP:查找词频？

、、

我使用的是Stanford NLP解析工具包。给定词典中的一个单词，我如何找到它的频率*？或者，给定一个频率等级，我如何确定相应的单词？class ParserDemo { LexicalizedParser lp

浏览 0提问于2009-11-30得票数 2

1回答

从给定文本自动创建标题

、

我正在尝试写一个程序，当一篇文章被给出(通常是摘要)时，它会给出一个合适的标题。有没有可用的标准算法？

浏览 2提问于2011-07-21得票数 1

回答已采纳

2回答

在Lucene索引中修改.tim和.tip文件

、

我有一个具有多个索引的Lucene应用程序，其中相关性评分由于不同索引之间的词频差异而受到影响。我的理解是术语词典(.tim文件)包含“术语统计信息”，比如每个术语的文档频率统计信息。我在想，一种方法可能是修改每个索引(和相关段)的.tim文件，并更新“术语统计”。是否可以用这种方式覆盖或修改.tim和.tip文件？

浏览 1提问于2014-06-25得票数 0

1回答

使用egrep的不带停用词的词频

、、、、

浏览 1提问于2017-10-18得票数 0

2回答

以HBase为数据源计算文档的TF-IDF

、、、

我想要计算存储在HBase中的文档的TF (词频)和IDF (逆文档频率)。你能引导我通过吗？我已经看过Mahout 0.4上的BayesTfIdfDriver了，但我并没有领先一步。

浏览 3提问于2012-06-09得票数 1

2回答

我们可以训练Spacy进行文本摘要吗

、、

Spacy可以训练NER，文本分类。我们可以使用它的功能进行摘要，所以我们可以训练spacy来提高摘要的准确性吗？

浏览 67提问于2021-09-22得票数 0

1回答

Python:单词列表的NLTK概率

、

我一直在统计语料库中的单词列表，并看到单词列表的概率。提前谢谢你！

浏览 1提问于2012-10-01得票数 0

回答已采纳

1回答

使用R统计词频的文本挖掘

、、

我想计算“不确定性”一词的出现次数，但前提是“经济政策”或“立法”或与政策有关的词语出现在同一文本中。现在，我已经用R编写了一个代码来统计文本中所有单词的频率，但它不能识别统计的单词是否出现在正确的上下文中。你有什么建议如何纠正这个问题吗？

浏览 3提问于2013-12-19得票数 3

1回答

MySQL -长文本域上的词频计数

、、

我有一个MySQL表，其中一个字段包含文本描述(大约5-200个单词)。我想做一些词数统计分析，比如一般的词频统计(每个单词出现的次数)或每个类别的前K个单词。word countplace 2 ...有没有一种方法可以在不涉及编程语言的情况下仅用MySQL完成？

浏览 28提问于2017-07-01得票数 0

回答已采纳

2回答

统计python中的词频

、、

我试图删除标点符号，并计算我的代码工作的words.Part频率，但我的代码似乎不完整。我正在尝试获取{'hello'：2，'hi'：1}等单词的字典。它对hello word有效，但对于Hurray，它给我的输出就像是Hurray！任何关于为什么它会这样做的意见都是值得赞赏的。

浏览 2提问于2019-09-28得票数 0

2回答

如何在一个目录下的所有文件上运行脚本？

、

我有一个脚本，它执行一些基本的文本清理和标记化，然后计算和排序词频。我能够让脚本在单个文件上工作，但我需要在整个目录上实现它的帮助。因此，简而言之，我想使用这段代码来统计整个目录中的全局词频(而不是返回每个文件的单个值)。下面是我的代码： import refrom collections import Counter file = open("german/tes

浏览 15提问于2020-01-09得票数 0

2回答

从Python中的列表中删除句号、逗号、引号

、

我有一个文本文件中的单词频率统计的python代码。程序的问题是它考虑了fullstop，因此改变了计数。为了计算单词，我使用了一个排序的单词列表。

浏览 0提问于2014-02-19得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python词频统计程序

从阿拉伯文本输出的空WordCloud PNG

在Java和Lucene中处理来自RSS提要的大量字符串的最佳实践

统计文本中的单词频率？

统计R中多个列的词频

机器翻译中的字符串相似度有哪些深入的学习方法？

包含值和键的字典的python词频

Java Stanford NLP:查找词频？

从给定文本自动创建标题

在Lucene索引中修改.tim和.tip文件

使用egrep的不带停用词的词频

以HBase为数据源计算文档的TF-IDF

我们可以训练Spacy进行文本摘要吗

Python:单词列表的NLTK概率

使用R统计词频的文本挖掘

MySQL -长文本域上的词频计数

统计python中的词频

如何在一个目录下的所有文件上运行脚本？

从Python中的列表中删除句号、逗号、引号

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐