python高频词_Python:处理python列表_Python ConnectionRefusedError：[Python 10061] - 腾讯云开发者社区

、、、

这些词具有很高的词频，但通过使用LDA以及其他有用的高频词，无助于形成主题词。怎样才能消除这种噪音？

浏览 1提问于2015-04-20得票数 0

1回答

如何让wordcloud2显示最高频词

、、

词云首先显示频率最高的词，而wordcloud2似乎是从不同频率的桶中采样，因此高频词不一定会出现。wordcloud2的一些功能很酷，但是我怎么才能让它显示所有最常用的单词呢？

浏览 3提问于2017-04-15得票数 0

2回答

在matlab中查找阵列中的高频元素

、、

我需要找到高频词，我的问题是:有什么功能，我可以使用吗？或者我应该定义我的功能？

浏览 4提问于2014-04-13得票数 2

回答已采纳

1回答

使用LDA(主题模型)：每个主题对单词的分布是相似和“扁平”的。

、、、

我使用python包，有两个问题：我想问题可能是由于我的文档:我的文档实际上属于一个特定的类别，例如，它们都是介绍不同网络游戏的文档

浏览 2提问于2015-02-23得票数 7

1回答

返回表返回的最大频率字。

、

此代码返回如下所示的数组：所以我想返回高频词

浏览 2提问于2014-04-27得票数 0

回答已采纳

1回答

400,000+语料库中独特词的TF-国防军？

、、、

我有一个有400,000多个独特单词的语料库。我想为这个语料库建立一个TF-国防军矩阵。我曾尝试在我的笔记本电脑(16 so )和Google上这样做，但由于内存限制，我无法做到这一点。做这件事最好的方法是什么？

浏览 0提问于2021-09-21得票数 1

1回答

ElasticSearch -带截止的常见查询，仅当所有低频词都匹配时才对高频词进行评分

尝试使用"“，但不能做一件特别的事情:只有在查询中的所有低频词都匹配的情况下，才能将高频词得分添加到总得分中。

浏览 2提问于2018-10-24得票数 0

2回答

如何从数据集中修剪低频和高频单词？

、、

是否有任何工具可用于从数据集中剪除高频和低频项？

浏览 4提问于2014-02-01得票数 0

回答已采纳

1回答

如何在doc2vec中引入最大词汇量

、、、

Doc2vec在创建词汇表时，有可能将单词在文档中的最小出现作为参数min_count包含在词汇表中。怎样才能用某种参数排除经常出现的单词呢？

浏览 1提问于2019-06-06得票数 2

回答已采纳

2回答

如何在Java中定义常量列表？

、、

当我们想定义一个像pi这样的常量时，我们可以像public static final float pi = 3.14这样做。但是假设我想要一个停用字的列表，它是在扫描一个也发生变化的文件后产生的。我还可以执行“惰性”初始化吗？你会怎么做？

浏览 0提问于2013-03-31得票数 2

1回答

Mallet中的一致性和诊断文件

、、

在Mallet中，我们可以获得一个诊断文件，包括测量每个主题的一致性。在Gensim中，我们对每组主题有一个总分，对每个主题有一个单独的分数()。我有两个问题：2-如果我们想使用Mallet诊断文件中的一致性分数来衡量整体分数，我们是否可以只测量一致性分数的平均值？

浏览 5提问于2021-02-20得票数 0

1回答

文本挖掘pdf文件/具有单词频率的问题

、、、、

我注意到，当我挖掘一些pdf文档时，我得到的高频词是phi，these，toe，sigma，gamma等。它能很好地处理一些pdf文档，但我得到的是一些随机的希腊字母。这就是字符编码的问题吗？

浏览 2提问于2015-09-09得票数 3

回答已采纳

2回答

建议“作者身份识别”的步骤？

、、

我有一个项目，我想确定给定文本的作者，博客如何为特定的作者创建训练数据和语料库？

浏览 0提问于2012-09-20得票数 0

2回答

文档函数的相似性

、、、、

我试图为文档的余弦距离和欧几里德距离创建矩阵。不太确定我会怎么处理这个问题。如有任何建议，将不胜感激。谢谢。下面是启动我的代码。

浏览 5提问于2020-05-21得票数 1

1回答

我正在语料库上使用tm生成一个DocumentTermMatrix，只使用出现频率相当高的术语。(ie MinDocFrequency=50)如果我使用与第一个语料库相同的方法来生成DTM，我最终会包含或多或少的术语，或者只是包含不同的术语，因为它们与原始语料库的频率不同。感谢任何能给我指明正确方向的人，编辑:我被要求提供一个可重现的示例，所以我在这里粘贴了一些示例代码重新编辑： require(tm)

浏览 0提问于2013-03-24得票数 2

回答已采纳

1回答

python map/lambda和ascii错误

、、、、

我正在尝试收集下载的实时tweet (json格式)中"text“标签中的所有字符串，这样我就可以对所有tweet进行标记化并统计高频词。qv3oScGA1U", "in_reply_to_status_id": null, 下面是我的代码(Python

浏览 0提问于2015-10-30得票数 0

3回答

在Sphinx中有没有什么特性可以处理像"the“这样的停用词？

、、、、

目前我正在使用the进行酒店搜索。我有一个叫“曼哈顿俱乐部”的东西。当我在“曼哈顿俱乐部”上搜索时，我没有得到任何结果。这是因为默认的:all选项意味着所有单词都必须匹配。我认为提高相关性的唯一方法是删除搜索字符串中的所有停用词。我想知道Sphinx (或Ruby)是否有删除停用词的功能？

浏览 2提问于2011-12-02得票数 0

回答已采纳

12回答

如何在内存不足的环境中找到书中的高频词？

、

最近，在一次技术面试中，我被要求编写一个程序来查找教科书中出现频率最高的单词(出现次数最多的单词)。程序的设计方式应该是，以最小的内存处理整个课本。性能不是问题。我可以编程来找到单词的频率，但它消耗了大量的内存。-Snehal

浏览 13提问于2009-04-12得票数 5

回答已采纳

3回答

使用训练好的BERT模型和数据预处理

、、

当使用来自pytorch的预训练BERT嵌入(然后进行微调)时，是否应该像在任何标准NLP任务中一样对输入到模型中的文本数据进行预处理？

浏览 3提问于2020-09-20得票数 4

1回答

从列表中获取中频单词，并在python中通过网络抓取Indo Wordnet获得它们的同义词

、

我在Python方面非常新手，对于一个项目，我需要使用一个单词列表语料库，它已经包含了单词的频率，并且必须得到中间频率的单词。此特定语料库不包含每个列的标题。我想要做的是得到高频词和低频词，并把它们去掉。我试过这段代码，但失败了。list1 =open(‘C：\Python27 27\bengali_wordlist_ful.txt’，'r').read() >>> counts = Counter(list1

浏览 2提问于2014-04-09得票数 0

回答已采纳

点击加载更多