腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何消除主题建模噪声?
、
、
、
这些词具有很高的词频,但通过使用LDA以及其他有用的
高频词
,无助于形成主题词。怎样才能消除这种噪音?
浏览 1
提问于2015-04-20
得票数 0
1
回答
如何让wordcloud2显示最
高频词
、
、
词云首先显示频率最高的词,而wordcloud2似乎是从不同频率的桶中采样,因此
高频词
不一定会出现。wordcloud2的一些功能很酷,但是我怎么才能让它显示所有最常用的单词呢?
浏览 3
提问于2017-04-15
得票数 0
2
回答
在matlab中查找阵列中的高频元素
、
、
我需要找到
高频词
,我的问题是:有什么功能,我可以使用吗?或者我应该定义我的功能?
浏览 4
提问于2014-04-13
得票数 2
回答已采纳
1
回答
使用LDA(主题模型):每个主题对单词的分布是相似和“扁平”的。
、
、
、
我使用
python
包,有两个问题: 我想问题可能是由于我的文档:我的文档实际上属于一个特定的类别,例如,它们都是介绍不同网络游戏的文档
浏览 2
提问于2015-02-23
得票数 7
1
回答
返回表返回的最大频率字。
、
此代码返回如下所示的数组:所以我想返回
高频词
浏览 2
提问于2014-04-27
得票数 0
回答已采纳
1
回答
400,000+语料库中独特词的TF-国防军?
、
、
、
我有一个有400,000多个独特单词的语料库。我想为这个语料库建立一个TF-国防军矩阵。我曾尝试在我的笔记本电脑(16 so )和Google上这样做,但由于内存限制,我无法做到这一点。做这件事最好的方法是什么?
浏览 0
提问于2021-09-21
得票数 1
1
回答
ElasticSearch -带截止的常见查询,仅当所有低频词都匹配时才对
高频词
进行评分
尝试使用"“,但不能做一件特别的事情:只有在查询中的所有低频词都匹配的情况下,才能将
高频词
得分添加到总得分中。
浏览 2
提问于2018-10-24
得票数 0
2
回答
如何从数据集中修剪低频和高频单词?
、
、
是否有任何工具可用于从数据集中剪除高频和低频项?
浏览 4
提问于2014-02-01
得票数 0
回答已采纳
1
回答
如何在doc2vec中引入最大词汇量
、
、
、
Doc2vec在创建词汇表时,有可能将单词在文档中的最小出现作为参数min_count包含在词汇表中。怎样才能用某种参数排除经常出现的单词呢?
浏览 1
提问于2019-06-06
得票数 2
回答已采纳
2
回答
如何在Java中定义常量列表?
、
、
当我们想定义一个像pi这样的常量时,我们可以像public static final float pi = 3.14这样做。但是假设我想要一个停用字的列表,它是在扫描一个也发生变化的文件后产生的。我还可以执行“惰性”初始化吗?你会怎么做?
浏览 0
提问于2013-03-31
得票数 2
1
回答
Mallet中的一致性和诊断文件
、
、
在Mallet中,我们可以获得一个诊断文件,包括测量每个主题的一致性。在Gensim中,我们对每组主题有一个总分,对每个主题有一个单独的分数()。我有两个问题:2-如果我们想使用Mallet诊断文件中的一致性分数来衡量整体分数,我们是否可以只测量一致性分数的平均值?
浏览 5
提问于2021-02-20
得票数 0
1
回答
文本挖掘pdf文件/具有单词频率的问题
、
、
、
、
我注意到,当我挖掘一些pdf文档时,我得到的
高频词
是phi,these,toe,sigma,gamma等。它能很好地处理一些pdf文档,但我得到的是一些随机的希腊字母。这就是字符编码的问题吗?
浏览 2
提问于2015-09-09
得票数 3
回答已采纳
2
回答
建议“作者身份识别”的步骤?
、
、
我有一个项目,我想确定给定文本的作者,博客如何为特定的作者创建训练数据和语料库?
浏览 0
提问于2012-09-20
得票数 0
2
回答
文档函数的相似性
、
、
、
、
我试图为文档的余弦距离和欧几里德距离创建矩阵。不太确定我会怎么处理这个问题。如有任何建议,将不胜感激。谢谢。下面是启动我的代码。
浏览 5
提问于2020-05-21
得票数 1
1
回答
生成包含R中给定术语的DocumentTermMatix
、
、
、
我正在语料库上使用tm生成一个DocumentTermMatrix,只使用出现频率相当高的术语。(ie MinDocFrequency=50)如果我使用与第一个语料库相同的方法来生成DTM,我最终会包含或多或少的术语,或者只是包含不同的术语,因为它们与原始语料库的频率不同。感谢任何能给我指明正确方向的人,编辑:我被要求提供一个可重现的示例,所以我在这里粘贴了一些示例代码重新编辑: require(tm)
浏览 0
提问于2013-03-24
得票数 2
回答已采纳
1
回答
python
map/lambda和ascii错误
、
、
、
、
我正在尝试收集下载的实时tweet (json格式)中"text“标签中的所有字符串,这样我就可以对所有tweet进行标记化并统计
高频词
。qv3oScGA1U", "in_reply_to_status_id": null, 下面是我的代码(
Python
浏览 0
提问于2015-10-30
得票数 0
3
回答
在Sphinx中有没有什么特性可以处理像"the“这样的停用词?
、
、
、
、
目前我正在使用the进行酒店搜索。我有一个叫“曼哈顿俱乐部”的东西。当我在“曼哈顿俱乐部”上搜索时,我没有得到任何结果。这是因为默认的:all选项意味着所有单词都必须匹配。我认为提高相关性的唯一方法是删除搜索字符串中的所有停用词。我想知道Sphinx (或Ruby)是否有删除停用词的功能?
浏览 2
提问于2011-12-02
得票数 0
回答已采纳
12
回答
如何在内存不足的环境中找到书中的
高频词
?
、
最近,在一次技术面试中,我被要求编写一个程序来查找教科书中出现频率最高的单词(出现次数最多的单词)。程序的设计方式应该是,以最小的内存处理整个课本。性能不是问题。我可以编程来找到单词的频率,但它消耗了大量的内存。-Snehal
浏览 13
提问于2009-04-12
得票数 5
回答已采纳
3
回答
使用训练好的BERT模型和数据预处理
、
、
当使用来自pytorch的预训练BERT嵌入(然后进行微调)时,是否应该像在任何标准NLP任务中一样对输入到模型中的文本数据进行预处理?
浏览 3
提问于2020-09-20
得票数 4
1
回答
从列表中获取中频单词,并在
python
中通过网络抓取Indo Wordnet获得它们的同义词
、
我在
Python
方面非常新手,对于一个项目,我需要使用一个单词列表语料库,它已经包含了单词的频率,并且必须得到中间频率的单词。此特定语料库不包含每个列的标题。我想要做的是得到
高频词
和低频词,并把它们去掉。我试过这段代码,但失败了。list1 =open(‘C:\
Python
27 27\bengali_wordlist_ful.txt’,'r').read() >>> counts = Counter(list1
浏览 2
提问于2014-04-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python程序员利用程序整理出的Python英语高频词汇表
区块链高频词汇(上)
我们用程序整理出了一份Python英语高频词汇表,拿走不谢!
东博会:创新成为高频词!
区块链成海南方案高频词
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券