腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
R
中
按
频率
排列
文档
术语
矩阵
中
的
单词
、
很抱歉有新
的
问题,但我是文本挖掘
的
新手,需要一些建议。现在,
在
经历了content_transformer
的
长期折磨之后,我有了干净
的
语料库来回答下一个问题例如,我需要这样
的
格式x 0,5% of all words in the datasetz 0,3% 那么这里总
频率</em
浏览 2
提问于2017-02-10
得票数 0
3
回答
文本挖掘:获取句子-
术语
矩阵
、
我目前
在
寻找任何与使用文本挖掘
在
R
中
创建句子
术语
矩阵
相关
的
内容时遇到了麻烦。我只使用了一个excel文件,其中我只对文本挖掘感兴趣。我想创建一个行(句子)-
术语
矩阵
。我想创建一个
矩阵
,告诉我每行(句子)
中
单词
的
频率
。 我想创建一个由1和0组成
的
<em
浏览 0
提问于2017-10-24
得票数 0
1
回答
从
术语
文档
矩阵
关联
、
、
、
除了
在
r
中使用findAssoc()之外,有没有一种方法可以从
术语
文档
矩阵
中找到相关
的
单词
。我
的
目标是找到所有具有确定
频率
的
单词
(假设我想找到
频率
大于200
的
所有
单词
),然后找到与这些
单词
一起出现
的
单词
。
浏览 2
提问于2016-08-17
得票数 1
2
回答
我可以获得Word2Vec和Doc2Vec
矩阵
来计算余弦相似度吗?
、
、
、
我正在处理文本数据,目前我已经将我
的
数据放入
术语
文档
矩阵
中
,并计算出TF,
术语
频率
和TF-IDF,
术语
频率
与
文档
频率
相反。从这里看,我
的
矩阵
如下所示:行名=
单词
填充了他们
的
TF和TF-IDF分数。
在
我目前
的
大部分分析
中
,我一直
在</
浏览 3
提问于2019-07-11
得票数 0
1
回答
查找语料库
中
单个
文档
的
特定
单词
频率
-
R
,TermDocumentMatrix,TM
、
、
、
、
对于我正在从事
的
一个研究项目,我已经将pdf
文档
读入
R
,创建了一个语料库和一个TermDocumentMatrix。我想要检查语料库
中
每个
文档
中
特定
单词
的
出现
频率
。下面的代码给了我想要
的
矩阵
类型,以及
文档
中
单词
的
频率
,但显然它只提供高频
术语
,而不是特定
的
术语
浏览 20
提问于2020-07-08
得票数 0
回答已采纳
1
回答
从字典创建
文档
-
术语
矩阵
、
、
、
我正在尝试预处理一个文本文件,其中每一行都是一个
文档
的
二元文法
单词
,以及它们
在
该
文档
中
的
出现
频率
。下面是每行
的
一个示例:我设法从整个语料库
中
创建了字典。现在我想逐行阅读语料库,并拥有字典,创建
文档
-
术语
矩阵
,以便
矩阵
中
的
每个元素(i,j)将
浏览 0
提问于2012-06-05
得票数 0
回答已采纳
1
回答
如何使用tm从
R
中
的
DocumentTermMatrix中选择命名列
、
我编写了代码,使用“tm”包在
R
中生成
文档
术语
矩阵
。 现在,我必须只为选定
的
命名列选择
矩阵
中
的
频率
值。因此,我想根据一个
术语
列表来子集这个
矩阵
。如果任何
术语
(如
术语
= c('medium‘、'high’、‘low’)
在
文档
术语
矩阵
中
作为列出现,我只希望这些
浏览 2
提问于2015-03-30
得票数 1
回答已采纳
1
回答
来自多个文件
的
Python
矩阵
、
、
、
如何将多个TXT文件
中
的
逐行
频率
分布转换为一个
矩阵
?每个文件具有完全相同
的
结构,因为所有的
单词
/
术语
/短语都是按照相同
的
顺序
排列
的
,并且包含在每个文件
中
。每个文件
的
唯一是文件名、发布日期和由":“之后
的
数字给出
的
单词
/
术语
/短语
的
相应
频
浏览 2
提问于2015-02-11
得票数 1
回答已采纳
1
回答
如何从已有的文本聚类中提取主题?
、
、
、
我
在
一个文本语料库上执行了硬聚类(使用tf-idf权重),并获得了~= 200聚类。如果我想获取每个集群
的
topic,我该怎么做?我已经尝试
在
原始文本语料库(预聚类)上使用LDA,并获得了许多主题,但是我不确定如何将这些主题映射到我现有的每个聚类上。有没有其他方法可以推荐LDA,或者LDA是正确
的
方法,我该如何继续呢?在线材料只展示了如何将lda主题映射到
文档
句子上,而不是预先存在
的
聚类。如果我这样做,并根据它们分配
的
主题对这些句子进行分割,我将得到与原始聚类不同<em
浏览 38
提问于2019-12-16
得票数 1
回答已采纳
1
回答
在
创建TermDocument
矩阵
后,无法
在
中看到单个数字/字母作为
术语
、
、
、
我
在
R
中使用了TermDocument
矩阵
,
文档
(字符串)也包括单字母
单词
。使用TermDocument
矩阵
后,
术语
不包括那些单字母
单词
,请建议我应该包括哪个控件作为输入参数,以便在
术语
文档
矩阵
中
包括单字母
单词
。
浏览 11
提问于2017-03-12
得票数 1
回答已采纳
1
回答
当文本
中
的
单词
不经常重复时,如何为文本分类准备特征向量?
、
、
、
、
但是,我
的
文本
中
的
所有
单词
都是稀疏
的
,即每个
单词
相对于所有
文档
的
频率
都很低。话不常重复。由于对于分类器
的
训练,我认为用
频率
加权
的
文档
术语
矩阵
是不合适
的
。你能给我建议一下我需要使用
的
其他方法吗? 谢谢
浏览 2
提问于2016-03-21
得票数 0
回答已采纳
1
回答
nlp多标签分类tf vs tfidf
、
、
、
、
我有大量
的
文档
,这些
文档
应该分为29个类别。我解决这个问题
的
方法是,
在
清理文本、停止
单词
删除、标记化等之后,执行以下操作: 为了创建特征
矩阵
,我查看了每个
文档
中
术语
的
频率
分布,然后创建了这些
术语
的
表(其中删除了重复
的
术语
),然后计算了每个
单词
在其相应文本
中
的
浏览 29
提问于2019-02-12
得票数 4
回答已采纳
1
回答
tm
R
包
中
到DocumentTermMatrix
的
词频表
、
、
、
我正在使用
R
中
的
tm包进行一些文本挖掘。我有一个
术语
频率
矩阵
,其中每一行都是
文档
,每一列都是一个
单词
,每个单元格都是
单词
的
频率
。我正在尝试将其转换为DocumentTermTermMatrix对象。我似乎找不到处理这个问题
的
函数。看起来资料来源通常是文件。我尝试过as.DocumentTermTermMatrix(),但它要求使用一个参数“加权”,并给出以下错误: .TermDo
浏览 1
提问于2015-10-17
得票数 1
回答已采纳
1
回答
将数据转换为
术语
-
文档
-
矩阵
、
、
我目前正在学习如何绕过
R
,我被以下问题困扰着:word freq1 freq2 this它显示了
单词
在
文本1 (freq1)和文本2 (freq2)中使用
的
频率
。是否有可能将其转换为
术语
文档
矩阵
?我需要它是一个
术语
文档
矩阵
来应用以下功能co
浏览 0
提问于2019-01-23
得票数 0
回答已采纳
1
回答
列表
中
单词
的
二进制分类器
、
、
我使用OCR从一些瑞典文
的
程式化
文档
中提取了文本。现在我要将数据正规化并提取城市名称。由于OCR工作不完美,名字有时拼错了,出现在文本
中
的
半随机位置。因此regex不起作用。这是一个很好
的
过程/有可能将文本转换成一袋袋
的
单词
,并训练出一种将
单词
二进制位为城市而不是城市
的
算法?这是一个好
的
程序,还是我应该使用另一种方法?
浏览 3
提问于2020-02-17
得票数 0
回答已采纳
2
回答
在
R
中
绘制网格
中
的
单词
云
、
、
我正在使用一个wordcloud2包来创建
单词
云,但似乎找不到一种在网格
中
绘制它们
的
方法。我已经尝试过grid.arrange,但它产生了一个错误,并且不允许我绘制云图?以下是我
的
代码w1 <- wordcloud2(w_virgin, size = 0.8, shape = 'circle',
浏览 6
提问于2018-03-29
得票数 1
1
回答
R
中文本
的
多类分类
、
、
、
、
模型
的
准确度为75 %。有6个标签,但是
在
6个类别
中
,只有3个是分类
的
,其余
的
不是分类
的
。如果有人能告诉我出了什么问题,我会非常感激
的
。 停止和转换为更低
的
情况。 构建
文档
术语
矩阵
(dtm)。
浏览 2
提问于2018-01-03
得票数 2
1
回答
lucene是如何构建VSM
的
?
、
、
、
、
我理解了VSM,TFIDF和余弦相似的概念,但是,
在
阅读lucene网站之后,我仍然对lucene如何构建VSM和计算每个查询
的
相似度感到困惑。据我所知,VSM是一个
矩阵
,每个
术语
的
TFIDF值都被填充。当我尝试从一组
文档
构建VSM时,使用这个工具花了很长时间--这实际上与编码无关,因为直观地构建一个包含大量数据
的
VSM
矩阵
很费时,但对于lucene来说似乎并非如此。另外,使用预先构建
的
VSM,查找最相似的
文档
(基本
浏览 7
提问于2014-02-14
得票数 1
回答已采纳
1
回答
如何计算
术语
文档
矩阵
?
、
、
、
我知道,
术语
文档
矩阵
是一个数学
矩阵
,它描述了
在
一组
文档
中出现
术语
的
频率
。
在
文档
项
矩阵
中
,行对应于集合
中
的
文档
,列对应于
术语
。我正在使用sklearn
的
CountVectorizer从字符串(文本文件)中提取特性,以简化我
的
任务。下面的代码根据返回一个
浏览 0
提问于2017-04-01
得票数 4
回答已采纳
1
回答
如何使用Scikit学习
在
语料库
中
获取
单词
/
术语
频率
?
、
我有一个
文档
的
语料库,我想提取每个
文档
中
的
单词
频率
。我可以使用CountVectorizer()来获取每个
文档
的
术语
计数,我也可以使用TfidfVectorizer()获取
术语
频率
--反向
文档
频率
,但这两种方法似乎都不能单独给出
术语
频率
。我如何获得
术语
频率
? 这个似乎问我<e
浏览 4
提问于2021-06-08
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
整数数组 nums 按升序排列,数组中的值 互不相同。在传递给函数之前,nums 在预
短语挖掘与流行度、一致性及信息度评估:基于文本挖掘与词频统计|附数据代码
NLP中关键字提取方法总结和概述
机器学习-话题模型
实例教程:如何用自然语言处理来预测垃圾邮件?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券