腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
尝试
在
R
中
创建
文档
术语
矩阵
时
出错
、
我有以下代码,但在
尝试
创建
文档
术语
矩阵
时
出现错误:(最初,我将数据放在csv文件
中
,只有一列,并使用read.csv,但为了便于复制,我在下面
创建
了一个数据框)TEXTS<-
浏览 19
提问于2016-08-03
得票数 0
1
回答
在
R
中
构造一个项-项共现
矩阵
?
、
、
我想从这个语料库
创建
一个
术语
-
术语
共现
矩阵
。但是我想使用滑动窗口的概念(一个固定大小的窗口)。我将在
R
环境中使用此
矩阵
(作为文本
矩阵
格式),因此该
矩阵
必须为
R
格式或可转换为
R
格式。
浏览 0
提问于2015-04-12
得票数 1
1
回答
创建
双文法的
术语
文档
矩阵
?
、
、
、
、
我能够
创建
TDM和DTM,并且能够使用TDF和IDF执行我的分析。但是我们能为
R
中
的Bi
创建
一个
术语
文档
矩阵
或
文档
术语
矩阵
吗?我知道
在
Mahout
中
也有类似的功能,但我正在寻找一种
在
R
中
这样做的方法?
浏览 1
提问于2014-05-14
得票数 0
1
回答
如何使用tm从
R
中
的DocumentTermMatrix中选择命名列
、
我编写了代码,使用“tm”包在
R
中生成
文档
术语
矩阵
。 现在,我必须只为选定的命名列选择
矩阵
中
的频率值。因此,我想根据一个
术语
列表来子集这个
矩阵
。如果任何
术语
(如
术语
= c('medium‘、'high’、‘low’)
在
文档
术语
矩阵
中
作为列出现,我只希望这些列出现在输出
矩阵
中
浏览 2
提问于2015-03-30
得票数 1
回答已采纳
2
回答
使用
R
-lsa包计算语义空间中
文档
之间的余弦相似度
、
、
、
、
我正在
尝试
使用
R
语言对类似的
文档
进行聚类。作为第一步,我为我的
文档
集计算
术语
-
文档
矩阵
。然后,为之前
创建
的
术语
-
文档
矩阵
创建
潜在语义空间。我决定在实验中使用LSA,因为仅使用
术语
文档
矩阵
进行聚类的结果非常糟糕。是否可以使用
创建
的LSA空间构建相异
矩阵
(使用余弦度量)?我需要这样做,因为我使用的
浏览 3
提问于2013-03-06
得票数 2
5
回答
tm包错误“无法将DocumentTermMatrix转换为正常
矩阵
,因为向量太大”
、
我已经
创建
了一个包含1859个
文档
(行)和25722个
文档
(列)的DocumentTermMatrix。为了对这个
矩阵
进行进一步的计算,我需要将它转换成一个常规的
矩阵
。allozieren # cannot allocate vector of size 364.8 MB5502000 bytes 由于某些原因,每当将对象转换为常规
矩阵
时
或者,有没有
在
DocumentTermMatrix上执行常规
矩
浏览 1
提问于2011-09-12
得票数 5
1
回答
DTM
矩阵
中
的词丢失
、
、
、
在
R
中
创建
文档
术语
矩阵
时
,我无法提取一些重要的单词。我甚至
尝试
删除语料库上的所有过滤器,即在原始文件上
尝试
dtm,但我仍然无法捕获它。请帮帮忙。在这里,我无法
在
我的DTM
矩阵
中
捕获DC。
浏览 1
提问于2018-03-23
得票数 0
1
回答
R
中
的余弦相似
矩阵
、
、
我有一个
文档
术语
矩阵
"mydtm“,它是我使用'tm‘包在
R
中
创建
的。我试图描述dtm/语料库
中
包含的557个
文档
中
的每个
文档
之间的相似性。我一直
在
尝试
使用余弦相似度
矩阵
: mydtm_cosine <- dist(mydtm_matrix,method = " cosine ",diag = F,upper
浏览 23
提问于2021-06-03
得票数 0
1
回答
R
和数据挖掘没有足够的内存?
、
我使用
R
进行数据挖掘,问题是我将它与elasticsearch连接起来,并检索莎士比亚完整作品的数据集。在此之后,我想做一个tf_idf
矩阵
,但显然我不能这样做,因为它占用了太多内存(我有4GB内存),下面是我的代码:myCorpus <- Corpus(VectorSource数据集的
R
值太高了吗?
浏览 6
提问于2015-07-09
得票数 1
回答已采纳
3
回答
文本挖掘:获取句子-
术语
矩阵
、
我目前
在
寻找任何与使用文本挖掘
在
R
中
创建
句子
术语
矩阵
相关的内容
时
遇到了麻烦。我只使用了一个excel文件,其中我只对文本挖掘感兴趣。我想
创建
一个行(句子)-
术语
矩阵
。我想
创建
一个
矩阵
,告诉我每行(句子)
中
单词的频率。 我想
创建
一个由1和0组成的
矩阵
,
浏览 0
提问于2017-10-24
得票数 0
1
回答
在
R
中比较
文档
术语
矩阵
中
的
文档
术语
、
、
、
、
我需要通过比较
文档
的
术语
来构建相似度
矩阵
。例如,如果Document1和Document2有两个相同的
术语
,我需要在我的m1,2的相似度
矩阵
中
写一个2。我的相似度
矩阵
现在是这样的:[1,] 0 NA NA NA NA NA[7,] 0 0 0 0 0 0 0 NA NA [8,] 0
浏览 5
提问于2013-01-15
得票数 1
回答已采纳
1
回答
在
创建
TermDocument
矩阵
后,无法
在
中看到单个数字/字母作为
术语
、
、
、
我
在
R
中使用了TermDocument
矩阵
,
文档
(字符串)也包括单字母单词。使用TermDocument
矩阵
后,
术语
不包括那些单字母单词,请建议我应该包括哪个控件作为输入参数,以便在
术语
文档
矩阵
中
包括单字母单词。
浏览 11
提问于2017-03-12
得票数 1
回答已采纳
1
回答
如何将PCA应用于
R
中
的
术语
文档
矩阵
?
、
、
如何将PCA应用于
R
中
的
术语
文档
矩阵
? 我有一个
文档
,我
在
术语
文档
矩阵
上应用了PCA,但所有的pc组件都是零。我想知道这是否是执行PCA分析的正确方法。
浏览 0
提问于2016-05-03
得票数 0
1
回答
如何在
R
中找到
文档
频率?
、
我需要帮助
在
R
中
创建
一个程序来查找:-The索引器处理的
文档
的最小数量是4。-Extract每个
文档
中
的所有
术语
构建
矩阵
包含每个
文档
中
的
术语
频率(要打印)。-print每个
术语
和它的DF (
文档
频率)analyze <- function(fi
浏览 0
提问于2019-04-21
得票数 0
2
回答
将TermDocumentMatrix导入
R
、
、
我正在做
R
的tm包
中
的一个定性分析项目。我已经建立了一个语料库,并
创建
了一个
术语
文档
矩阵
和长篇大论简而言之,我需要编辑我的
术语
文档
矩阵
,并合并它的一些行。为此,我使用以下命令将其导出到
R
之外然后,我将csv文件重新导入到
R
中
,但我正在努力弄清楚如何让
R
将其读取为TermDocumentMatrix或DocumentTermMatrix我<
浏览 16
提问于2016-05-19
得票数 2
1
回答
距离
矩阵
计算在
R
中
耗时太长
、
我
在
R
中有一个
术语
文档
矩阵
(tdm) (从大约16,000个文本的语料库
中
创建
),我正在
尝试
创建
一个距离
矩阵
,但它没有加载,并且我不确定它应该花多长时间(它已经超过20分钟)。我还
尝试
使用
文档
术语
矩阵
格式
创建
距离
矩阵
,但仍然无法加载。有什么我可以做的来加速这个过程吗?对于tdm,行是文本
文档
,
浏览 20
提问于2016-08-06
得票数 0
回答已采纳
2
回答
项-项共现
矩阵
上的K-均值聚类
、
、
、
我从
R
中
的
文档
-
术语
矩阵
导出
术语
-
术语
共现
矩阵
K。我感兴趣的是对逐个关键字的
矩阵
K进行K均值聚类分析。K的维度是8962
术语
×8962
术语
。and cost together, write to df我最初的
文档
-
术语
矩阵
浏览 0
提问于2016-05-03
得票数 0
1
回答
在
R
中
创建
文档
频率
矩阵
、
我试图
在
R
中
创建
一个
文档
频率
矩阵
。我现在有一个dataframe (df_2),它由2列组成: 我一直试图使用tm包
创建
这个dfm。 我
尝试
创建
一个语料库(向量源),然后
尝试
使用
浏览 2
提问于2020-03-21
得票数 0
1
回答
从字典
创建
文档
-
术语
矩阵
、
、
、
我正在
尝试
预处理一个文本文件,其中每一行都是一个
文档
的二元文法单词,以及它们
在
该
文档
中
的出现频率。下面是每行的一个示例:我设法从整个语料库
中
创建
了字典。现在我想逐行阅读语料库,并拥有字典,
创建
文档
-
术语
矩阵
,以便
矩阵
中
的每个元素(i,j)将是
文档
"i“
中</
浏览 0
提问于2012-06-05
得票数 0
回答已采纳
1
回答
如何在Weka
中
更改max属性?
、
、
我使用Weka使用类StringToWordVector.
创建
一个
术语
文档
矩阵
但是,无论输入语料库的大小如何,当我使用
R
tm包
时
,我只能在输出中看到500个
术语
/“num属性”,而相同的语料库正在生成549个
术语
。我
尝试
更改wordsToKeep设置,但这并不影响生成的
术语
总数。在我看来,似乎有一些默认设置,我需要修改,以增加生成的条款。但是,我没有找到这样的配置。
浏览 5
提问于2014-09-05
得票数 0
回答已采纳
点击加载更多
相关
资讯
短语挖掘与流行度、一致性及信息度评估:基于文本挖掘与词频统计|附数据代码
R星连接验证码出错/安装不完整/无法创建令牌等问题解决办法
R语言编程艺术 第1章 快速入门
R开发人员使用Python
尝试访问启动磁盘设置时出错怎么办?保姆级教程!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券