问StringToWordVector Weka输出
EN

Stack Overflow用户

提问于 2019-04-16 05:12:46

回答 1查看 44关注 0票数 0

我有一个包含一组文本句子的arff文件。我想要获得每个句子中每个单词的绝对频率。我使用了StringToWordVector。

这是起始文件

@relation dataset @attribute Text string @date 'I'm a movie lover and this is one of the best museums in which ...

在运行StringToWordVector之后，我得到了这种类型的实例：

@relation dataset1 @attribute word numeric ... {13 2, 19 2, 30 2, 33 1, 53 1, 55 4, 60 1, 61 2, 72 3, 78 1, 89 1, 90 1, 99 1, 106 1,120 1,121 1,123 2,124 5,126 2,136 1,140 1,147 5,148 2,160 1,186 1,198 1,202 1,248 9,253 1, ...}

既然我想跟踪单词，而不是使用数字id，我如何将文本单词与执行stringtowordvector命令后获得的频率关联起来？

nlp

weka

text-mining

回答 1

Stack Overflow用户

发布于 2019-04-16 05:38:39

这个问题在Weka邮件列表上也被问到了：

https://list.waikato.ac.nz/pipermail/wekalist/2019-April/047670.html

StringToWordVector以稀疏格式输出数据，其中第一个值是属性的从0开始的索引，第二个值是实际值：

https://waikato.github.io/weka-wiki/arff_stable/#sparse-arff-files

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55697318

复制

相似问题

问StringToWordVector Weka输出
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StringToWordVector Weka输出EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StringToWordVector Weka输出
EN