我正在尝试将命令--token-regex '[\p{L}\p{M}]+',与用于导入文本的常用命令一起使用,以便mallet可以读取德语文本。无错误-显示消息并创建新文件。然而,它的规模却小得令人怀疑。然后,使用train-topics运行主题模型,将显示以下错误消息:
3 5
4 5
5 5
6 5
7 5
8 5
9 5
Infinite value after topic 0 0
<350> LL/token: ´┐¢
Infinite value after topic 0 0
<360> LL/token: ´┐¢
Infinite value after topic 0 0
<370> LL/token: ´┐¢
Infinite value after topic 0 0
<380> LL/token: ´┐¢
Infinite value after topic 0 0
<390> LL/token: ´┐¢我已经尝试使用不同的标记正则表达式命令修复这个问题几个小时了,但似乎没有什么效果,任何帮助都会非常感谢。
发布于 2015-03-26 16:47:19
如果您使用的是Windows,请尝试执行以下操作:
--token-regex "[\p{L}\p{M}]+"What does single quote do in windows batch files?:你可以在这里找到关于“cmd.exe中的单引号与双引号”的讨论
https://stackoverflow.com/questions/26605449
复制相似问题