问用自定义源训练中文分段器
EN

Stack Overflow用户

提问于 2017-05-12 08:50:27

回答 1查看 108关注 0票数 0

我想用新的数据训练中文片段，我制作了一本字典和一个序列化的树库文本文件。

我的问题是，我不理解或找到关于以下之间的区别的文档：

-sighanCorporaDict数据

和

-trainFile train.txt

有人能帮我解决这个问题吗。我的中文数据集是佛教古籍，很难取代像-sighanCorporaDict这样的资源。

万事如意

安德烈亚斯

stanford-nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-13 00:08:47

这里有培训您自己的中文分段程序的文档：

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDict是一个包含资源的目录，分段程序needs...this应该设置为分段程序发行版中的data目录。

trainFile应该是被正确分割的句子列表(由空格分隔的单词)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43933366

复制

相似问题

问用自定义源训练中文分段器
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用自定义源训练中文分段器EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用自定义源训练中文分段器
EN