我想用新的数据训练中文片段,我制作了一本字典和一个序列化的树库文本文件。
我的问题是,我不理解或找到关于以下之间的区别的文档:
-sighanCorporaDict数据
和
-trainFile train.txt
有人能帮我解决这个问题吗。我的中文数据集是佛教古籍,很难取代像-sighanCorporaDict这样的资源。
万事如意
安德烈亚斯
发布于 2017-05-13 00:08:47
这里有培训您自己的中文分段程序的文档:
https://nlp.stanford.edu/software/segmenter-faq.html
sighanCorporaDict
是一个包含资源的目录,分段程序needs...this应该设置为分段程序发行版中的data
目录。
trainFile
应该是被正确分割的句子列表(由空格分隔的单词)。
https://stackoverflow.com/questions/43933366
复制相似问题