首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用自定义源训练中文分段器

用自定义源训练中文分段器
EN

Stack Overflow用户
提问于 2017-05-12 08:50:27
回答 1查看 108关注 0票数 0

我想用新的数据训练中文片段,我制作了一本字典和一个序列化的树库文本文件。

我的问题是,我不理解或找到关于以下之间的区别的文档:

-sighanCorporaDict数据

-trainFile train.txt

有人能帮我解决这个问题吗。我的中文数据集是佛教古籍,很难取代像-sighanCorporaDict这样的资源。

万事如意

安德烈亚斯

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-13 00:08:47

这里有培训您自己的中文分段程序的文档:

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDict是一个包含资源的目录,分段程序needs...this应该设置为分段程序发行版中的data目录。

trainFile应该是被正确分割的句子列表(由空格分隔的单词)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43933366

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档