首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我怎样才能训练NLTK的整个宾州树状银行语料库?

我怎样才能训练NLTK的整个宾州树状银行语料库?
EN

Stack Overflow用户
提问于 2013-06-03 15:36:02
回答 3查看 6.4K关注 0票数 3

我最初使用的是来自NLTK的以下Penn Treebank标记:

代码语言:javascript
运行
复制
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))

然而,这并不是口头的文本。例如,"hello“在应该是”hello“时不被认为是感叹词。我从这里(标签,为什么“你好”被归类为名词?)读到,如果我想标记口语文本,我将“需要对整个宾州树银行的标记者进行培训,其中包括大约300万单词的英语口语”。我现在面临的问题是,如何才能做到这一点?我来过这里(宾州树银行项目),但在上面找不到任何东西。

如果整个宾州树银行的培训太难了,还有什么可供选择的呢?我正在考虑布朗语料库,然而POS标签是不同的,这使我不得不重写程序的其他部分。

EN

回答 3

Stack Overflow用户

发布于 2013-10-09 05:56:18

不幸的是,宾州树状银行只能通过语言数据联盟收取高额费用。如果你的需求是非商业的,你可能会找到一个学者谁可以允许你访问它。

或者,您可以通过在其他数据(新闻文章、布朗、维基百科等)上运行诸如ClearNLP工具斯坦福CoreNLP工具等现有POS taggers来创建自己的银本位(而不是金本位)数据。然后,您可以使用这些标记的数据并训练NLTK taggers。当然,如果您需要更好地面向语音的数据,您可能需要查看总机语料库。看起来有一个带有POS和句法注释的版本可以通过Creative获得。

票数 3
EN

Stack Overflow用户

发布于 2014-05-12 15:21:58

你可以考虑一下美国国家语料库。虽然不是所有的都是免费的,但一个实质性的子集是(大约1,400万字)。该部分被称为"OANC“("O”表示"Open")。它的标签上有宾州树状银行POS标签。

它还包括较高层次的注释,如段落、句子、名词和动词“块”,您可能需要,也可能不需要,但当然可以忽略。

http://www.anc.org/

票数 3
EN

Stack Overflow用户

发布于 2015-06-19 07:48:21

NLTK中的宾州树状银行语料库只是真正的宾州树状银行的一个例子,参见银行

该示例只包含3000+语句,而NLTK中的棕色语料库包含超过50,000。除非你能访问整个PTB,否则最好使用其他的语料库。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16900503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档