文章/答案/技术大牛

发布

社区首页 >问答首页 >我怎样才能训练NLTK的整个宾州树状银行语料库？

问我怎样才能训练NLTK的整个宾州树状银行语料库？
EN

Stack Overflow用户

提问于 2013-06-03 15:36:02

回答 3查看 6.4K关注 0票数 3

我最初使用的是来自NLTK的以下Penn Treebank标记：

POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))

然而，这并不是口头的文本。例如，"hello“在应该是”hello“时不被认为是感叹词。我从这里(标签，为什么“你好”被归类为名词？)读到，如果我想标记口语文本，我将“需要对整个宾州树银行的标记者进行培训，其中包括大约300万单词的英语口语”。我现在面临的问题是，如何才能做到这一点？我来过这里(宾州树银行项目)，但在上面找不到任何东西。

如果整个宾州树银行的培训太难了，还有什么可供选择的呢？我正在考虑布朗语料库，然而POS标签是不同的，这使我不得不重写程序的其他部分。

python

nlp

nltk

corpus

tagged-corpus

回答 3

Stack Overflow用户

发布于 2013-10-09 05:56:18

不幸的是，宾州树状银行只能通过语言数据联盟收取高额费用。如果你的需求是非商业的，你可能会找到一个学者谁可以允许你访问它。

或者，您可以通过在其他数据(新闻文章、布朗、维基百科等)上运行诸如ClearNLP工具或斯坦福CoreNLP工具等现有POS taggers来创建自己的银本位(而不是金本位)数据。然后，您可以使用这些标记的数据并训练NLTK taggers。当然，如果您需要更好地面向语音的数据，您可能需要查看总机语料库。看起来有一个带有POS和句法注释的版本可以通过Creative获得。

票数 3

Stack Overflow用户

发布于 2014-05-12 15:21:58

你可以考虑一下美国国家语料库。虽然不是所有的都是免费的，但一个实质性的子集是(大约1,400万字)。该部分被称为"OANC“("O”表示"Open")。它的标签上有宾州树状银行POS标签。

它还包括较高层次的注释，如段落、句子、名词和动词“块”，您可能需要，也可能不需要，但当然可以忽略。

见http://www.anc.org/。

票数 3

Stack Overflow用户

发布于 2015-06-19 07:48:21

NLTK中的宾州树状银行语料库只是真正的宾州树状银行的一个例子，参见银行

该示例只包含3000+语句，而NLTK中的棕色语料库包含超过50,000。除非你能访问整个PTB，否则最好使用其他的语料库。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16900503

复制

相似问题

问我怎样才能训练NLTK的整个宾州树状银行语料库？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我怎样才能训练NLTK的整个宾州树状银行语料库？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我怎样才能训练NLTK的整个宾州树状银行语料库？
EN