nltk大数据分词 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

使用NLTK为中文运行StanfordPOSTagger时的意外格式

python、python-3.x、nlp、nltk、stanford-nlp

我安装了Python3.6.0，NLTK3.2.4，并下载了Stanford标签3.8.0。#!/usr/bin/env python3 print(st.tag('这是斯坦福中文分词器测试'.split()))[('

浏览 6提问于2017-08-07得票数 2

回答已采纳

2回答

python 3.5 nltk Stanford segmenter windows 10

nltk、stanford-nlp

我已经按照官方NLTK wiki的指示设置了环境变量。在我的第一个示例中，我遇到了以下错误。代码如下：datapath = "D:/Coding/stanford-segmenter/"res = segmenter.segme

浏览 16提问于2017-06-28得票数 0

回答已采纳

1回答

pandas中的Lemmatize标记化列

pandas、nltk、lemmatization

我有： import nltklemmatizer =以及如何避免分词化的问题

浏览 44提问于2020-01-03得票数 1

回答已采纳

2回答

NLP -句子切分

machine-learning、nlp

我知道在NLTK中也有同样的标记器可用。但我想使用机器学习算法建立自己的句子分词系统，比如决策树。但是我不能为它收集训练数据。数据应该是怎样的。既然我想首先尝试使用监督学习，那么它应该如何标记。是否有已有的样本数据？任何帮助都将是有用的。我在网上搜索了将近一个星期，现在也发了同样的信息寻求帮助。提前谢谢。

浏览 0提问于2017-05-24得票数 0

2回答

使用nltk和wordnet对复数名词进行词汇化

python、nltk、wordnet、lemmatization

我想使用下面的命令来描述词形from nltk.stem.wordnet import WordNetLemmatizerfrom nltk.corpus import wordnetPOS = pos_tag(text) #maps pos tag so lemmatizer unde

浏览 2提问于2015-06-24得票数 3

1回答

NLTK斯坦福分部，如何设置CLASSPATH

java、python、classpath、nltk、stanford-nlp

我正在尝试使用NLTK标记包中的Segementer位。然而，我遇到的问题只是尝试使用基本的测试集。运行以下命令：from nltk.tokenize.stanford_segmenter import StanfordSegmenterseg.default_config('zh')print(seg.segment(sent))

浏览 8提问于2017-10-13得票数 2

回答已采纳

4回答

使用NLTK和WordNet；如何将简单时态动词转换为现在、过去或过去分词形式？

python、nlp、nltk、wordnet

使用NLTK和，我如何将简单时态动词转换成现在、过去或过去分词形式？我想写一个函数，它会给我一个预期形式的动词，如下。

浏览 8提问于2010-09-20得票数 45

回答已采纳

1回答

在哪里可以找到文件`slf4j-api.jar‘

python、jar、nltk、stanford-nlp

我正在尝试使用NLTK和Stanford Segmenter相结合的方法进行中文分词，但在一开始就卡住了。我不知道在哪里可以找到文件slf4j-api.jar。我不熟悉JAVA。

浏览 1提问于2017-05-31得票数 0

1回答

Python命名实体识别查找特定实体

machine-learning、nlp、deep-learning、google-cloud-platform、nltk

我目前有一个关于NLP的项目，我尝试使用NLTK来识别一个人的名字。但是，这个问题比仅仅找到词性问题更具挑战性。{ "type": "PERSON",} 我已经尝试了NLTK的部分词性，也是谷歌云自然语言API我是否需要训练自己的数据或语料库才能发现“律师”。我有数千份法庭文件。

浏览 2提问于2018-01-24得票数 0

回答已采纳

1回答

Python KeyError

python、nltk、wordnet、keyerror

我用这样的字符串调用以下方法：def lemmatise(word, pos=NOUN): File "C:\Users\Bebop\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk_morphy(word, pos) File "C:\Users\Bebop\AppData\Local\P

浏览 1提问于2017-01-06得票数 0

1回答

如何在(python)中解析树岸？

parsing、nltk

我有几个.tree文件，每个文件包含多个树，我尝试以最简单的方式解析这些文件。当我用我在解析时遇到了错误，因为有时行包含两棵树，问题是如何在分隔的行中分离树？是否有有效的解决办法来解决这个问题？

浏览 1提问于2017-04-15得票数 1

回答已采纳

1回答

我已经训练了一种不寻常的语言(维吾尔语)的部分词性标记，使用斯坦福POS标记和一些自我收集的培训数据。我一直在使用NLTK的nltk.tag.stanford.POSTagger接口在Python中标记单个句子。', u'PUNCT')]] 我想做一个十倍交叉验证，以获得更好的准确性，这个标签，也就是说，使用我的每十分之一完整的培训数据作为测试数据的标记者在其他九分之一的数据。在Python中，用十种方式分割数据集是没有问

浏览 6提问于2015-10-23得票数 1

回答已采纳

1回答

需要在NLTK和Python中设置分类语料库阅读器，语料库文本在一个文件中，每行一个文本

python-2.7、text、nltk、corpus、categorization

我越来越熟悉雅各布·珀金斯的书"Python text Processing with NLTK2.0 Cookbook“中的NLTK和文本分类。我的文件中的每一行(一段文本-领域标题、描述、关键字的组合)，都是特征提取的主题:分词化等，以使其成为机器学习算法的实例。我有两个这样的文件，其中包含所有正面和负面的内容。我之前尝试过其他解决方案，比如scikit，最后选择了NLTK，希望从一个更容易的点开始。

浏览 1提问于2014-12-18得票数 3

2回答

Maxent POS标签表

python、nlp、nltk

我使用maxent part of speech tagger对词性标记使用nltk.pos_tag。我需要一张所有可用标签的表格。我的最终目标是从文本中仅提取副词和形容词。

浏览 3提问于2011-11-18得票数 2

回答已采纳

3回答

Python练习:第5章

python、nltk、tagging

伙计们，我开始按照NLTK团队的官方书学习NLTK。我在第5章--“标记”--我无法解析PDF版本第186页的摘录：wsj = nltk.corpus.treebank.tagged_words(simplify_tags=True) File "<stdin>

浏览 14提问于2013-04-30得票数 1

回答已采纳

3回答

Python中用于内容分类的Orange vs NLTK

python、machine-learning、nltk、naivebayes、orange

我们应该去橙色还是NLTK？

浏览 3提问于2011-01-25得票数 11

回答已采纳

3回答

解析文本以获得专有名词(名称和组织)- python

python、nltk

我正试图从很小的文本块(如sms )中提取专有名词(如名称和组织名称)，nltk 中可用的基本解析器能够得到这些名词，但问题是当我们得到专有名词而不是时，从大写字母开始，像sumit这样的名称不能被识别为专有名词

浏览 8提问于2013-10-21得票数 10

回答已采纳

3回答

python的慢性(Ruby NLP日期/时间解析器)？

chronic

有没有人知道像chronic这样的用于python的库？

浏览 4提问于2009-04-05得票数 4

回答已采纳

2回答

为什么NLTK错误-标记引用在句尾？

python、nlp、nltk、tokenize

print str(sindex)+": "+sentence0: A problem.2: "为什么NLTK

浏览 3提问于2013-09-22得票数 0

回答已采纳

1回答

在nltk中，用于实体识别的标记映射是什么？

nltk、named-entity-recognition

当使用NLTK进行实体识别时，就会得到一个带有映射到标记的单词的Tree (例如。Mark -> NNP，first -> JJ，.)乍一看，还不清楚所有的标记代表什么，而且我无法在NLTK文档中找到关于这些标记的任何文档。>>> from nltk import word_tokenize, pos_tag, ne_chunk >>> sentence = "Mark and John are the first to

浏览 0提问于2017-12-26得票数 3

回答已采纳

点击加载更多