如何在sklearn中进行多词标记化？_如何在python中对未标记的数据进行多类分类？_如何在Elasticsearch中根据最大词数对句子进行标记化？ - 腾讯云开发者社区

python、scikit-learn、tokenize

我正在研究sklearn中的分词器，即CountVectorizer和DictVectorizer。我希望在执行TF-IDF之前能够调试我的令牌计数。它需要处理标点符号，但将"New York“识别为单个标记，太好了。尝试应用类似于CountVectorizer的应用，我发现... from sklearn.feature_extraction.text import CountVectorizer vectorizer我如何使用CountVectorizer (并最终在TfIDFVectorizer中<

浏览 12提问于2021-05-04得票数 1

2回答

“短语”词在sklearn/nltk中被忽略

python、python-3.x、scikit-learn、nltk

我有一个过程，就像： import re

浏览 0提问于2018-02-27得票数 2

回答已采纳

1回答

CountVectorizer中的停用词

python、scikit-learn、nlp

我正在使用CountVectorizer对文本进行标记化，并且我想添加我自己的停用词。为什么这个不起作用？“de”这个词不应该出现在最终的印刷品中。from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(ngram_range

浏览 2提问于2017-01-18得票数 3

回答已采纳

1回答

在sklearn中序列化Labelencoder

serialization、encoding、machine-learning、scikit-learn

我有一个巨大的数据集，我有一个列，其中有一些分类数据，我想将其标记为encode。在所有的预处理之后，我可以训练我的模型，并使用sklearn序列化模型。现在我面临一个问题，如果输入预测向量由标签组成，我该如何在这一点上对其进行编码。因为我不想在每次有新的输入预测向量时对模型进行预处理和重新训练。有没有办法在sklearn中序列化labelencoder？解决这个问题的正确方法是什么？

浏览 2提问于2017-03-06得票数 0

1回答

用更少的方式打开多个手册页？

man、less

我注意到，在运行man command1 command2时，行为是:首先对command1的手册页进行格式化并在less中显示，然后在less实例退出(例如通过按q)之后，command2的手册页被格式化并显示在less的一个新实例中。如何在less的同一个实例中显示多个手册页？ less有许多只适用于打开多个文件的特性，如多文件搜索、位置交叉文件“标记”等。

浏览 0提问于2017-10-06得票数 4

回答已采纳

1回答

对照词汇python检查导入文件的词频

python、nltk

我想以向量(.toarray())的形式创建文本文件的词袋表示。我使用的是代码： vectorizer = CountVectorizer(input我有一个文本文件，我对它进行了标记化，并希望将其用作词汇表。该怎么做呢？

浏览 0提问于2015-12-10得票数 0

1回答

elasticsearch多词关键词标记化同义词分析

elasticsearch、synonym

我试图使关键字标记化多词同义词与_analyze API一起工作。然而，API正在返回单单词同义词的预期结果，而不是多词同义词。], } } }现在使用_analyze API进行测试SYNONYM",

浏览 2提问于2014-08-08得票数 8

回答已采纳

1回答

支持标注单词的可搜索数据库

information-management

基本上，它将采取组织程序的形式，如文件存在(例如，皮卡)，您可以在其中对文件进行分组、标记和搜索。但是我不想组织文件，我想组织单词。我需要能够搜索这个数据库的分组词的多参数:字符长度，字包含，组标签，词标签，等等。

浏览 0提问于2016-01-14得票数 4

1回答

你应该干和狐猴吗？

nlp、nltk、stemming、lemmatization

在预处理过程中，我完成了以下步骤：从理

浏览 3提问于2022-02-25得票数 0

回答已采纳

1回答

CRF是否适用于多个名为实体识别的单词？

scikit-learn、nlp、named-entity-recognition

在官方教程中，他们正在使用CoNLL2002语料库，在NLTK，实体用一个单词表示，但在我的问题中，一个实体可以由多个单词(例如:美利坚合众国、迈阿密电影院等)组成。 CRF能处理这个问题吗？

浏览 0提问于2021-03-18得票数 2

回答已采纳

1回答

基于单标签数据集的多标签文本分类

scikit-learn、multilabel-classification

文本文档可以使用多个标签进行标记，那么如何在此数据集上进行多标签分类？我从sklearn上读过很多文档，但我似乎找不到正确的方法在单标签数据集上进行多标签分类。提前感谢您的帮助。import CountVectorizerfrom sklearn.linear_model import SGDClassifierfrom sklearn</

浏览 1提问于2017-06-19得票数 0

1回答

不带标签传播的半监督学习

python、clustering、word2vec、semi-supervised-learning

我正试着用亲切感把一些词聚在一起。利用Word2Vec，用一种普通的无监督聚类方法得到了每个词的向量表示。但在这些词中，我知道其中一些词的分类，例如我知道：UNKNOWN ==> shoes，brown，如示例所示，brown应该被归类为Color，但是shoes和beautiful应该是不同的集群。我如何利用这些信息创建一个半监督的模型，以便对每个单词进行

浏览 0提问于2018-08-07得票数 2

回答已采纳

1回答

为SKLearn文本分类管道生成PMML管道时出错

python、scikit-learn、pipeline、pmml

我正在尝试用Python语言为SKLearn管道生成一个带有sklearn2pmml库的PMML文件。此管道仅由CountVectorizer和SVC模型组成。import make_pmml_pipeline, sklearn2pmml at sklearn.Transformer.encode(Transformer.java:60)

浏览 328提问于2020-09-26得票数 0

1回答

如何找到与特定单词分组的主题和短语(动词/形容词)？

r、text、nlp

我有一个整齐的大型数据集，其中的列包含文本响应(即，在拨款申请中)，行作为申请拨款的单个组织。我正在尝试查找以特定单词分组的主题和短语(例如，"funder"/"funding")。更具体地说，哪些形容词和动词与这些标记组合在一起？因此，“基金”可以与动词如“创建”、“雇用”和形容词短语如“新网站”、“人才”组合在一起。我正在用R做这件事，有没有人有推荐这样做的包或程序？我找到了cleanNLP，但不确定这是不是最方便的包。我需要对所有

浏览 22提问于2019-02-21得票数 1

2回答

科学学习中火花放电logistic回归模型的复制

python、machine-learning、scikit-learn、pyspark

问题：问题--根据它们的默认参数值，吡火花和scikit学习中的逻辑回归模型的默认实现(没有自定义参数集)似乎会产生不同的结果。在我看来，这两种模型实现(在pyspark和scikit中)都不具有相同的参数，所以我不能只是简单地匹配scikit中的参数来适应那些在pyspark中的实现。对于如何在两种模型的默认配置上匹配，有什么解决方案吗？

浏览 3提问于2017-06-18得票数 6

回答已采纳

1回答

在Xcode中使用NLTK

xcode、nltk、wordnet

我需要在xcode中对句子中的单词进行标记化并找到一些同义词。我知道NLTK有一些包可以做到这一点。但是NLTK接口是用python编写的。有人知道如何在xcode中使用NLTK吗？

浏览 2提问于2013-03-25得票数 0

2回答

在keras Tokenizer中使用tf-idf

python、python-3.x、keras、nlp

是否也可以使用标记器基于进行标记化？hydrocolloidsuse 在……里面?也许是的，因为glove也会考虑上下文，这与我过去使用的词袋方法形成了对比。在这里tf-idf是有意义的。

浏览 3提问于2018-09-07得票数 5

1回答

分类:目标有两个以上的类

python、machine-learning、classification

我用classes编码器对这些类进行了编码。唯一的问题是，我相信我以后可能不得不使用Onehotencoding，因为我不再只有0和1，而是0,1,2,3。

浏览 0提问于2019-04-23得票数 0

回答已采纳

2回答

变压器模型文本分类的预处理(BERT变体)

python、nlp、preprocessing、bert、transformer

我记得为了训练一个Word2Vec或手套，我们需要执行广泛的文本清理，比如:标记、删除停止词、删除标点符号、词干或词尾化等等。例如，您可以以快-伯特为例，演示不涉及文本预处理(可能只是一个演示)，但在推理，所有的句子都是在不进行任何清理的情况下通过的： texts = ['I really love the Netflix original标记化的过程包括将输入文本拆分为词汇表中可用的标记列表。为了处理词汇表中不可用的单词，

浏览 0提问于2019-11-08得票数 14

3回答

无法修复ValueError: MultiOutputClassifier和GridSearchCV的估计器的参数标准无效

python、scikit-learn

我想用scikit learn在Python中为MultiOutputClassifier编写一段代码。这是完整的代码：from sklearn.model_selectionimport GridSearchCV from sklearn</em

浏览 1提问于2019-07-22得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云