Fast.ai & NLP:删除fast.ai标记器中的未知词

基础概念

Fast.ai 是一个用于深度学习的库，旨在简化数据科学和机器学习任务的学习曲线。它提供了易于使用的接口和高级抽象，使得研究人员和开发人员能够快速构建和部署深度学习模型。

NLP (Natural Language Processing) 是人工智能的一个分支，专注于人与机器之间的交互，特别是如何编程计算机以理解和生成人类语言。

在 NLP 中，处理文本数据时经常会遇到未知词（Out-of-Vocabulary, OOV）的问题。这些词在训练数据中没有出现过，因此在模型中无法识别。

类型与应用场景

在 Fast.ai 中，处理未知词的方法主要有以下几种：

删除未知词：直接从文本中删除所有未知词。
替换未知词：用一个特殊的标记（如 <UNK>）替换所有未知词。
使用子词分割：通过子词分割技术（如 Byte Pair Encoding, BPE）来处理未知词。

应用场景包括：

情感分析：在分析用户评论时，去除无关的未知词可以提高情感分析的准确性。
文本分类：在分类新闻文章时，删除未知词可以减少分类错误。
机器翻译：在翻译过程中，处理未知词可以提高翻译质量。

遇到的问题及解决方法

为什么会这样？

在处理文本数据时，未知词的出现通常是由于以下原因：

词汇量限制：训练数据中的词汇量有限，无法覆盖所有可能的词汇。
新词出现：随着时间的推移，新的词汇会不断出现，而训练数据可能没有及时更新。

原因是什么？

未知词的存在会导致模型在处理这些词时产生不确定性，从而影响模型的性能。

如何解决这些问题？

在 Fast.ai 中，可以通过以下步骤删除未知词：

加载数据集：
加载数据集：
创建词汇表：
创建词汇表：
定义函数删除未知词：
定义函数删除未知词：
应用函数到数据集：
应用函数到数据集：
重新创建数据加载器：
重新创建数据加载器：

通过上述步骤，可以有效地从 Fast.ai 标记器中删除未知词，从而提高模型的性能和准确性。

参考链接

希望这些信息对你有所帮助！

语言模型与分类间的迁移学习

、、、

继这个fast.ai 讲课之后，我试图理解NLP中学习从一个通用语言模型(LM)转移到一个分类问题的机制。什么是从语言模型的培训中获得的？仅仅是嵌入这个词吗？或者也是LSTM细胞的重量？神经网络的结构应该是完全不同的--在LM中，您将在每个序列步骤之后输出一个预测--在分类问题中，您只关心最终序列步骤的输出。 (我很乐意知道什么是普遍做法，如果有人知道fast.ai是如何做到的)

浏览 0提问于2019-11-25得票数 1

3回答

我正在为一些短信做POS标签。我用spacy来获取POS标签。为什么我要为未知的单词得到名词标签？例如，如果我传递sbxdata，就会得到名词标记。我希望没有像sbxdata这样有意义的词。我想要的是，我不应该得到任何未知单词的标签，或者我只想得到普通英语单词的POS标签。是否有任何库/可用于此的任何方法？举个例子，我有下面的句子。值大列sbxdata实际最大ptsavatar 为此，我将得到以下POS标签。如何去掉sbxdata和ptsavatar的名词标记。类似地，我需要去掉任何未知单词的随机标记。此外，我怀疑，在默认情况下，它是作为名词。任何帮助都会很感激的。这是我的密

浏览 4提问于2020-12-29得票数 0

回答已采纳

2回答

区分缩写和简单的大写单词？

、

我是NLP的新手，我必须为我的NLP课解决一个练习。基本上，我收到一个原始文本，其中包含缩写，如(CRF，ABC等)和其他类型的大写单词(食物，房子)，我必须对它们进行分类。我不知道从哪里开始，你能告诉我一些算法吗？可以帮助我解决问题的随机方法？

浏览 3提问于2016-03-24得票数 0

2回答

指导NLP在线课程的建议-初学者101

、、、、

我想从这里的数据科学界了解有关nlp课程的建议。我是NLP地区的新手，我想学习一门课程，内容从基本概念到高级概念，如标记化到嵌入、GPT-3、变压器等。我的目标是成为一名应用NLP专家(我不打算发明任何新的标志)。所以，我基本上是想找一门课程，让他们可以教我们现有的手语，最近的进步，用例的多样性等等。有您推荐的课程吗？

浏览 0提问于2022-08-01得票数 2

回答已采纳

1回答

理解词嵌入的迁移学习

、、、、

我无法想象预先训练过的单词嵌入的迁移学习在NLP任务(比如命名实体识别)中是如何有用的。我正在学习Andrew NG的序列模型课程，他似乎说，如果目标任务的训练集非常少，那么转移单词嵌入的学习将有助于在应用程序中处理训练集中的未知单词。让我们考虑命名实体识别的任务，我的问题是，为目标任务设置的很小的训练内容是什么？它们是带有实体标记的单词嵌入还是句子？他是否认为，如果训练集只是在预先训练过的模型中有嵌入词的标记句，那么训练集中不存在但更接近训练集的单词也会在应用程序中被有效捕获？考虑一下‘橘子’正在训练中。但是，“苹果”并不是。所以，在“我喜欢橘子汁”和“我喜欢苹果汁”这两个句子中，

浏览 0提问于2020-07-27得票数 1

2回答

使用NLP或机器学习从句子中提取关键字

、、、、

我是ML/NLP领域的新手，所以我的问题是，什么样的技术最适合实现以下目标：我们有一个简短的句子--“去哪里吃晚饭？”或者“你最喜欢的酒吧是什么？”或者“你最喜欢的廉价酒吧是什么？” 是否有一种技术使我能够提供下列数据集： “去哪里吃晚饭？”->晚餐 “你最喜欢什么酒吧？”->酒吧 “你最喜欢的廉价餐厅是什么？”->廉价餐厅所以下一次当我们有一个类似的关于未知活动的问题时，比如说，“你最喜欢的昂贵的东西是什么？”它可以提取“昂贵的”和其他的东西。我们的目标是，如果我们能够训练它的数百个变化(或数千)的问题和相关的输出数据，以便它可以工作的日常语言。

浏览 5提问于2017-10-04得票数 0

回答已采纳

1回答

NLP，spaCy:提高文档相似度的策略

、、

一句背景：我有来自自动转录演讲的文本数据，我想比较它们的内容的相似性(例如，他们正在谈论的内容)来进行聚类和推荐。我对NLP很陌生。 data ：我使用的数据是可用的。对所有懒惰的人来说 clone https://github.com/TMorville/transcribed_data 下面是将其放入df的代码片段： import os, json import pandas as pd from pandas.io.json import json_normalize def td_to_df(): path_to_json = '#FILL OUT

浏览 0提问于2018-06-07得票数 7

回答已采纳

1回答

大学外进入数据科学和NLP

我快40岁了。四个月前，我辞去了工作，从工作压力中解脱出来，改变了工作的方向。我花了一段时间才明白我想做什么，直到后来我才开始学习NLP和机器学习，通过Coursera和Kaggle。为了学习新的技能，并在未来的工作面试中展示一个最少的投资组合，我已经开始从事一个小型的NLP项目。它涉及到从Web上抓取数据、清理数据、从非结构化文本中提取结构化数据、基于文档相似性的对象链接、词干标注、词素标注、引理消歧等多个问题。然而，我觉得我迷路了，而且经常走错方向。实际上，它开始看起来像做我的PhD在过去，重新发明太多的车轮。例如，上个星期，我花了很多时间将我的语言的现有词干器从Java移植到Pyth

浏览 0提问于2019-07-17得票数 1

1回答

如何在java中使用stanford nlp从文本中获取有意义的单词

、、

我有一些要求，那就是在java中使用stanford nlp从解析的文本中获取有意义的单词。我正在尝试下面的示例代码。 import edu.stanford.nlp.trees.*; import edu.stanford.nlp.ling.HasWord; import edu.stanford.nlp.parser.lexparser.LexicalizedParser; public class Demo { public static void main(String args[]) { Lexicalize

浏览 0提问于2013-07-26得票数 2

1回答

在删除标点符号之前/之后添加POS标签？

、、

关于NLP最佳实践的一个可能非常基本的问题。标点符号是否会影响NLTK的词性标记器的行为？或者，在将句子传递给词性标记器之前，去掉句子中的标点符号可以吗？

浏览 18提问于2019-09-09得票数 1

回答已采纳

1回答

Spacy标记中的相似性度量

、

我正在尝试测量标记之间的相似性。我使用的是默认的en模型。当使用单数名词时，相似性度量按预期工作，但当使用复数形式的相同名词时，相似性度量返回零。 nlp = spacy.load('en') doc = nlp('apple orange') doc[0].similarity(doc[1]) 返回0.56189166448170025 doc = nlp('apples oranges') doc[0].similarity(doc[1]) 返回0.0 是否需要实现任何预处理步骤才能使度量正常工作？谢谢。

浏览 0提问于2017-09-22得票数 1

2回答

nlp.vocab和nlp.vocab.strings有什么区别？

、、

我正在学习NLP，我想看看我用spacy下载的词汇量。 import spacy nlp = spacy.load('en_core_web_trf') nlp2 = spacy.load('en_core_web_sm') 在导入Spacy并同时加载较大和较小的包后，我检查了以下内容： len(nlp.vocab) 给770， len(nlp2.vocab) 给761， len(nlp.vocab.strings) 给了83934 len(nlp2.vocab.strings) 给了83914。两者有何不同，为何不同？如何检查每个包裹的总词汇量？

浏览 3提问于2021-08-21得票数 1

回答已采纳

2回答

计算形容词频率的技巧

、、

我需要计算一组给定形容词在大量客户支持评论中的词频。但是，我不想包括那些被否定的内容。例如，假设我的形容词列表是:有帮助的，有知识的，友好的。我希望确保“友好”不会被计入诸如“代表不太友好”这样的句子中。我是否需要对文本进行完整的NLP解析，或者是否有更简单的方法？我不需要超高的准确率。我对NLP一点也不熟悉。我希望有一些不会有如此陡峭的学习曲线和处理器密集型的东西。谢谢

浏览 0提问于2012-01-16得票数 5

回答已采纳

2回答

斯坦福分词器

、

我在用斯坦福的分词器，但我有问题。我输入命令： $ C:\Users\toshiba\workspace\SegDemo\stanford-segmenter-2013-06-20>java -cp seg.jar;stanford-segmenter-3.2.0-javadoc.jar;stanford-segmenter-3.2.0-sources.jar -mx1g edu.stanford.nlp.international.arabic.process.ArabicSegmenter -loadClassifier data/arabic-segmenter-atbtrain

浏览 3提问于2013-08-12得票数 1

2回答

使用来自熊猫DataFrame的数据的Spacy NLP

、、、、

我有一个大型的pandas调查字符串响应数据框架，我们想要试用Spacy的NLP的一些功能。我们目前只是在探索这些功能，但正在努力解决如何将数据格式化为与spacy的nlp功能一起工作的格式。最终，我们希望能够查看针对用户数据的字符串响应中的热门主题。如何在数据帧的列上运行nlp管道？还是我绕错了路？

浏览 2提问于2018-10-19得票数 3

1回答

Fast.ai & NLP:删除fast.ai标记器中的未知词

、、、

我正在构建一个NLP模型来对房地产文本进行分类。问题是，在创建数据束时，许多单词都被赋予了一个xxunk特殊标记。我用来生成TextClasDataBunch对象的代码： count = 0 error = True while error: try: data_clas = TextClasDataBunch.from_csv(path, 'text.csv', vocab=data_lm.train_ds.vocab, bs=2) error = False print(f'failure count i

浏览 19提问于2021-04-24得票数 1

1回答

奇怪的相似性导致了空间的扩展

、

我在玩弄Spacy中的相似函数，并观察到一些我不理解的东西： import spacy nlp = spacy.load('en_core_web_sm') doc1 = nlp("Honda Civic Toyota") doc2 = nlp("Honda Civic Toyota car Christian God") for token in doc1: print (token.text, doc1[0].similarity(token)) for token in doc2: print (token.text,

浏览 0提问于2018-04-28得票数 3

1回答

NER的Transformer Pipeline使用##s返回部分单词

、、、

我应该如何解释Transformer NER管道返回的带有“##”的部分单词?其他工具如Flair和SpaCy返回单词和它们的标签。我以前使用过CONLL数据集，从来没有注意到这样的事情。而且，为什么单词被这样划分？ HuggingFace中的示例： from transformers import pipeline nlp = pipeline("ner") sequence = "Hugging Face Inc. is a company based in New York City. Its headquarters are in DUMBO, there

浏览 21提问于2020-04-09得票数 0

回答已采纳

2回答

NLP情感分析-基本指南

、、、

我正在做我在NLP领域的第一个项目，这是一个包含大约250个标记英语数据点/句子的数据集的情感分析。该数据集是对具有正面、负面或中性标签的药品的评论。我已经在监督学习中使用了3年的数字数据，但NLP对我来说是一个未知的领域。所以我想知道最好的预处理技术，以及我需要做的最适合我的问题的步骤。来自NLP专家的指南将不胜感激！

浏览 2提问于2020-03-19得票数 0

1回答

如何识别形容词或副词？

、、

我对NLP....Is还是个新手，有没有什么API或者方法可以让我从句子中辨别出动词、形容词或副词？我需要在项目中使用它？

浏览 0提问于2012-09-02得票数 0

2回答

词性标注的使用/应用(词性标注)

、

我理解词性标记的隐含价值，并看到有关其在解析、文本到语音转换等方面的使用的提及。你能告诉我PoS标记器的输出是如何格式化的吗？另外，您能解释一下NLP系统的其他任务/部分如何使用这样的输出吗？

浏览 2提问于2014-06-02得票数 8

1回答

使用spaCy添加POS标签

、、

我正在尝试使用Python语言中的spaCy模块来做词性标记。下面是我的代码 from spacy.en import English, LOCAL_DATA_DIR import spacy.en import os data_dir = os.environ.get('SPACY_DATA', LOCAL_DATA_DIR) nlp = English(parser=False, tagger=True, entity=False) def print_fine_pos(token): return (token.tag_) def pos_tags(se

浏览 0提问于2015-12-05得票数 13

回答已采纳

1回答

使用自然语言处理比较两个句子的语法

、、

我有两个句子可以根据它们的语法使用NLP进行比较。我对NLP完全陌生，想知道是否有算法来确定这一点。我知道如何使用词语相似度和情感进行比较。

浏览 1提问于2017-10-13得票数 2

2回答

NLP -使用spaCy在Python中提取文本

、、

我使用Python和spaCy作为我的NLP库。我是NLP工作的新手，我希望能得到一些指导，以便从文本中提取表格信息。我的目标是找出哪些类型的费用被冻结或未冻结。任何指导都将不胜感激。 TYPE_OF_EXPENSE FROZEN? NOT_FROZEN? purchase order frozen null capital frozen null consulting frozen null business meetings frozen

浏览 3提问于2019-01-30得票数 1

3回答

NLP提取相关短语

、

使用给定句子中的NLP，我可以很容易地使用核心NLP提取所有的形容词和名词。但我努力要做的实际上是从句子中提取短语。例如，我有以下几句话：这个人值得信任。这个人是不作判断的。这个人说话很好。对于使用NLP的所有这些句子，我想提取值得信任、不评判、说得好等短语。我想提取所有这些相关的词。我该怎么做？谢谢,

浏览 3提问于2017-05-17得票数 2

2回答

带有Penn Treebank标签的NLP POS注释工具

、、

我有一个语料库，我想对词性(动词、名词、形容词等)进行注释。我正在寻找一个很好的工具，我可以用来做这件事，但我有一个要求，我希望它标记语料库使用相同的标签，宾夕法尼亚树库做。原因是我想使用Stanford NLP来进行pos身份验证。任何帮助我们都很感激， mj

浏览 0提问于2011-06-18得票数 0

1回答

信息抽取->关系

“这部电影太棒了。背景音乐很古怪，灯光也很完美。”电影:令人惊叹的背景音乐:古怪的灯光:完美这在C#中的可行性如何？我正在使用斯坦福大学的NLP库，但我不知道该怎么做。

浏览 2提问于2014-08-12得票数 0

1回答

Spacy的主题建模-不是很好的预测

、、

我正在做一个主题建模任务，在这个任务中，我获取人们的反馈(文本)，并试图从他们那里提取重要的主题。反馈很短，我不知道这是不是给我们带来问题的原因。下面是我的代码，有什么是我遗漏的吗？我正在删除停止词，混淆，只保留名词和删除停止词。不管我把这些传递给模型，它并不像我所希望的那样起作用其中一个大问题是语义学，客户可以用不同的方式引用相同的概念:商店、精品店、商店、超市等。虽然“我爱商店”和“我爱那家商店”的说法是一样的，但LDA认为这些都是不同的概念，并将它们放入不同的话题中。 import spacy import pandas as pd from textblob import Tex

浏览 2提问于2020-11-09得票数 0

1回答

令牌化与分段的区别

、、

在NLP中，令牌化和分段有什么区别。我搜索过它们，但没有发现任何不同之处。

浏览 0提问于2021-11-20得票数 6

回答已采纳

1回答

为什么token.pos_不能工作，而其他token.lemma_等都在工作？

、、

我试图从一个包含名词和动词的文本文件中分离出句子。但是token.pos_不工作，而token.lemma_，token.shape_等正在工作。希望在这件事上得到一些帮助。下面是代码的一部分。提前谢谢你。 from spacy.lang.en import English nlp = spacy.load('en_core_web_sm') nlp = English() sentencizer = nlp.create_pipe("sentencizer") nlp.add_pipe(sentencizer) doc = nlp(out_sent) li

浏览 31提问于2020-04-08得票数 0

回答已采纳

1回答

Python:聚类搜索关键字

、、、

对于数据集中的每一个产品，我都有很多“搜索关键字”。我试着根据产品的“搜索关键词”对产品进行聚类。我想要做的是将这些关键字集群到“相似意义”的集群中，并创建集群的层次结构(按照每个集群的搜索总数之和排列)。一个例子-“女装”-最好包含以下关键词:女装、1000名女装、300件女装、50件女装、6件女装、2件。我是NLP的初学者。你对NLP技术有什么建议吗？如有任何帮助，我们将不胜感激：)

浏览 2提问于2020-01-27得票数 3

回答已采纳

1回答

word2vec模型是如何与lstm模型集成的？

、、

对于自然语言处理(NLP)任务，通常使用word2vec向量作为words.however的嵌入，我仍然不明白word2vec模型是如何与words.however模型集成的？当使用长期(LSTM)网络对NLP任务(如情绪预测)建模时，应该如何处理这些未知的单词？

浏览 5提问于2017-09-10得票数 1

1回答

NLP中的数据字典是什么？

、、、、

我对NLP及其概念很陌生。我目前正在尝试使用来自Apache的。当我尝试使用它的解析器工具(如中所示)时，得到的输出如下： Input: Shutdown all active devices Output: (TOP(VP(VB Shutdown) (NP(DT all) (JJ active) (NNS devices)))) 我无法理解所有缩略语的意思。其中一些我可以从同样的中理解。但不是全部。有人能为我指出正确的方向吗?我如何才能更好地理解它，以及我的代码如何理解正在说的话。

浏览 1提问于2015-09-27得票数 1

回答已采纳

2回答

用Stanford标记文本:过滤不需要的单词和字符

、、、

我在分类工具中使用Stanford NLP进行字符串标记。我只想得到有意义的单词，但我得到的是非单词标记(如---、>、.等)。而不是像am，is，to这样的重要单词(停止词)。有谁知道解决这个问题的方法吗？

浏览 2提问于2015-05-03得票数 8

回答已采纳

4回答

核心NLP和Stanford有什么区别？

有人能让我知道核心NLP的区别吗？斯坦福大学NLP

浏览 7提问于2016-08-09得票数 1

回答已采纳

1回答

如何在spacy中表示一个未知/空白的单词？

、、、

我正在处理来自音频文本的文本，其中有一些未知的单词。每个未知词都有标记(例如“商店不认识他”)。我正在寻找表示“未知”单词的最佳方法，以便最大限度地减少spacy句子依存分析的混乱。什么是最好的替代品，以增加spacy的句子依存解析器在最广泛的句子范围内工作得最好的几率？是空格/‘’或'___‘或'...’或者这无关紧要吗？没有结构来确定\何时发生/在何处发生。谢谢!

浏览 12提问于2019-08-02得票数 2

回答已采纳

2回答

使用nltk的两个句子/字符串/文本之间的句法相似性/距离

、、、、

我有两条短信如下 Text1：John喜欢苹果 Text2：迈克讨厌橙色如果你检查以上两个文本，它们在语法上都是相似的，但在语义上却有不同的含义。我想找到 1)两语篇之间的句法距离 2)两个文本之间的语义距离有没有办法使用nltk，因为我是NLP的新手？

浏览 12提问于2016-08-16得票数 6

回答已采纳

1回答

斯坦福NLP核心4.0.0不再在西班牙语中拆分动词和代词

、

非常有用的是，斯坦福NLP核心3.9.2用于拆分合并的西班牙语动词和代词 ? 这是4.0.0的输出： ? 以前的版本有更多的.tagger文件。这些都没有包含在4.0.0发行版中。 ? 这就是原因吗。它们会被重新添加吗？

浏览 21提问于2020-05-01得票数 0

回答已采纳

1回答

Spacy，在用空格清洗文本时如何不删除“to”

、、

后来，我使用这个spacy代码将它应用到我的文本中，但是我需要在文本中保留否定词，比如"not“。 nlp = spacy.load("en_core_web_sm") def my_tokenizer(sentence): return [token.lemma_ for token in tqdm(nlp(sentence.lower()), leave = False) if token.is_stop == False and token.is_alpha == True and token.lemma_ ] 当我申请的时候，我得到了这个结果：

浏览 8提问于2022-08-02得票数 2

回答已采纳

1回答

对于Tokensregex，规则是否需要标记类型才能使用注释？

我正在研究一些旧代码Tokensregex代码，我面临着一些字符没有被PTBTokenizer标记的情况。特别是，我看的是货币符号。因此，例如，₱将不是一个令牌，而其他一些则是$ would。好的，我想尝试编写文本类型规则，而不是标记类型，以尝试在捕获组中捕获这个符号，然后执行类似Annotate($0, ner, "MONEY")的操作来捕获字符串，如₱240。当我尝试这样做时，我得到： . 49多个原因: edu.stanford.nlp.ling.tokensregex.TokenSequencePattern :不能在edu.stanford.nlp.ling.t

浏览 1提问于2017-09-18得票数 0

回答已采纳

2回答

哪个是执行的第一位: POS标记还是左旋？

、、、、

如果我想制作一个像NLTK这样的NLP工具包，那么在标记化和正常化之后，我将首先实现哪些特性。贴标签还是留标签？

浏览 4提问于2017-03-16得票数 1

回答已采纳

2回答

python spacy在窗口中查找两个(或更多)单词

、、、

我试图在文本中识别概念。我常常认为，当两个或多个单词相对接近时，一个概念就会出现在文本中。例如，一个概念将是森林、树木、大自然中任何一个离火、燃烧、过热的距离小于4字的词。我正在学习spacy，到目前为止，我可以像这样使用matcher： import spacy from spacy.matcher import Matcher nlp = spacy.load("en_core_web_sm") matcher = Matcher(nlp.vocab) matcher.add("HelloWorld", None, [{"LOWER": &

浏览 1提问于2019-07-01得票数 2

回答已采纳

1回答

斯坦福CorpNLP返回错误结果

、、、

我正在试着用斯坦福大学的柠檬化来跟进的问题。我的环境是：- Java 1.7 月食3.4.0 StandfordCoreNLP版本3.4.1 ()。我的代码片段是：- //...........lemmatization starts........................ Properties props = new Properties(); props.put("annotators", "tokenize, ssplit, pos, lemma"); StanfordCoreNLP pipeli

浏览 6提问于2015-02-23得票数 0

回答已采纳

1回答

提高Spacy中自定义命名实体识别(NER)的召回率

、、

这是我发布的另一个问题的第二部分。然而，它们的不同之处足以成为独立的问题，但也可能是相关的。上一个问题Building a Custom Named Entity Recognition with Spacy , using random text as a sample 我已经使用上一个问题中描述的方法构建了一个自定义命名实体识别(NER)。从这里，我只是复制了从Spacy网站(在这个网站https://spacy.io/usage/training#ner的“命名实体识别器”下)构建NER的方法。自定义NER在某种程度上是有效的。如果我对文本进行句子标记化，对单词进行词汇化(因此“s

浏览 34提问于2020-08-07得票数 1

1回答

如何使用nlp解析器中的.conll文件进行特性选择

、、、、

我有一个从Malt Parser输出的.conll格式文件，它使用engmalt.line-1.7.mco训练模型。我最初的输入是一个大的句子文本文件。如何使用此文件进行功能选择？我正在使用python与Scikit-学习(目前使用tfidf袋的文字选择功能)。但是，我想使用nlp，例如，只搜索形容词。如何使用conll文件完成此操作？

浏览 0提问于2014-11-18得票数 0

回答已采纳

1回答

如何使用NLP库使复合词单数化？

、、、

问题我试着用把复数词单数化。但是，我无法修正将复数转换为单数作为复合词的错误。我怎样才能得到像下面这样的首选输出？ cute dog two or three word the christmas day 发展环境 Python 3.9.1 错误 print(str(nlp(word).lemma_)) AttributeError: 'spacy.tokens.doc.Doc' object has no attribute 'lemma_' 代码 import spacy nlp = spacy.load("en_core_web_sm

浏览 1提问于2021-04-27得票数 1

回答已采纳

2回答

在spaCy中使用regex :匹配各种(不同大小写)单词

、、

编辑由于非主题我想使用SpaCy中的regex查找(应计或应计或年度或年度)休假的任何组合： from spacy.matcher import Matcher nlp = spacy.load('en_core_web_sm') matcher = Matcher(nlp.vocab) # Add the pattern to the matcher matcher.add('LEAVE', None, [{'TEXT': {"REGEX": "(Accrued|accrued|Annua

浏览 0提问于2019-08-20得票数 2

回答已采纳

2回答

将西班牙语单词隔离起来，以验证它们是否是SpaCy词典中的“单词”

、、、

我有一份2万字的清单。我想知道20k单词中哪一个在某种程度上是“奇怪的”。这是文本清理任务的一部分。 Albóndiga很好，huticotai不是西班牙语单词我知道..。56%$3estapa也不是这意味着，我必须将被拒绝的/共轭的词单独地与某种真理的来源进行比较。每个人都推荐SpaCy。很好。然而，不知怎么的，使用下面的代码和几十个单词的测试文件，spaCy认为它们都是“根”字。sabr，sabrás que asíno es。严格地说，我不想混淆任何东西！我想阻止这些话。，我只想把这个长达20K的单词列表和我作为一个说西班牙语的语言学家所能看到的东西放在一起，以确定什么是疯狂的词(B

浏览 4提问于2021-05-05得票数 0

2回答

python中字符串中双组分/重音的位移

、、

我正在做一个NLP任务，它需要使用一种叫做约鲁巴语的语料库。约鲁巴语是一种在字母表中有对话词的语言。如果我将任何文本/语料库读入python环境中，就会替换/移出一些上层语言，特别是字母表ẹ和ọ：对于那些顶部有对话词的角色ẹ，他们会被移开。如果要拥有:ẹ́ẹ̀，对于ọ，也会发生相同的事情。(ọ́ọ̀) def readCorpus(directory="news_sites.txt"): with open(directory, 'r',encoding="utf8", errors='replace') as doc:

浏览 0提问于2019-07-03得票数 1

回答已采纳

1回答

哪种(天真的) NLP方法来关联聊天室中的人类信息？

、、

假设一个在线聊天室充满了许多"alt“帐户，也就是说，多个帐户是由一个用户，一个巨魔控制的。该用户利用多个帐户来引导会话的特定方向，以满足他们的需要。这个用户也可能改变他们的每个帐户的语音模式，以避免被发现。假设我想使用某种NLP分类器来检测这些alt帐户。最好的方法是什么？其中“最佳”的意思是有效的，但也相对容易设置--就像在python中使用相对基本的sklearn模块所能做的那样。到目前为止，我尝试的是收集每个用户使用的100个最频繁的单词，然后将该语料库放入sklearn.feature_extraction.text.TfidfVectorizer，，然后查看成对的相似性

浏览 0提问于2020-08-17得票数 1