强制spaCy引理为小写 - 腾讯云开发者社区

spacy、case-insensitive、matcher

我希望SpaCy匹配器能够匹配文档中的关键字(多词实体)，而不管它们的情况如何。 Token.lemma区分大小写.因此，使用此代码，我只能在文档中找到“产品首选项”，而不是“产品首选项”或“产品首选项”。 pat_piece = ({"LEMMA": token.lemma_.lower()} if is_final_token(token, tmpdoc) else {"LOWER": token.lower_}) 有人能建议我如何编辑我的代码来匹配关键字(即实体)的所有情况吗？

浏览 4提问于2022-08-29得票数 0

1回答

SpaCy柠檬函数去除大写

python、nlp、spacy

我想用匈牙利语归纳一些文本数据，并在spaCy中遇到一个奇怪的特性。token.lemma_函数在柠檬化方面工作得很好，但是它返回了一些没有大写字母的句子。这很烦人，因为我的下一个函数是unnest_stences (R)，它需要第一个大写字母来识别文本并将其分解成单独的句子。首先，我认为问题在于我使用了最新版本的spaCy，因为我收到了警告 UserWarning: W031模型'hu_core_ud_lg‘(0.3.1)需要spaCy v2.1，并且与当前的spaCy版本(2.3.2)不兼容。这可能导致意外的结果或运行时错误。要解决这个问题，请下载一个较新的兼容模型，或者使用当

浏览 6提问于2020-09-01得票数 1

回答已采纳

2回答

在uint8上以字符串的形式获取令牌的空间

python、spacy

我想知道是否有一种方法可以以字符串的形式使用tokenizer(s).to_array("LOWERCASE")，而不是使用uint8格式。 from spacy.lang.en import English from spacy.tokenizer import Tokenizer s = "Lets pray for the people that can be the victim of the possible eruption of Taal Volcano keep safe everyone." # Create nlp obj nlp =

浏览 2提问于2021-06-02得票数 3

回答已采纳

1回答

空白模型与预训练模型在空间上的区别

python、spacy、text-classification

目前，我正试图使用spacy来训练文本分类器，我遇到了以下问题:使用spacy.blank('en')创建空白模型与使用经过预先训练的模型spacy.load('en_core_web_sm')有什么区别。为了了解我编写的代码的不同之处： text = "hello everyone, it's a wonderful day today" nlp1 = spacy.load('en_core_web_sm') for token in nlp1(text): print(token.text, token.le

浏览 2提问于2020-03-27得票数 3

回答已采纳

2回答

与lemma_lookup表不一致的空间引理

python、nlp、spacy、lemmatization

与在lemma_lookup表中查找单词的引理相比，在对spacy文档进行迭代并对标记进行符号化时，似乎存在不一致之处。 nlp = spacy.load("en_core_web_lg") doc = nlp("I'm running faster") for tok in doc: print(tok.lemma_) 这打印出“更快”作为标记“更快”的引理，而不是“快速”。但是，令牌确实存在于lemma_lookup表中。 nlp.vocab.lookups.get_table("lemma_lookup")["fast

浏览 2提问于2020-04-09得票数 2

回答已采纳

1回答

在“en_core_web_sm”模型中，柠檬化可能不能正常工作。

r、spacy

我不知道为什么我会收到这样的警告：柠檬化在“en_core_web_sm”模型中可能不能正常工作根据网页上的说明，我已经定制了Spacy的安装： conda install -c conda-forge spacy conda install -c conda-forge spacy-lookups-data python -m spacy download en_core_web_sm 并在R中初始化如下： spacy_initialize(condaenv = "C:/Users/.../AppData/Local/Continuum/anaconda3/envs/r-

浏览 2提问于2020-03-04得票数 0

1回答

如何使用NLP库使复合词单数化？

python、python-3.x、nlp、spacy

问题我试着用把复数词单数化。但是，我无法修正将复数转换为单数作为复合词的错误。我怎样才能得到像下面这样的首选输出？ cute dog two or three word the christmas day 发展环境 Python 3.9.1 错误 print(str(nlp(word).lemma_)) AttributeError: 'spacy.tokens.doc.Doc' object has no attribute 'lemma_' 代码 import spacy nlp = spacy.load("en_core_web_sm

浏览 1提问于2021-04-27得票数 1

回答已采纳

2回答

在spaCy中使用regex :匹配各种(不同大小写)单词

python、nlp、spacy

编辑由于非主题我想使用SpaCy中的regex查找(应计或应计或年度或年度)休假的任何组合： from spacy.matcher import Matcher nlp = spacy.load('en_core_web_sm') matcher = Matcher(nlp.vocab) # Add the pattern to the matcher matcher.add('LEAVE', None, [{'TEXT': {"REGEX": "(Accrued|accrued|Annua

浏览 0提问于2019-08-20得票数 2

回答已采纳

1回答

喷雾狐猴问题/一致性

python、spacy、lemmatization

我目前正在使用spaCy来实现NLP (主要是柠檬化和标记化)。所使用的模型是web (2.1.0)。运行以下代码从查询中检索单词“已清除”的列表 import spacy nlp = spacy.load("en_core_web_sm") doc = nlp(query) list_words = [] for token in doc: if token.text != ' ': list_words.append(token.lemma_) 但是，在运行此代码时，我面临一个主要问题。例如，当查询是“处理茶叶”时。存储在list_

浏览 3提问于2019-04-26得票数 0

回答已采纳

1回答

空间-引理数

python、keras、neural-network、spacy、lemmatization

在我用向量作为递归神经网络的输入后，我用spacy将句子中的每个单词替换成一个数字/代码。 import spacy str="basing based base" sp = spacy.load('en_core_web_sm') sentence=sp(str) for w in sentence: print(w.text,w.lemma) 在第一层神经网络中有角点，嵌入层中，我要知道查表中的最大单词数，有人知道这个数字吗？谢谢

浏览 4提问于2020-04-16得票数 0

回答已采纳

2回答

SpaCy柠檬化返回0

python、nlp、spacy

今天，我第一次尝试使用SpaCy柠檬化。我用了波兰和英国的管道。我写了一个非常简单的代码： for token in doc: print(token, token.lemma) 我不明白为什么，但我得到的回报只是“象征性的，0”。我想我已经把语言管道装好了..。

浏览 10提问于2022-07-18得票数 0

1回答

spaCy词法(通过.lemma_)仅返回空字符串

python、spacy

我无法使spaCy lemmatization起作用，它总是返回空字符串。 import spacy from spacy.lang.en import English nlp = English() text = "I went to the bank today for checking my bank balance." doc = nlp(text) 这只返回空字符串： for token in doc: print(token.lemma_) 系统信息： Windows 10 Pro 64bits Python 3.8.8 spacy

浏览 37提问于2021-05-20得票数 1

回答已采纳

1回答

我如何才能使香料不产生-PRON-引理？

machine-learning、deep-learning、nlp、text-processing、spacy

我使用spacy是为了混淆大量的tweet。然而，当我混淆像“我”这样的词时，就产生了标记--PRON。我怎么才能避免呢？

浏览 0提问于2019-07-10得票数 2

回答已采纳

1回答

将列表1分成两个列表2和3，然后将2和3相加，得到的结果与列表1不同，但应该是相同的

python、python-3.x、list、function、spacy

我正在尝试提取句子列表中包含术语"mais“的句子，但打印结果(有它的句子和没有它的句子)显示的数据比实际总数要少。通常，提取和未提取的列表应该与原始文件中的句子总数相对应，但在我的例子中，不是这样的。 import spacy.attrs from spacy.attrs import POS import spacy from spacy import displacy from spacy.lang.fr import French from spacy.tokenizer import Tokenizer from spacy.util import compile_prefi

浏览 2提问于2020-12-11得票数 0

1回答

spacy名词分块创建意外的引理、pos、tag和dep。

nlp、spacy

我正在使用spacy来解析文档，不幸的是，我无法像我所期望的那样处理名词块。下面是我的代码： # Import spacy import spacy nlp = spacy.load("en_core_web_lg") # Add noun chunking to the pipeline merge_noun_chunks = nlp.create_pipe("merge_noun_chunks") nlp.add_pipe(merge_noun_chunks) # Process the document docs = nlp.pipe(["Th

浏览 1提问于2019-04-04得票数 1

回答已采纳

1回答

预期str实例，spacy.tokens.token.Token找到

python、nlp、spacy

我正在执行一个数据提取用例。为了对我的数据进行预处理和标记，我同时使用了spacy英语和德语标记器，因为句子都是用这两种语言的。这是我的密码： import spacy from spacy.lang.de import German from spacy.lang.en import English from spacy.lang.de import STOP_WORDS as stp_wrds_de from spacy.lang.en.stop_words import STOP_WORDS as stp_wrds_en import string punctuations = str

浏览 4提问于2020-04-17得票数 0

4回答

如何用SpaCy解决西班牙语柠檬化问题？

python、spacy、lemmatization

当在西班牙语中尝试混合词时，SpaCy没有正确地写出某些单词，我理解该模型并不是100%的精确性。但是，我没有找到任何其他解决方案，因为NLTK没有带来西班牙语内核。一个朋友试图用西班牙语来问这个问题，但是，这个社区和这个社区相比还是很小的，而我们却没有得到任何答案。代码： nlp = spacy.load('es_core_news_sm') def lemmatizer(text): doc = nlp(text) return ' '.join([word.lemma_ for word in doc]) df['column&

浏览 0提问于2020-03-04得票数 9

回答已采纳

1回答

Excel列到Spacy Docu (令牌、Lemmas)

python-3.x、spacy

几天来我一直在想办法解决这个问题。但是-我正试图从excel文件中上传数据。然后删除缺少的值，并将两个文本列合并为一个。在这一点上，我有一个dataframe，它显示了大约3000行不同的客户评论。接下来，我想运行Spacy，这样我就可以进行一些依赖分析了。问题是，我总是遇到这样一种情况，即它不解析单个单词。我试过使用一种应用方法。 import pandas as pd import numpy as np import spacy from spacy import displacy nlp=spacy.load('en_core_web_sm') df = pd.re

浏览 0提问于2019-08-07得票数 0

回答已采纳

1回答

在Spacy中检测引理后的停止词

python、nlp、spacy、stop-words、lemmatization

如何在spaCy中词干和柠檬化后检测word是否为止词假设句 s = "something good\nsomethings 2 bad" 在这种情况下，something是一个死胡同。显然(对我来说) Something和somethings也是断断续续的，但它需要在此之前停止。下面的脚本会说第一个是真的，但后者不是。 import spacy from spacy.tokenizer import Tokenizer nlp = spacy.load('en') tokenizer = Tokenizer(nlp.vocab) s = "some

浏览 6提问于2017-11-28得票数 5

回答已采纳

4回答

单个词的空间引理

nlp、spacy

我正试图得到一个词的引人的版本。有没有办法使用"spacy“(奇妙的python库)来做到这一点。下面是我尝试过的代码，但这不起作用)： from spacy.lemmatizer import Lemmatizer from spacy.lookups import Lookups lookups = Lookups() lemmatizer = Lemmatizer(lookups) word = "ducks" lemmas = lemmatizer.lookup(word) print(lemmas) 我希望的结果是“鸭子”(复数)这个词会产生“鸭子”(单数)

浏览 6提问于2020-01-07得票数 4

回答已采纳

1回答

在Spacy中扩展引理查找表

python、python-3.x、nlp、spacy

我目前正在使用NLP库Spacy处理文本。然而，Spacy并不能正确地列出所有的单词，因此我想扩展查找表。目前，我正在将Spacy的常量查找表与我的扩展合并，然后覆盖Spacy的本机查找表。然而，我有一种感觉，这种方法可能不是最好和最一致的方法。问:在Spacy中是否有其他更新查找表的可能性，例如更新或扩展函数？我已经看过文档了，但找不到这样的东西。或者，这种方法“很好”吗？我当前方法的工作示例： import spacy nlp = spacy.load('de') Spacy_lookup = spacy.lang.de.LOOKUP New_lookup = {&#

浏览 2提问于2018-03-23得票数 5

1回答

避免在关键短语提取中使用小写标签

nlp、spacy、pytextrank

我想避免在pytextrank中使用小写的标签。对如何实现这一点有什么建议吗？

浏览 2提问于2020-07-14得票数 1

1回答

有没有办法设置spacy的词性标签？

python、spacy

我们有一个熊猫数据栏，有三栏:主语、动词和宾语。在主题栏中，数据看起来像"I“或”we“。动词栏中的，看起来像是"had”、“not”或“loved”。在object列中，看上去像“真空”或“地板”。我试图用spacy对所有这些列进行分类，以添加三个新列: subject_lemma、verb_lemma和object_lemma。我可以用下面的代码做到这一点，但我遇到的问题是有些事情没有被正确地命名(例如，动词栏中带有“爱”的单元格没有被更改为现在时态“爱”，它只是保持不变)。在做了一些测试之后，我认为这是因为“爱”被标记为形容词而不是动词。有什么办法能让我解决这个问题吗

浏览 1提问于2021-07-17得票数 1

回答已采纳

1回答

从Doc对象中过滤单词

python、filter、spacy、doc

浏览 4提问于2022-09-02得票数 0

1回答

如何设置spacy参数真或假？

python、token、spacy

我只想看到is_alpha是真的，is_stop是假的，最后我想存储这个单词的引理版本。谢谢您:) import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("Apple is looking at buying U.K. startup for $1 billion") for token in doc: print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,token.shape_, token.is_al

浏览 8提问于2022-06-06得票数 1

1回答

带有否定的SpaCy匹配器的意外行为

python、spacy、matcher

不知何故，我很难理解SpaCy匹配中的否定。我试过这个代码： import spacy from spacy.matcher import Matcher import json nlp = spacy.load('en_core_web_sm') #from spacy.tokenizer import Tokenizer matcher = Matcher(nlp.vocab) Sentence = "The cat is black" negative_sentence = "The cat is not black"

浏览 14提问于2022-02-12得票数 2

1回答

使用spaCy为URL定制标记和引理

python、nlp、spacy

考虑这句话 msg = 'I got this URL https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293 freed' 接下来，我使用开箱即用的spaCy来处理这个句子： import spacy nlp = spacy.load('en') doc = nlp(msg) 让我们回顾一下：[(t, t.lemma_, t.pos_, t.

浏览 2提问于2018-01-05得票数 3

2回答

Spacy柠檬化是起不了作用，还是把所有以"-ing“结尾的词都混淆了？

python、nlp、spacy

当我运行喷鼻狐猴，它并没有混淆“咨询”一词，因此我怀疑它是失败的。这是我的代码： nlp = spacy.load('en_core_web_trf', disable=['parser', 'ner']) lemmatizer = nlp.get_pipe('lemmatizer') doc = nlp('consulting') print([token.lemma_ for token in doc]) 我的产出是： ['consulting']

浏览 5提问于2022-10-23得票数 1

回答已采纳

1回答

内联Python至少在Perl中如何将过滤器对象从Python转换为数组或迭代器

python、arrays、perl、nlp、iterator

我在Perl中使用了spacy和Inline::Python，最后我使用了filter对象，我完全不知道如何使用它，首先，以及如何将它转换为数组。我尝试过grep、map、join，但什么都没有，仍然是一个filter对象。我不能使用list，因为数据流太重要了。下面是我的一段代码： use Inline Python => <<'END_OF_PYTHON'; import spacy from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop nlp = spacy.load('fr_c

浏览 14提问于2021-05-07得票数 1

1回答

比三个月前，斯派西·莱马提泽突然返回了其他价值，词汇不再变成单数形式了。

python、spacy、lemmatization

几个月前，我用了空格来混淆大量的文字。今天，我不得不重播剧本，文字的输出也发生了变化，多数情况下，复数形式的单词不再变成单数。我试图用一个更简单的用例和“皇后”这个词来重现这个问题，它分为以下几个方面： import spacy nlp = spacy.load('en_core_web_lg') sentence = "queen queenhat queens queen" test = nlp(sentence) for word in test: print(word.lemma_) 它的输出是:女王，皇后，王后，王后如果我移除最后一个

浏览 7提问于2022-02-14得票数 1

回答已采纳

1回答

如何搜索文本中可以分隔的复合短语；在python中？

python、nlp、spacy

假设我有一个文本，并想要检查它是否包含一些复合短语，其中我还想包括各自的单词可能不会直接被彼此跟随的情况。例如，假设您想检查一条文本是否与消防队员有关，那么这样的文本 text = "currently there are over 4000 people involved in fighting the rapidly growing fires in Australia" 也会产生积极的结果。(我实际上想把它应用到德语中，那里的例子可能不那么人工) 我在NLP方面没有专业知识，所以也许有一些聪明的方法可以做到这一点，而我只是不知道该搜索哪个词是正确的。当然，如果文本不太大

浏览 0提问于2020-05-20得票数 1

回答已采纳

1回答

如何使用不同pos定位的spacy lemmatiser

spacy

我正在通过不同的库(包括模式)和柠檬化任务来完成POS标签任务。每次我使用spacy词缀，它都会自动为句子中的每个单词生成一个spacy pos标记。但是，我想使用模式(而不是从spacy)生成的pos标记来改进句子的词性。这有可能吗？

浏览 0提问于2019-01-02得票数 0

回答已采纳

2回答

spaCy nlp流水线操作顺序

python、nlp、spacy、lemmatization

是否有人按时间顺序列出了由 import spacy nlp = spacy.load('en_core_web_sm') doc = nlp(text) 我可以看到nlp.pipe_names的主要组件 ['tagger', 'parser', 'ner'] 和一个按字母顺序排列的nlp.factories工厂操作列表 {'merge_entities': <function spacy.language.Language.<lambda>>, 'merge_noun_chunk

浏览 1提问于2018-09-28得票数 2

回答已采纳

2回答

如何用SpaCy将复数名词转换成单数？

spacy、lemmatization

我使用SpaCy对文本进行符号化，但在某些特殊情况下，我需要保留原始文本，而则将复数名词转换为它们的单数形式。有没有一种方法可以告诉SpaCy给，只有才能将复数名词转换成单数，而不会混淆整个文本(比如删除ed、ing...etc)？还是我应该显式地测试每一个标记，以检查它是否是一个复数名词来取其引理？输入文本是动态的，所以我不知道这个单词是否是名词。谢谢

浏览 5提问于2020-02-19得票数 4

回答已采纳

1回答

我如何检测它是否是一个否定句，在一个句子中使用空间(或其他库)？

python、nlp、nltk、spacy

..Hello大家！我正在做一个NLP项目，我想检测句子中是否有一个带有给定动词的否定句例如:函数"Is_there_negation“应该返回具有以下参数的"True”： text:"I don't want to eat right now" verb:"eat" 我如何完成这个功能(我真的是NLP的初学者) import spacy nlp = spacy.load("en_core_web_sm") def Is_there_negation(doc,verb): for token in doc :

浏览 3提问于2020-06-17得票数 0

1回答

如何使用spaCy对挪威语进行分类？

python、nlp、spacy、lemmatization

我正在做以下几件事： from spacy.lang.nb import Norwegian nlp = Norwegian() doc = nlp(u'Jeg heter Marianne Borgen og jeg er ordføreren i Oslo.') for token in doc: print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,token.shape_, token.is_alpha, token.is_stop) Lemmatization似乎根本不起作用，因为

浏览 0提问于2019-03-13得票数 2

回答已采纳

2回答

如何从Spacy获得更好的引理

python、nlp、wordnet、spacy、lemmatization

"PM“可以是”pm(时间)“，也可以是”首相“。我想抓住后者。我想让“总理”的引理返回“首相”。我如何使用spacy来完成这个任务？返回意外引理的示例： >>> import spacy >>> #nlp = spacy.load('en') >>> nlp = spacy.load('en_core_web_lg') >>> doc = nlp(u'PM means prime minister') >>> for word in doc:

浏览 1提问于2017-12-04得票数 3

回答已采纳

2回答

何对德文做柠檬化？

nlp、spacy、lemmatization

我有一篇德文，我想用柠檬化来形容。如果柠檬化是不可能的，那么我也可以忍受堵塞。数据：这是我的德文文本： mails=['Hallo. Ich spielte am frühen Morgen und ging dann zu einem Freund. Auf Wiedersehen', 'Guten Tag Ich mochte Bälle und will etwas kaufen. Tschüss'] 目标:应用柠檬化后的应该看起来类似于以下内容： mails_lemma=['Hallo. Ich spielen am früh Morgen u

浏览 0提问于2019-09-09得票数 6

回答已采纳

1回答

Spacy NER不识别小写实体

nlp、spacy、named-entity-recognition

我面临着检测命名实体的问题，它以小写字母开头。我已经尝试过在链接上提供的解决方案。好像对我没用。关于=====的spaCy=============信息 spaCy version 2.1.4 Platform Darwin-16.7.0-x86_64-i386-64bit Python version 3.6.5 Models en import spacy from spacy import displacy nlp = spacy.load('en_core_web_sm') sk = nlp.vocab[u'sou

浏览 0提问于2019-06-18得票数 2

回答已采纳

1回答

求具有空格的noun_chunk的根的位置

nlp、root、spacy、chunks、lemmatization

使用空格时，您可以轻松地循环遍历文本的noun_phrases，如下所示： S='This is an example sentence that should include several parts and also make clear that studying Natural language Processing is not difficult' nlp = spacy.load('en_core_web_sm') doc = nlp(S) [chunk.text for chunk in doc.noun_chunks] # = ['

浏览 16提问于2020-06-09得票数 0

回答已采纳

1回答

SpaCy使用列马提泽作为独立组件。

spacy、lemmatization

我想使用SpaCy的狐猴作为一个独立的组件(因为我有预先标记的文本，而且我不想重新连接它并运行完整的管道，因为在某些情况下，SpaCy很可能会以不同的方式标记)。我在包中找到了狐猴，但不知何故，我需要用规则加载字典来初始化这个Lemmatizer。这些文件一定在英德模式的某个地方，对吧？我在那里找不到他们。 from spacy.lemmatizer import Lemmatizer where do the LEMMA_INDEX, etc. files are comming from? lemmatizer = Lemmatizer(LEMMA_INDEX, LEMMA_EXC, L

浏览 3提问于2020-03-11得票数 0

回答已采纳

1回答

Spacy引理与'English‘class和en_core_web_sm的不同结果

python、spacy

我想知道为什么我从这两种语言模型: spacy.lang.en.English和en_core_web_sm中得到了不同的词法分析结果。根据文档，当加载en_core_web_sm模型时，这应该告诉spacy使用语言"en“并初始化spacy.lang.en.English，所以我不明白为什么词汇化规则会改变。我如何才能从英文模型中获取词条，而从en_core_web_sm中获取标签和词法呢？ from spacy.lang.en import English nlp = English() doc = nlp('nonlinearities') print(

浏览 21提问于2019-06-07得票数 0

回答已采纳

1回答

spaCy -文本预处理-保持文本中的代词

machine-learning、python、nlp、spacy

总的来说，我对机器学习和NLP非常陌生。我试图把我的头脑围绕着如何做适当的文本预处理(清洁文本)。我已经建立了一个自定义文本分类模型。在将所有输入文本提供给我的模型之前，我有下面的方法。(包括培训和测试)。该方法将删除断句、标点符号和引文。 import spacy from spacy.lang.en.stop_words import STOP_WORDS import string def normalize(text, lowercase, remove_stopwords, remove_punctuation): nlp = spacy.load("en_co

浏览 0提问于2020-05-22得票数 1

回答已采纳

1回答

是否可以将自定义令牌规则应用于spaCy中按前缀拆分的令牌？

python、tokenize、spacy、prefix

我定制了一个带有附加规则和前缀的spaCy Tokenizer，将w/和f/分别视为with和for。前缀正确地将它们分开，但是引理和规范的自定义规则在这种情况下没有应用。以下是代码的摘录。 def create_tokenizer(nlp): rules = dict(nlp.Defaults.tokenizer_exceptions) rules.update({ 'w/': [{ORTH: 'w/', LEMMA: 'with', NORM: 'with'}], 'W

浏览 7提问于2020-05-13得票数 1

回答已采纳

1回答

如何向scattertext添加词汇化和标记化

python、pandas、spacy

我使用scattertext来解析xlsx中的文档，但我使用的是非英语语言，我很乐意添加词汇化和标记化。我只在spaCy上检查过，它可以工作，但我不知道如何将它集成到我的散点图中。 import pandas as pd import spacy import pl_core_news_sm nlp = spacy.load("pl_core_news_sm") #nlp = pl_core_news_sm.load() import scattertext as st from pprint import pprint from spacy.lang.pl.stop_w

浏览 2提问于2020-06-30得票数 0

1回答

如何构造非结构化数据

nlp、data-mining、structured-data

我正在分析推文，并以一种非结构化的格式收集它们。什么是最好的方式来构造这些数据，以便我可以开始数据挖掘过程？有人建议使用python包，比如spacy，但不确定如何使用它。

浏览 0提问于2021-06-23得票数 1

回答已采纳

1回答

从比赛中排除结果

spacy、spacy-3

我试图指定一个可以排除某些结果的模式。给出这篇文章：The Territory for the Titles shall be the United States, its territories and possessions, excluding Puerto Rico，我正在寻找一种只提取the United States的方法，因为它是一个GPE，并且不被排除。我试着写一个像[{'LEMMA': 'exclude', 'OP': '!'}, {'ENT_TYPE': 'GPE', '

浏览 3提问于2021-06-29得票数 0

回答已采纳

2回答

在Spacy柠檬化中添加规则

nlp、spacy

我正在使用Spacy柠檬化作为预处理文本。 doc = 'ups' for i in nlp(doc): print(i.lemma_) >> up 我明白为什么spacy移除“s”，但对我来说很重要的是，在这种情况下，它不会做到这一点。是否有方法向spacy添加特定规则，或者是否必须使用流程外的If语句(这是我不想做的事情)

浏览 3提问于2020-08-05得票数 0

回答已采纳

1回答

spaCy:下载英文模型时出错

python、pip、nlp、anaconda、spacy

当我运行以下代码下载英文模型时，我按照上的说明使用蟒蛇安装了spaCy python -m spacy download en 我得到以下错误。 /anaconda3/bin/python: No module named spacy.__main__; 'spacy' is a package and cannot be directly executed

浏览 0提问于2018-05-11得票数 0

3回答

如何在短句大数据集中有效地使用空间？

python、nlp、spacy

与nltk相比，我之所以选择spacy来处理各种文本，是因为它的引理性能。但是当我处理数以百万计的短文本时，它总是消耗掉我所有的内存(32G)并崩溃。没有它，只要几分钟和不到10克米被消耗。这种方法的使用有什么问题吗？是否有更好的解决方案来提高性能？谢谢! def tokenizer(text): try: tokens = [ word for sent in sent_tokenize(text) for word in word_tokenize(sent)] tokens = list(filter(lambda t: t.lower() no

浏览 3提问于2018-01-11得票数 8

回答已采纳