Python，NLP -查找包含给定单词列表的顶级文档_查找包含R中的一个单词列表的文档 - 腾讯云开发者社区

python-3.x、parallel-processing、nlp、python-multiprocessing、spacy

我有两个列表。列表A包含500个单词。列表B包含10000个单词。我正在尝试为列表A查找与B相关的相似单词。我正在使用Spacy的相似度函数。我面临的问题是它需要很长时间才能计算出来。我是多进程使用的新手，因此请求帮助。如何在python中通过多处理来加速for循环部分的执行？以下是我的代码。 ListA =['Dell', 'GPU',......] #500 words lists ListB = ['Docker','Ec2'.......] #10000 words lists s_words = [] for to

浏览 4提问于2018-11-25得票数 3

1回答

计算给定单词与随机单词列表之间的相似度。

python、nlp、spacy、similarity、word-embedding

我想计算出一个给定的单词和一个随机的单词列表之间的相似性，然后在一个新的列表中对结果进行排序，例如： list = ['bark','black','cat','bite','human','book'] #it could be another list 与以下词相似： word = ['dog'] -- import spacy nlp = spacy.load('en_core_web_md') bark = nlp("bark") bite

浏览 4提问于2022-01-27得票数 0

回答已采纳

1回答

使用图书类别列表比较图书

machine-learning、python、nlp、nltk、spacy

我有一个书籍数据库。每本书都有描述书的类型/主题的分类列表(我使用Python模型)。列表中的类别大部分是由1到3个单词组成的。图书类别列表的例子： ['Children', 'Flour mills', 'Jealousy', 'Nannies', 'Child labor', 'Conduct of life'], ["Children's stories", 'Christian life'], ['Children', 'B

浏览 0提问于2022-02-26得票数 3

1回答

如何在spacy中保存单词向量

python、python-3.x、nlp、spacy

我有以下代码。目标是获得列表中每个单词的向量表示。我的意图是将这些单词向量用于其他应用目的，如单词聚类。 import numpy as np import pandas as pd from sklearn.preprocessing import normalize import en_vectors_web_lg nlp = en_vectors_web_lg.load() def vectorize(text): return nlp(text, disable=['parser', 'tagger', 'ner']).ve

浏览 29提问于2020-06-28得票数 0

回答已采纳

1回答

自定义词标记

nlp、nltk

我是新来的NLP，正在逐渐了解NLTK，但在我试图完成的事情上有一些困难。我想建立我自己的文字标签，如果我传递一个字符串，如“保时捷是红色”，该函数将返回(‘保时捷’，‘汽车’，‘红色’，‘颜色’)。我已经建立了定义类别的字典。我只是在为如何开始而挣扎。有人能提供帮助吗？非常感谢。 UPDATE:此时的字典是一个简单的.csv格式的两列列表，其中包含单词及其相应的类别。示例链接：真的，米克

浏览 4提问于2015-05-15得票数 0

3回答

Python不拾取包含单词的标记。

python、regex、spacy

我运行在下面的简单代码中，以获得包含该单词的所有标记(例如，包含acompared、for、此法比较的单词)。但是，spaCy正则表达式不返回任何内容。正则表达式在python上很好。你能告诉我这是一个spaCy问题还是如何解决这个问题？它返回[]空列表。 import plac from spacy.lang.en import English from spacy.matcher import PhraseMatcher, Matcher from spacy.tokens import Doc, Span, Token import spacy nlp = spacy.load(

浏览 2提问于2019-07-13得票数 1

回答已采纳

1回答

NLP提取关联词

python-3.x、machine-learning、nlp

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

1回答

在NLP (文档相似)中，什么是短文本和长文本？

nlp、similar-documents

什么是NLP中的短文和长文？我正在处理一个包含10到600个单词的文档的数据集，我在问自己是否应该以不同的方式对待它们。另外，我还没有找到在NLP中显式定义短文本和长文本的源。我任务的目标是找到类似的文件。

浏览 0提问于2020-11-10得票数 1

回答已采纳

1回答

如何在python中使用多处理减少for循环执行时间

python、python-3.x、for-loop、multiprocessing、spacy

我有两个列表。列表X包含1000个单词。列表Y包含500个单词。我正在尝试为列表X找到与Y类似的单词。我使用的是Spacy的相似性函数。我面临的问题是，for循环部分的执行需要很长时间。我从研究中了解到，在python中，多线程只是给人一种并发的假象，因此没有任何真正的性能提升。因此，我认为多处理是一种方法，但我对多处理的用法还不熟悉，因此请求帮助。如何在python中通过多处理来加速for循环部分的执行？以下是我的代码。 import en_vectors_web_lg nlp = en_vectors_web_lg.load() ListX =['HSBC', &

浏览 36提问于2019-12-13得票数 0

2回答

如何使用Spacy生成具有特定后缀的N个名词？

spacy

我想用Spacy生成一个相对随机的20个名词的列表，它们都有相同的结尾。在我的例子中，语言是德语，结尾的例子可以是“-keit”。我相信Spacy对于包中的每种语言都有大量的nlp.vocab单词列表，但是如果我迭代它，我不知道每次运行的顺序是随机的还是相同的。我知道Spacy还有一个Corpus对象，我想知道它是否支持更适合搜索特定语言形式的特定示例的方法。如果NLP.Vocab不是给定语言上的一个完整的单词列表，那么是否有一个在Spacy宇宙中常用的数据集包含完整的词汇表？

浏览 10提问于2022-10-28得票数 0

2回答

如何使用spacy对python中的列表列表进行列举化？

python、spacy

我有一个列表，其中包含需要词条分类的单词。我得到一个错误，说字符串是必需的，而不是列表，因为我使用的是Spacy。如果我转换为字符串，即nlp(str(list_1))，那么列表分隔符(如：、和"[“)将被标记化并包含在我的输出中。我怎样才能将列表中的项列出，并将其恢复为相同的形式，即列表列表？需要词条分类的单词可以在列表中的任何位置。我想要这样的东西：输入： [["flower", "grows", "garden"], [["boy", "running", "playground&

浏览 25提问于2019-04-14得票数 1

1回答

筛选属于广泛类别的单词

java、nlp

我有一个单词列表(假设它们存储在String[]中，如果必须的话)。我想过滤掉的词，属于一个广泛的一般类别，如音乐或体育。是否有现成的解决方案(即使只针对有限的一组一般类别)？或者你会怎么做？它将在Java1.6中完成，这是一个NLP (自然语言处理)问题。单词的输入列表中有随机单词，我想从这个大列表中提取出属于给定的一般类别的单词(这将是一个子集)。的另一种思维方式：给出了一个单词，我想确定这个词是否属于一个类别。就像这样： String word1 = "football"; //the strings will always be single word unit

浏览 1提问于2012-04-02得票数 0

回答已采纳

2回答

关于在句子中查找单词的Java查询

java、string、nlp、stanford-nlp、sentence

我正在使用斯坦福大学的自然语言处理解析器()将一段文本分割成句子，然后查看哪些句子包含给定的单词。到目前为止，我的代码如下： import java.io.FileReader; import java.io.IOException; import java.util.List; import edu.stanford.nlp.ling.*; import edu.stanford.nlp.process.*; public class TokenizerDemo { public static void main(String[] args) throws IOExcepti

浏览 0提问于2011-10-13得票数 2

回答已采纳

2回答

使用虚词-查找与引线句？

python、nlp、spacy

我有包含需要匹配的自定义多词实体的输入句子，因此为此目的，我使用了优秀的库。然而，它有一个缺陷:它不能识别作为实体的句子中的复数词。例如，如果我声明banana为一个实体，并将short blue bananas作为一个句子，它将不会承认bananas是一个实体。我目前的“解决办法”是这样做： # Start by lowering inputLine (just in case) and removing any whitespace trailing/leading. doc = nlp(inputLine.lower().strip()) # Lemmatize the words so

浏览 0提问于2019-02-17得票数 0

2回答

基于关键字列表- Python从文档中提取节

machine-learning、python、nlp、text-mining

我是NLP新手，我想问如何根据我使用Python的关键字从文本中提取句子。我创建了一个关键字列表，用于从文档中提取句子。如果这将是一个简单的标记化问题，在这个问题中，您将通过令牌循环列表，那么我如何捕获同义词或相关的单词？例如： Keyword: Internal business Sentence: You can only use this software for your business only. Keyword: Confidentiality Sentence: Information will be kept as secure as possible. 我实际上

浏览 0提问于2018-07-27得票数 2

2回答

查找一个单词是否位于两个spaCy实体的依赖路径上

python、nlp、spacy、part-of-speech、dependency-parsing

我正在处理一个nlp问题，给出了一个包含两个实体的句子，我需要为每个单词生成布尔值，如果它位于这些实体之间的依赖路径上。例如：雾< e1 >ridge< /e1 >从< e2 >surge< /e2 >‘ 我想对每个单词进行迭代，并判断它是否位于e1和e2之间的依赖路径上。两个重要注意事项： -If您试图帮助我(首先谢谢)，不要考虑使用< e1 >和< e2 >的xml标记，我非常感兴趣的是如何找到一个单词是否在与spaCy的任意两个给定单词之间的依赖路径上，我自己处理哪个单词。 -As我不是nlp专家，我有

浏览 0提问于2018-07-09得票数 2

回答已采纳

1回答

为什么我会在单词袋(CountVectorizer)后使用TF-国防军？

nlp、tfidf、bag-of-words

在我最近对机器学习NLP任务的研究中，我发现了一个非常好的教程，教我如何构建第一个文本分类器： https://towardsdatascience.com/machine-learning-nlp-text-classification-using-scikit-learn-python-and-nltk-c52b92a7c73a 要点是，我一直认为你必须在使用单词袋或WordEmbeddings或TF-以色列国防军之间进行选择，但在本教程中，作者使用了单词包(CountVectorizer)，然后使用TF-下手，而不是使用单词包生成的特性。 text_clf = Pipeline([(&#

浏览 0提问于2020-11-20得票数 1

回答已采纳

2回答

如何使用基于短语而不是句子的NLP？

machine-learning、python、nlp、machine-learning-model、stanford-nlp

我有一个以这种格式列出的单词清单： chem, chemistry chemi, chemistry chm, chemistry chmstry, chemistry 在这里，第一列表示第二列中的实际单词。我需要应用NLP (在python3中)，以便当使用这个数据集训练模型时，当我给出'chmty‘作为输入时，它会给出’化学‘作为输出。我不想要字符串相似技术，我想要建立一个NLP模型。

浏览 0提问于2021-10-28得票数 -1

2回答

在spacy中优化单个词库的形式提取(词汇化)

spacy、lemmatization

我希望在不使用上下文信息的情况下将单词减少到其基本形式。我尝试了spacy，这需要运行nlp来获得单个单词的基本形式，但这会增加执行时间。我使用过this post，其中禁用解析器和NER流水线组件在一定程度上加快了执行时间，但我只想要一个进程来直接查找单词数据库及其词法形式(基本上是单词的基本形式，而不考虑上下文信息 my_list = ["doing", "done", "did", "do"] for my_word in my_list: doc = nlp(my_word, disable=['par

浏览 30提问于2020-06-17得票数 0

1回答

如何使用SpaCy计算列表中每个字符串项之间的平均相似性？

python、nlp、spacy

我试图确定给定列表中的项目在语义上是如何相互关联的。例如，对于下面的名词列表，我希望获得每个可能的对之间的平均相似度分数(而不是像下面所写的那样一对一对地手动完成)。 wordlist=['molds', 'brick', 'pipe', 'hand', 'iron'] doc1 = nlp("molds") doc2 = nlp("brick") Similarity of two documents print(doc1, "<->", doc2,

浏览 2提问于2022-01-07得票数 3

2回答

将索引缩减为“感兴趣”的单词，以供将来的搜索词使用

python、search、nlp、nltk、trie

我有一个从政府成绩单数据库中抓取的大约18,000个独特单词的列表，我想让这些单词可以在web应用程序中进行搜索。问题是:这个web应用程序必须是客户端的。(允许使用AJAX。) 所有的原始文本都在我的服务器上整齐的文本文件中，所以单词的索引文件将列出哪些文件包含每个单词以及包含多少次，如下所示： ADMINSTRATION {"16": 4, "11": 5, "29": 4, "14": 2} ADMIRAL {"34": 12, "12": 2, "15": 9, "

浏览 0提问于2013-07-17得票数 3

回答已采纳

1回答

如何提高NLTK的性能？替代方案？

python、nltk、mahout

我试着到处寻找它，但没有找到任何好的解决方案，所以尽管咨询了nlp专家。我正在开发一个文本相似性查找应用程序，我需要将成千上万的文档(每个文档大约1000个单词)相互匹配。对于自然语言处理部分，我最好的选择是NLTK (考虑到它的功能和python.But的算法友好性，当词性标注本身花费了这么多时间时，我认为nltk可能不是最合适的。Java或C语言不会伤害我，因此任何解决方案都可以为我工作。请注意，我已经开始从mysql迁移到hbase，以便更自由地处理如此大量的数据。但问题仍然存在，如何执行algos。Mahout可能是一个选择，但这也是为了机器学习，而不是专门用于nlp (可能对语音识别

浏览 0提问于2013-04-03得票数 2

4回答

在一般和python中执行字符串搜索的最快方法

python、algorithm、search、complexity-theory

我的任务是在非常短的文档列表中搜索字符串或模式(比如200个字符长)。然而，假设有100万份这样时间的文档。执行此搜索的最有效方法是什么？我正在考虑将每个文档标记化，并将单词放在哈希表中，将单词作为关键字，将文档编号作为值，在那里创建一个单词包。然后执行单词搜索并检索包含此单词的文档列表。从我可以看到的是，这个操作将需要O(n)个操作。还有别的办法吗？可能没有使用哈希表？另外，有没有可以执行高效搜索的python库或第三方包？

浏览 1提问于2012-10-28得票数 2

回答已采纳

1回答

查找给定单词列表中是否有一个拼写错误的单词的最佳方法

string、algorithm、list、matching

你如何有效地解决这个问题？假设我们有一系列的单词“苹果”，“香蕉”，“芒果” 如果列表中的某个单词只差一个打字错误，“Dpple”“Adple”“Appld”我们就会输出true 如果有多个拼写错误，我们将输出false。为了进行优化，我尝试将列表存储在一个哈希表中，其中包含每个单词的字母数，并在给定的输入中查找相同数量的字母，以减小查找输入的大小。对于这个问题，我们有没有更快的优化方法？

浏览 22提问于2018-12-29得票数 0

2回答

如何用纸袋法对文档进行排序

clustering、algorithms、java、information-retrieval

我想对我为谷歌学者搜索获得的文档进行聚类，使用单词包模型。我想用Java作为语言。假设关键字k，谷歌学者给我50个结果。如果我有一组预定义的词w1，w2，w3.wn，我怎样才能对最有预定义词集的文档进行排序呢？我怎样才能应用包字模型呢？我需要像k均值这样的聚类算法吗？我也需要执行NLP技术吗？假设单词w1有几个同义词。对于文档排名，我如何考虑这些同义词？我需要创建一个包含所有缩写、同义词等的语料库吗？有什么好的教程可供使用吗？选择Java而不是Python将是一个劣势，因为大多数资源(Ex - Scikit)都是Python的吗？

浏览 0提问于2015-08-28得票数 2

3回答

字典上的部分匹配

java、dictionary、nlp、gate

我正在与GATE (基于Java的NLP框架)工作，并希望找到与字典部分匹配的单词。例如，我有一本疾病字典，其中包含以下术语 Congestive cardiac failure Congestive Heart Failure Colon Cancer . . . Thousands of more terms 假设我有来自这个字符串的字符串"Father had cardiac failure last year"，我想将“心力衰竭”标识为部分匹配，因为它是作为字典中的一个术语出现的。我已经在Python，JS和C#中看到了一些关于类

浏览 0提问于2012-01-06得票数 2

回答已采纳

1回答

有没有一种方法可以在不使用语料库的情况下生成与给定词典单词发音相似的单词？

python、soundex、phonetics、metaphone

我正在尝试使用Soundex和/或Metaphone等语音算法来生成与给定词典单词发音相似的单词。我必须要有一个包含所有字典单词的语料库吗？有没有其他方法可以在不使用语料库的情况下生成与给定单词发音相似的单词？我正在尝试用Python来做这件事。

浏览 8提问于2015-06-23得票数 0

1回答

python中法语单词的复数到单数

python、nlp、spacy

我有一个单词列表，我尝试在python中将复数单词转换为单数，然后删除重复的单词。我是这样做的： import spacy nlp = spacy.load('fr_core_news_md') words = ['animaux', 'poule', 'adresse', 'animal', 'janvier', 'poules'] clean_words = [] for word in words: doc = nlp(word) for token i

浏览 60提问于2021-04-01得票数 0

1回答

删除TF下手的同义词导致python

python、nlp、tf-idf、cosine-similarity

我目前正在进行一个项目，在这个项目中使用python中的tfidf获取文档集中最相关的10个单词。然而，也有结果，其中有得到相同的词和它的多元或副词左右。为了解决这个问题，我决定使用词根，但这会导致一个问题，即单词及其反义词可以具有相同的词根，或者通过将一个单词还原为它的根，如果用户要搜索它，就不能返回并在文档中找到这个特定的单词。在这种情况下，是否有比nlp更好的nlp？任何提示或链接都是有用的。我在做一些和youtube非常相似的事情。

浏览 1提问于2019-12-27得票数 1

回答已采纳

1回答

如何在Spacy依赖分析中获取单词索引？

python、nlp、spacy、pos-tagger、dependency-parsing

我试图使用Spacy提取单词关系/依赖关系，但对于如何使用它给我的信息有点不确定。我了解如何生成用于调试的可视依赖树。具体来说，我看不到将令牌的子列表映射到特定令牌的方法。没有索引--只是一个单词列表。查看这里的示例： nlp("Autonomous cars shift insurance liability toward manufacturers") 另外，如果这句话是nlp("Autonomous cars shift insurance liability toward manufacturers of cars”)，我如何消除这两个cars实例之间的歧义

浏览 5提问于2020-06-25得票数 0

回答已采纳

1回答

有没有办法把经过训练的模型装入gensim中？

python-3.x、nlp、gensim、spacy、similarity

我想得到类似的单词列表。由于Spacy对此没有内置支持，所以我希望将spacy模型转换为gensim word2vec，并获得类似的单词列表。我试过使用以下方法。但这很费时。 def most_similar(word): by_similarity = sorted(word.vocab, key=lambda w: word.similarity(w), reverse=True) return [w.orth_ for w in by_similarity[:10]] nlp = spacy.load('en_core_web_md') nlp.to_d

浏览 2提问于2019-11-05得票数 1

回答已采纳

2回答

Python NLP:如何将标记化的文本映射回原始结构？

python、list、matrix、nlp、text-mining

目标:对标记化的文本进行矢量化，以创建术语文档矩阵，从而能够对非结构化文本数据进行NLP分析。预测和文本分类将是分析的重要部分，因此能够将标签/类别与每个文本相关联是至关重要的。为此，我需要对术语文档矩阵进行结构化，使每行表示一个文本，每列表示出现在整个语料库中的一个单词。文本的类/标签也将是矩阵中的向量。问题:文本中的每条记录都表示为列表中的一项(第一条记录是列表中的第一项，第二条记录是列表中的第二项，依此类推)。标记列表中每条记录的内容并生成包含每个单词的巨大列表非常容易。我的问题是，在标记化之后，我无法保留原始列表结构，并将每个标记与原始列表中的记录进行映射。这使得矢量化变得不可能。

浏览 1提问于2014-09-15得票数 0

1回答

SpaCy TextCategorizer管道详细信息

python、nlp、spacy

我目前正在研究NLP项目。实际上，当我研究如何处理NLP时，我发现了一些关于SpaCy的文章。但是，由于我还是python的新手，我不明白SpaCy TextCategorizer管道是如何工作的。关于这条管道的工作方式有什么详细的规定吗？TextCategorizer管道是否也使用文本特征提取，如单词袋、TF-以色列国防军、Word2Vec或其他什么？在SpaCy TextCategorizer中使用什么模型体系结构？有人能解释这件事吗？

浏览 2提问于2019-02-26得票数 2

2回答

如何使用spaCy从dataframe列创建标记化单词列表？

python、pandas、nlp、spacy、tokenize

我试图在dataframe列上应用spaCy的令牌程序，以获得一个包含令牌列表的新列。假设我们有以下数据： import pandas as pd details = { 'Text_id' : [23, 21, 22, 21], 'Text' : ['All roads lead to Rome', 'All work and no play makes Jack a dull buy', 'Any port in a storm',

浏览 2提问于2022-07-22得票数 2

回答已采纳

2回答

如何从具有空格的命名实体中查找左右字符串

python、nlp、spacy、named-entity-recognition、natural-language-processing

我是Python和NLP (使用SpaCy)的新手，所以我希望有人能帮我。我想要在我的文本中检测命名实体，并且在我想从NE中获得5个左右的单词之后检测命名实体。我已经找到了NEs，但我却无法找到“周围的单词”。 import spacy nlp=spacy.load("en_core_web_sm") doc = nlp(open(path to my text).read()) for index, token in enumerate(doc.ents): if token.label_ == "PERSON" and token.tex

浏览 24提问于2019-06-03得票数 3

4回答

用NLTK查找不完整句子中的主语

python、nlp、nltk

我有一个产品列表，我正在尝试将其分类。它们将用不完整的句子来描述，比如： “固态硬盘外壳” “硬盘电缆” "1TB硬盘“ 500硬盘，由制造商提供，翻新我如何使用python和NLP来获得像“住房，电缆，驱动器，驱动器”这样的输出，或者是一个描述哪个单词正在修饰哪个单词的树？提前谢谢你

浏览 0提问于2012-01-13得票数 5

回答已采纳

2回答

没有循环的Python Spacy相似性？

python、python-3.x、machine-learning、similarity、spacy

我正在尝试允许用户输入一个搜索词，以找到前5篇文章匹配他们的搜索。我正在比较各种方法(gensim word2vec，doc2vec，近邻等)的结果/性能。我已经成功地创建了代码来利用Spacy中的标准相似度函数，然而，当它循环遍历大量文档列表时，将相似度分数附加到pandas df中，这花费的时间太长。有没有一种方法可以返回前5个最相似的文档，而不需要附加循环和pandas？原因是，与其他文档相比，此方法返回最合理的前5个文档(嵌入单词的乐趣！) #load relevant libraries import pandas as pd import numpy as np

浏览 18提问于2018-08-02得票数 4

回答已采纳

2回答

Python中的词义消歧算法

python、nlp、nltk

我正在开发一个简单的NLP项目，我正在寻找，给定一个文本和一个单词，找到该单词在文本中最可能的含义。在Python中有wsd算法的实现吗？目前还不太清楚NLTK中是否有什么东西可以帮助我。即使有一个像Lesk算法这样天真的实现，我也会很高兴。我读过类似的问题，比如，但他们只给出了一本NLTK书的参考，这本书对WSD问题不是很深入。

浏览 0提问于2014-01-03得票数 1

回答已采纳

2回答

错误:尝试使用python和Stanford CoreNLP解析xml

java、python、xml-parsing、nlp、stanford-nlp

我很难用python和斯坦福大学的CoreNLP来解析xml文件。我想做的是使用Stanford Core NLP分析nlp.txt，并将其输出到xml文件。我的代码如下： import os import subprocess import xml.etree.ElementTree as ET fname = 'nlp.txt' fname_parsed = 'nlp.txt.xml' def parse_nlp(): '''Analyze nlp.txt with Stanford Core NLP and out

浏览 1提问于2017-11-08得票数 0

1回答

使用Elasticsearch在文本中查找匹配项

elasticsearch、lucene

我有一个单词和单词对的Elasticsearch索引，比如： python ruby ruby on rails NLP Javascript Agoraphobia ... 和一个输入文本，例如： Both Python and Ruby (or Ruby on Rails) could be used for NLP purposes. 我需要的是从文本中的索引中找到条目的直接匹配。因此，输出应如下所示： python ruby ruby on rails 使用Elasticsearch将整个索引与文本进行比较的方法是什么？

浏览 0提问于2015-11-24得票数 0

2回答

区分缩写和简单的大写单词？

nlp、classification

我是NLP的新手，我必须为我的NLP课解决一个练习。基本上，我收到一个原始文本，其中包含缩写，如(CRF，ABC等)和其他类型的大写单词(食物，房子)，我必须对它们进行分类。我不知道从哪里开始，你能告诉我一些算法吗？可以帮助我解决问题的随机方法？

浏览 3提问于2016-03-24得票数 0

1回答

如何将自定义同义词单词列表提供给NLP模型(Word2Vec为首选)

machine-learning、deep-learning、nlp、artificial-intelligence、nltk

我正在使用Word2Vec模型来根据我的数据制作一个向量器。我的数据有自定义/业务定义的同义词单词列表，我希望我的NLP模型应该考虑这个列表。例如，如果"A“是"B”的同义词，那么如果我试图用Word2Vec找到"A“的同义词，那么它应该给出"B”的100%匹配。我可以尝试不同的NLP模式，以及如果我能够达到上述要求。

浏览 3提问于2021-02-11得票数 0

回答已采纳

2回答

如何通过python NLP包(spaCy或NLTK)检测句子重音？

nlp、nltk、stanford-nlp、spacy

我们是否可以使用spaCy或NLTK等常用的NLP包来检测sentence stress (句子中某些单词的重音或单词之间的停顿)？ ? 我们如何使用spaCy或NLTK来区分实词和结构词？由于所有NLP程序都会检测依赖关系，因此应该有可能识别自然语音中哪些单词是重读的。

浏览 45提问于2019-10-06得票数 0

回答已采纳

1回答

nltk大包表达情感的单词

python、nlp、nltk

我正在使用python和nltk开发NLP。我想知道是否有一些数据集包含大量的单词，其中显示了与情绪相关的关键字，如快乐、快乐、愤怒、悲伤等从我在nltk语料库中挖掘出来的，我发现有一些情感分析语料库，其中包含积极和消极的评论，这些评论与显示情感的关键字并不完全相关。有没有什么方法可以让我建立自己的字典，里面有表达情感的单词呢？如果是这样，我该怎么做，有没有这样的词的集合？任何帮助都将不胜感激

浏览 0提问于2018-11-08得票数 0

2回答

在很长的文本文件中搜索python中的单词的简单方法是什么？

python、list、search、performance、spell-checking

我想使用一个文本文件创建一个非常简单的拼写检查器，该文件包含大约80000个常用单词的字母顺序列表。使用python搜索文件并找出其中是否包含单词的简单而有效的方法是什么？我应该将单词列表文件解析为集合、列表、字典、元组吗？我的单词列表已经按字母顺序排列了，有什么简单的方法可以利用这一点吗？我更喜欢保持相对简单。我不想要正确的拼写建议或其他花哨的功能。我只想知道这个词是不是拼错了。

浏览 2提问于2011-05-03得票数 1

回答已采纳

1回答

有什么方法可以过滤出python中的单词吗？

python、stop-words

有没有办法过滤掉python中的冠词(the，a，an)、代词、连词(和，但是)和其他非热门词汇？或者，有没有python包可以提供帮助？我知道我可以使用过滤器和其他东西，但我需要一个包含所有单词的长长列表。已经有包含这些单词的包了吗？我需要删除这些单词，这样消耗的内存才能处理删除了这些单词的列表，这样就会更轻。谢谢

浏览 1提问于2015-03-06得票数 2

1回答

如何识别句子的自定义关键字并在新列中分配自定义名称？

python、nlp、spacy、named-entity-recognition

我是NLP NER (命名实体识别)领域的新手(以及一般的编程)，我正在寻找一些关于如何开始/知道如何完成项目的指导。我有一个excel文件，每行大约有5列多个句子(大约15000行)。每一行都有几段文字来自填写调查问卷的人。我想遍历每一行以确定几个特定的单词，如“热”、“冷”、“温热”、“球”、“纸”等。如果在句子中发现这些单词中的任何一个，我希望在它旁边的新列中创建一个新词来表示它-例如，在句子中找到的单词"hot“、"cold”和"temperature“在新列中将被赋予一个新词，如”temperature“；"ball”或"bat“将在新列

浏览 18提问于2021-06-05得票数 0

2回答

在Python中检查单词之间的相似性或同义词

python、nlp、nltk、spacy

我想找单词的同义词。如果word是tall building，那么我想查找该单词的所有同义词，如"long apartment ,large building"等我用的是Spacy。 import en_core_web_sm nlp = en_core_web_sm.load() LOOP nlp('tall building').similarity(nlp(mytokens[i])) 我不能用这个，因为它需要很多时间 neither I can use PhraseMatcher for this 请帮帮我提前感谢

浏览 176提问于2020-05-03得票数 0

1回答

应用NLP:如何用多个词的词汇来给文档打分？

nlp、matching、n-gram、scoring、lexicon

这可能是一个相当基本的NLP问题，但我手头有以下任务:我有一组文本文档，我需要对一个(英语)词汇进行评分，这些词汇可能是1-，2-，3-等N-word long。N被一些“合理”的数字所限制，但是字典中针对n = 1, ..., N的各种值的各种术语的分布可能是相当一致的。例如，这个词典可以包含某种类型的设备列表，我想看看给定的文档是否可能涉及这些设备。所以，如果一个文档中有一个或多个词汇条目出现，我会希望它得分很高。什么是标准的NLP技术，以进行评分，同时计算各种形式的词，可能出现在词汇？输入文档和词典都需要什么样的预处理才能执行评分？对于预处理和评分，存在什么样的开源工具？

浏览 2提问于2015-10-20得票数 1

回答已采纳

1回答