面向OOV词的词嵌入

文章/答案/技术大牛

发布

1回答

machine-learning、nlp、word2vec、gensim

我已经从语料库生成了词向量，但我面临着许多单词的词汇表问题。如何使用现有的词嵌入动态生成OOV词的词向量？

浏览 12提问于2017-12-28得票数 4

回答已采纳

1回答

如何在tensorflow嵌入层中使用快速文本向量？

tensorflow

我只是在努力找出如何在keras/tensorflow嵌入层中为OOV单词使用快速文本词向量。外面什么都没有。也许有人也想到了这一点，并给了我一些提示？通过词嵌入查找的方式通过像tf.nn.embedding_lookup(word_embeddings，x)这样的索引工作我想象一

浏览 1提问于2019-06-01得票数 2

1回答

从石墨烯到音素的OOV词启发式

speech-recognition、text-to-speech

我需要在g2p中进行从石墨到音素( c++ )的转换，然而，大多数g2p库都是用python或锈菌进行的(pocketsphinx可能会工作，但似乎有点头疼)。G2P是通过以下方式完成的：然而，就目前而言，是否有元音替代同音词和OOV词并不重要我只需要启动并运行我的其他代码，然

浏览 4提问于2022-06-25得票数 0

回答已采纳

1回答

澄清NER中Vocab文件的用法

deep-learning、nlp、named-entity-recognition

我正在学习命名实体识别，我看到训练脚本使用了一个名为vocab的变量，如下所示我的猜测是，它应该学习文本中出现的所有这些字符，比如abcd…等等，我不明白的是像/n /t这样的字符的用法这些字符有什么用呢？

浏览 29提问于2019-08-13得票数 1

回答已采纳

1回答

预训练的嵌入矩阵有<EOS>，字向量吗？

nlp、deep-learning

我想要建立一个预先训练的嵌入矩阵的seq2seq聊天机器人。预先训练过的嵌入矩阵，例如GoogleNews向量-负300，FastText和GloVe，有<EOS>和<UNK>的特定单词向量吗？

浏览 1提问于2018-03-18得票数 2

回答已采纳

1回答

两个不同的OOV字能在FastText中得到相同的向量吗？

word-embeddings、word2vec、vector-space-models

既然FastText总结了一个OOV词的子词的向量(不考虑顺序)，那么两个不同的OOV词是否有可能得到相同的向量呢？如果是，那你能举个例子吗？

浏览 0提问于2019-12-19得票数 4

回答已采纳

1回答

Keras是否学习没有包含在您指定的词汇表中的单词的嵌入？

python、tensorflow、keras

抱歉，如果这是个问题，虽然我还没有找到类似的线索.我正在努力学习如何使用大量的tweet数据集来创建单词嵌入，以进行情感分类。我使用Keras TextVectorizer将tweet转换为序列。我注意到，如果一个单词不在指定的词汇表中，它总是映射成整数1，这不意味着模型也会为不在词汇表中的单词学习权重吗？如果是的话，你如何避免这种情况？

浏览 3提问于2021-12-11得票数 0

回答已采纳

1回答

从零开始分析BERT与模型

machine-learning、bert、sentiment-analysis

我正在构建一个情感分析器，我想分析的数据是来自twitter的社交媒体数据，一旦我创建了一个模型，我想把它整合到一个简单的网页中。我尝试了两种选择：选择1有什么好处吗？当涉及到社交媒体的

浏览 0提问于2023-02-21得票数 0

回答已采纳

1回答

基于上下文的嵌入与基于字符的嵌入与基于文字的嵌入

machine-learning、nlp、data-science-model、word-embeddings、python-3.x

我正在研究一个在课文中使用英文字母的问题，但它的语言不是英语。它是英语和不同语言文本的混合体。但是所有的单词都是用英文字母写的。现在，基于单词的预先训练的嵌入模型将无法在这里工作，因为它给出了一个随机嵌入到词汇外的单词。现在我的问题是，基于上下文的预先训练的嵌入是如何处理“词汇表外”单词的？此外，基于上下文的嵌入</e

浏览 0提问于2020-12-14得票数 1

回答已采纳

3回答

如何初始化词汇外单词的嵌入？

machine-learning、nlp、deep-learning、word-embedding

我正在尝试使用CoNLL-2003 NER (英语)数据集，并试图为其使用预先培训过的嵌入。我正在使用SENNA预先训练过的嵌入。现在，我的词汇表中有大约20k个单词，其中只有9.5千个单词可以嵌入。我目前的方法是用零初始化一个20k X embedding_size数组，并初始化9.5k单词，这些单词的嵌入是我所知道的，并使所有的嵌入都是可学习的。我的问题是，

浏览 2提问于2018-01-23得票数 2

回答已采纳

1回答

单词嵌入是否有助于去除语音标记？

nlp、word-embeddings、missing-data、text、embeddings

我使用Keras在自定义文本数据集上执行情感分析，但对word嵌入有点困惑。我已经能够训练一个“嵌入”层，也学会了从手套加载现有的重量，但仍然面临一些问题。最主要的是，有一些“负面”的词，我知道，但没有出现在词汇中。正因为如此，当我尝试一些没有出现在单词中的例子时(比如“垃圾”)，网络不知道这包含了一种负面情绪。有没有办法用Word2Vec / Glove / etc传递垃圾这个词，找出与垃圾这个词相似的地方，然后把这个已知

浏览 0提问于2019-06-26得票数 0

2回答

将文本文件中的单词列表转换为Word矢量

python、machine-learning、nlp、gensim、word2vec

我有一个有数百万行的文本文件，我想要将其转换为单词向量，然后我可以将这些向量与搜索关键字进行比较，看看哪些文本更接近搜索关键字。我的难题是，我所看到的Word2vec的所有训练文件都是以段落的形式出现的，因此每个单词在该文件中都有一些上下文含义。现在我的文件是独立的，并且每一行都包含不同的关键字。我的问题是，是否有可能使用这个文本文件创建词嵌入，如果不可能，那么在如此多的<

浏览 60提问于2019-03-26得票数 0

1回答

使用未在CNN中训练的预先训练词嵌入的单词进行预测

machine-learning、deep-learning、nlp

在CNN中使用预先训练过的嵌入(快速文本)的句子分类中，当单词不在训练集时，CNN如何预测句子的类别？我认为经过训练的模型包含了权重，这些权重在预测阶段没有更新，是吗？那么，当训练中没有看到句子中的单词( cnn将预测一个类别)时，会发生什么情况呢？我认为他们没有一个字向量，只有在训练中找到的单词。

浏览 0提问于2020-08-09得票数 0

2回答

如何将gensim Word2Vec模型转换为FastText模型？

nlp、word2vec、gensim、word-embedding、fasttext

我有一个Word2Vec模型，它是在一个巨大的语料库上训练的。当我在神经网络应用中使用这个模型时，我遇到了相当多的“词汇外”单词。现在，我需要为这些“词汇之外”的单词找到嵌入词。现在，我的问题是如何将现有的word2vec模型或Keyedvectors转换为FastText模型？

浏览 4提问于2017-12-29得票数 3

回答已采纳

2回答

fastText生成零向量

python、spatial、word-embedding、fasttext

我在计算fastText产生的嵌入上的余弦相似度时遇到了以下错误： /home/kgarg8/anaconda3/envs/CiteKP/lib/python3.6/site-packages/scipycosine_distance_wordembedding_method(pred.split(), label.split()) # function call 初步分析： fastText为不在词汇表中的单词生成全零嵌入<

浏览 54提问于2021-11-06得票数 0

回答已采纳

1回答

查找长名称实体的核心字

nlp

我从web.There中收集了很多名字实体，里面有很多长的terms.so，我希望能找到名字实体(或核心词)的俗语。我有洛杉矶这个词，我想去洛杉矶。或者是一个非常正式的地名，我想要得到它的简称。我该如何解决这个问题？谢谢。

浏览 3提问于2012-08-23得票数 0

1回答

Gensim word2vec在失语症时的评分功能

gensim

Word2Vec无法处理词汇量不足的单词(返回错误)。然而，当我尝试得分函数的句子，包括OOV词，令人惊讶的是，我没有一个错误。为什么是这种情况？谢谢!

浏览 11提问于2021-12-13得票数 0

回答已采纳

3回答

如何索引Python中每行有多个单词的输入单词

python、python-3.x

此代码的目的是阅读test.txt中的句子，并检查test_oov.txt中的每个单词是否有一个例句是test.txt。congressmanthis is an irrelevant sentence而test_oov.txt但是，当test_oov.txt输入每行有多个单词时，它就不能工作了。当这个词只是一个词的时候

浏览 1提问于2021-05-07得票数 0

1回答

OOV的近邻也是OOV - FastText

python、nearest-neighbor、word-embedding、fasttext

我试图在快速文本中获取词汇外单词( OOV )的最近邻居，然而，似乎最近的邻居也是OOV？这是我使用的代码： all_vocab = [] print(len(nn2) == len(nnsims2)) # False我

浏览 2提问于2021-12-25得票数 0

1回答

如何使用转换器模型获取词汇表外单词的嵌入？

nlp、transformer、stanford-nlp、tokenization、huggingface

当我试图用bio_clinical bert获得一个句子的单词嵌入时，对于一个8个单词的句子，我会得到11个标记is (+开始和结束)，因为“嵌入”是一个词汇量不足的单词/标记，它被拆分为他们、床、丁、我想知道，除了对这些向量进行平均处理之外，是否有任何可用的聚合策略是有意义的。

浏览 0提问于2021-01-13得票数 2

点击加载更多