单词表示的one_hot与标记器

文章/答案/技术大牛

发布

1回答

tensorflow、keras、nlp

我在许多博客中看到，人们使用one_hot (来自tf.keras.preprocessing.text.one_hot )将单词字符串转换为表示索引的数字数组。这并不能保证单一性。而令牌器类确保了单一性(tf.keras.preprocessing.text.Tokenizer )。那么为什么one_hot比标记器更受欢迎呢？更新:我知道哈希在One_hot中用来将单词转换成数字，但并没有意识到它的</em

浏览 22提问于2020-12-23得票数 0

1回答

如何在keras中保存和重用一个热编码？

machine-learning、deep-learning、nlp

我正在做一个与NLP相关的项目。然后，我在google中使用一个热编码来表示文本，然后将它安装到LSTM中。这是我的密码：voc_size=13000 pickle.dump(one_hot, f) 但是，当我重新启动colab并再次加

浏览 4提问于2021-07-15得票数 0

1回答

StringLookup层与嵌入层在tensorflow层中的差异

python、tensorflow、keras

的文档表示，它将分类特性编码为数字特征，而根据我的理解，嵌入层也是如此。我认为唯一的区别是StringLookUp进行稀疏向量转换，其中OOV值被标记为0，而层则进行密集向量表示。请帮助我理解这些层之间的区别。据我所理解，One-hot编码会导致具有许多不同值的分类特性的高维性问题。然而，StringLookUp层带有output_mode =int，也会导致m单词<

浏览 7提问于2022-09-03得票数 1

1回答

用one_hot类对文本进行角化预处理

keras

from keras.preprocessing.text import one_hottokens = text_to_word_sequence(text)one_hot(text, length) 我不明白为什么和如何唯一的

浏览 0提问于2019-08-26得票数 3

回答已采纳

1回答

为什么pad_sequences在使用one_hot编码时是必需的？

python、machine-learning、keras、nlp、one-hot-encoding

labels = array([1,1,1,1,1,0,0,0,0,0]) encoded = [one_hot(d, voc_size) for d in docs]max_length = 4 我的理解是，“one_hot”编码已经根据词汇表大小创建了每个文档的等长。编辑:进一步澄清的另一个例子：单热编

浏览 2提问于2019-10-10得票数 1

回答已采纳

1回答

一种用于字嵌入的神经网络训练

keras、deep-learning、nlp、word-embedding

是实体的链接文件。我想训练一个神经网络把每个实体表示成一个向量。import one_hot from keras.models import SequentialX_train)))vocab_size = len(Entity) X_train_encode = [one_hot(d, voca

浏览 0提问于2019-04-23得票数 0

1回答

Keras数据集0与ovv_char

python、tensorflow、keras

我正在查看的文档，其中说：作为惯例，"0“并不代表特定的单词，而是用于编码任何未知的单词。

浏览 0提问于2019-08-17得票数 0

回答已采纳

1回答

为什么StringLookup会产生额外的标签？

python、tensorflow、keras

在TF文档中："one_hot"：将输入中的每个单独元素编码到一个数组中，其大小与词汇表相同。abcdefghijklmnopqrstuvwxyz") one_hot_encoder = tf.keras.layers.StringLookup(vocabulary=list(alphabet), output_mode='one_hot为什么它要编码成一个27字形的？是否应该有一个额外的标签来表示“无类”？

浏览 7提问于2022-09-24得票数 -1

回答已采纳

2回答

BERT for NER任务中的子字标记应该是什么？

python、named-entity-recognition、bert

对于任何新的任务，我们需要一系列的单词和它们相应的标签。要从BERT中提取这些单词的特性，需要将它们标记为子字。例如，单词'infrequent' (带有标签B-count)将被标记为['in', '##fr', '##e', '##quent']。它的标签将如何表示？根据纸，“我们使用第一个子令牌<

浏览 0提问于2020-03-13得票数 8

回答已采纳

1回答

部分单词标记器与面向单词的标记器Elasticsearch

elasticsearch、tokenize

我希望弹性文档将来会包含更多的例子和比较。

浏览 10提问于2019-03-24得票数 0

2回答

如何使用JAVACC中的空词作为标记？

compiler-construction、javacc

我正在使用JavaCC设置一个解析器，我希望使用空单词作为标记( epsilon单词)。我试着用一个非终端 {} } 我尝试了一个标记<空：“>什么也不起作用我想要一个符号来表示一个空单词

浏览 0提问于2019-02-01得票数 0

回答已采纳

3回答

从文本中提取一个热向量

python、numpy、pandas、vector、nlp

[word] for word in sent] for sent in texts]然后，我必须做同样的pd.get_dummies或np.eyes来得到一个热向量，但是我得到一个错误，在我的一个热向量中缺少一维，我有8个唯一的单词，但是一个热向量的长度只有7： >>> [pd.get_dummies(sent).values for使用np.eye，我确实得到了正确的向量

浏览 2提问于2016-04-21得票数 11

回答已采纳

1回答

TensorFlow: dataset.train.next_batch是如何定义的？

python-3.x、tensorflow、neural-network、autoencoder

dataset.train.next_batch是如何定义的？谢谢!

浏览 1提问于2017-01-04得票数 18

回答已采纳

1回答

字级分类器精度的测量

python、scikit-learn

我有一个与单词的句子相对应的列表。我的模型，一个tagger，用一些标签标记每个单词： ['proper','verb','noun'], ] 我想用网格搜索我的标记器</e

浏览 2提问于2019-09-11得票数 3

1回答

断词的可靠校正

nltk

我有一段文字作为输入，这里有关于aly brok en wor ds的文章。

浏览 1提问于2017-07-12得票数 1

回答已采纳

1回答

具有令牌上下文而不是标记上下文的Python NLTK Ngram标记器

python、nltk、n-gram

我一直在使用带有model关键字的NLTK Unigram标记器来传入特定标记的单词列表：... t4我想以与上面类似的方式使用Bigram和Trigram标记器，传入一个单词组合模型，以便序列中的最后一个单词根据其前面的单词进行标记</

浏览 0提问于2014-11-04得票数 1

1回答

NLTK中内置的POS标记器是否对其决策具有置信度价值？

python、statistics、nltk、tagging、opennlp

我正在使用NLTK包中的一个基本标记器。我之前使用的是OpenNLP的标签系统。我切换是因为NLTK有更多的预构建模块，我以后可以在我的项目中使用。但我现在缺少的一件事是标签器给出的“置信度”值。最初，通过设置OpenNLP，我得到了一个数值(从0到1)，它告诉我标记器对它的决定有多自信(0表示完全不自信，1表示完全自信)。我想

浏览 0提问于2013-01-08得票数 2

回答已采纳

1回答

需要关于RNN模型格式化字符串的建议

python、machine-learning、tensorflow、deep-learning、rnn

我是怎么想的系统只会接收或删除单个单词。另外，我想知道在我的系统中，节点的权重是否都

浏览 2提问于2017-07-17得票数 0

回答已采纳

0回答

tokenize在PIG中是如何工作的？

hadoop、apache-pig

我在下面提到的一个文件中有一个数据我想知道美国和欧洲的电话号码。(EUROPE),(EUROPE),(EUROPE),(USA)}{(EUROPE),(USA)} 这个输出smiliar与tokenizeDefination表示“将一串单词(单个元组中的所有单词)拆分成”一包单词(每个单词位于单个元组中)“。变成一个词袋语句在定义上看起来<e

浏览 8提问于2017-06-10得票数 0

回答已采纳

2回答

如何利用嵌入层获取短语的向量表示并进行PCA

machine-learning、neural-network、nlp、word-embeddings、pca

，所以我定义了对应于文档中每个句子的类标签，我根据记号器模块为每个单词分配一个整数，我准备我所有的单词序列都具有相同的长度，因为keras喜欢这样工作，然后我最终定义、编译和拟合模型。：print(encoded_docs) 这给了我以下的说明：0.0690882

浏览 0提问于2021-11-12得票数 1

回答已采纳

点击加载更多