无法查看keras Tokenizer方法_tensorflow.data.TextLineDataset的keras.preprocessing.text.Tokenizer方法_无法从keras中的模块导入方法 - 腾讯云开发者社区

python、keras、nlp、data-science、tokenize

我想用印尼语把文字转换成序列。但是keras标记器只检测到已知的单词。如何在角星中添加已知的单词？或者有什么解决方案让我把文字转换成序列？ from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True) tokenizer.fit_on_texts(concated['TITLE'].val

浏览 0提问于2018-12-12得票数 2

回答已采纳

1回答

给予一个字符串和一个字符串列表给keras令牌器有什么区别？

python、keras、nlp、tokenize

我正在使用keras.preprocessing来标记句子，我在keras.preprocessing.text.Tokenize中遇到了一个意想不到的情况。当我给它字符串时，word_index的输出是单个字符及其索引的字典，而对于list，word_index的输出是单词字典(由空格分割)。为什么会发生这种事？用于令牌程序输入的字符串： from keras.preprocessing.text import Tokenizer text = "Keras is a deep learning and neural networks API by François Choll

浏览 2提问于2020-09-08得票数 1

1回答

tf.keras.preprocessing.text.Tokenizer()和tfds.features.text.Tokenizer()的比较

python、tensorflow、keras、tensorflow2.0、tensorflow-datasets

作为背景，我最近越来越多地研究NLP和文本处理。我更熟悉计算机视觉。我完全理解托肯化的概念。我的困惑源于Tokenizer类的各种实现，这些实现可以在Tensorflow生态系统中找到。 Tokenizer类既存在于Tensorflow Datasets (tfds)中，也存在于Tensorflow本身中：tfds.features.text.Tokenizer() & tf.keras.preprocessing.text.Tokenizer()。我查看了源代码(链接在下面)，但无法收集到任何有用的见解。这里的tl;dr问题是:您使用哪个库来做什么？

浏览 3提问于2020-05-07得票数 3

回答已采纳

1回答

texts_to_sequences()缺少一个所需的位置参数：“文本”

python、tensorflow、keras、deep-learning、google-colaboratory

当我运行这个cod时，我有一个带有形状的注释数组((8084，)) (UTF-8)，我得到了错误。 from keras.preprocessing.text import Tokenizer X = Tokenizer.texts_to_sequences(data['comment_text'].values) 错误是TypeError: texts_to_sequences()缺少一个必需的位置参数：'texts'

浏览 1提问于2020-04-13得票数 2

回答已采纳

1回答

为Keras准备文本数据(tensorflow)

python、tensorflow、keras

我只是使用Keras托卡器准备了文本数据 from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences VOCAB_SIZE= 10000 tokenizer = Tokenizer(num_words = VOCAB_SIZE) tokenizer.fit_on_texts(X_train) X_train_seq = tokenizer.texts_to_sequences(X_train) X_test

浏览 2提问于2021-05-04得票数 1

回答已采纳

1回答

tensorflow.data.TextLineDataset的keras.preprocessing.text.Tokenizer方法

python、tensorflow、keras、text、nlp

我有一个非常大的文本语料库，我正在加载： text_ds = tf.data.TextLineDataset(list_files) 并且不能再使用keras.preprocessing.text.Tokenizer.fit_on_texts或keras.preprocessing.text.Tokenizer.fit_on_texts.texts_to_sequences方法，因为这些方法需要字符串列表，而不是tensorflow对象。在测试我的代码时，我使用以下命令转换text_ds： input_data = list(map(tf.compat.as_str_any, list(te

浏览 12提问于2021-01-02得票数 0

2回答

如何将Keras导入到Java Deeplearning4j (DL4J)

java、import、deep-learning、keras

我使用Keras (TensorFlow上的2.1.4)实现了20个新闻组数据的文本分类。准确度为0.87。我还能够保存模型和标记器，并在另一个python程序中使用它们来预测文本文件的类。使用下面保存模型和令牌程序- # creates a HDF5 file 'my_model.h5' model.model.save('my_model.h5') # Save Tokenizer i.e. Vocabulary with open('tokenizer.pickle', 'wb') as handle: pickl

浏览 8提问于2018-05-04得票数 3

1回答

使用roberta模型无法定义模型.compile或摘要

python、keras、deep-learning、bert-language-model、roberta-language-model

使用罗伯塔模型进行情感分析无法定义模型.compile或摘要 from transformers import RobertaTokenizer, RobertaForSequenceClassification from transformers import BertConfig tokenizer = RobertaTokenizer.from_pretrained('roberta-base') robertamodel = RobertaForSequenceClassification.from_pretrained('roberta-base'

浏览 62提问于2021-06-27得票数 0

回答已采纳

1回答

从CSV加载文本数据并在Keras中应用标记器

python、pandas、tensorflow、keras

我为一个看似简单的问题提前道歉；然而，我是新使用Tensorflow和Keras的，我无法从教程或之前提出的问题中找到解决方案。我正在尝试加载一个包含文章标题和情感评分的数据集，并对文本数据使用分词器进行分类。我的代码如下： import keras import sklearn import pandas as pd import numpy as np from keras import preprocessing from keras import models from keras import layers from google.colab import drive driv

浏览 11提问于2020-10-29得票数 0

回答已采纳

1回答

当从木星的角点导入时，错误的“NoneType”对象没有属性“message_types_by_name”

python、tensorflow、keras、import、jupyter

我正试着从keras库做几个导入。我正在使用安装了Python的Anaconda在木星笔记本上这样做。我以前很好地使用过keras，我只是检查了更新，但没有发现。以下是导入语句。 from keras.preprocessing.text import Tokenizer from keras.utils import to_categorical from keras.models import Sequential from keras.layers import Dense from keras.layers import SimpleRNN from keras.layers impo

浏览 8提问于2022-04-11得票数 0

1回答

Tensorflow文本标记器标记化不正确

tensorflow、keras、text、tensorflow2.0

我正在尝试将TF Tokenizer用于NLP模型。 from tensorflow.keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=200, split=" ") sample_text = ["This is a sample sentence1 created by sample person AB.CDEFGHIJKLMNOPQRSTUVWXYZ", "This is another sample sentence

浏览 15提问于2021-08-25得票数 0

回答已采纳

1回答

AttributeError：“Tokenizer”对象在Keras中没有属性“oov_token”

python、nlp、keras、pickle、tokenize

我试图使用加载的令牌程序对文本进行编码，但得到了以下错误 AttributeError: 'Tokenizer' object has no attribute 'oov_token' 我包括了下面的代码： from keras.preprocessing.text import Tokenizer from keras.preprocessing import sequence from keras.models import Model, Input, Sequential, load_model import pickle import h5py

浏览 0提问于2018-04-16得票数 4

回答已采纳

3回答

Keras标记化(适合文本)

machine-learning、keras、tokenize、keras-layer、stringtokenizer

当我运行这个脚本时--> tokenizer.fit_on_texts(df['text'].values) sequences = tokenizer.texts_to_sequences(df['text'].values) word_index = tokenizer.word_index print('Found %s unique tokens.' % len(word_index)) 我得到了这个错误 AttributeError Traceback (most recen

浏览 26提问于2019-02-14得票数 0

2回答

如何在颤振中使用训练过的tensorflow模型？

python、flutter、tensorflow、tensorflow2.0、flutter-web

我训练了一个tensorflow模型来预测输入文本的下一个单词。我将它保存为一个.h5文件。我可以在另一个python代码中使用该模型来预测word，如下所示： import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences from keras.models import load_model model = load_model('model.h5')

浏览 9提问于2021-03-04得票数 5

1回答

文本:模块“”keras.preprocessing“”没有特性“”AttributeError“”

python、keras

当我尝试在Keras中导入Tokenizer()函数时，我得到了以下错误。我在上关注Keras官方文档 import keras tokenizer = keras.preprocessing.text.Tokenizer() 得到如下错误： Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: module 'keras.preprocessing' has no attribute 'text'

浏览 3提问于2018-02-01得票数 1

1回答

角化文本矢量化层的反向？

python、tensorflow、keras、tokenize

tf.keras.layers.TextVectorization层将文本特性映射为整数序列，由于它可以作为keras模型层添加，因此可以方便地将模型部署为单个文件，该文件以字符串作为输入并对其进行处理。但我也需要做反向操作，而无法找到任何方法来做到这一点。我正在使用一个LSTM模型来预测前面单词中的下一个单词。例如，我的模型需要接受一个字符串“我爱”，并且应该输出可能的下一个单词，如“猫”、“狗”等等。我可以使用这样的tf.keras.preprocessing.text.Tokenizer手动执行这个整数之间的映射字符串： text = "I love cats" toke

浏览 4提问于2022-04-09得票数 0

1回答

如何使用Keras创建NLP处理管道

tensorflow、keras、google-cloud-platform、tensorflow2.0

我经常使用scikit-learn管道来简化模型处理，我想知道在TensorFlow2.0中使用Keras做类似事情的最简单方法。我想要做的是部署一个Keras模型作为API端点，然后以numpy数组的形式向它提交一段文本，并对其进行标记化、填充和预测。但我不知道这样做的最短路径。下面是一些示例代码： from tensorflow import keras from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences from keras.mod

浏览 20提问于2020-10-03得票数 2

1回答

keras中类属性的描述

tensorflow、keras

在keras中哪里可以找到类属性的描述(或者如果它被称为实例变量)？例如tf.keras.preprocessing.text.Tokenizer中的word_index？使用示例： sentence = ['a', 'b', '{', 'c', '-'] tokenizer = Tokenizer(oov_token="<OOV>") tokenizer.fit_on_texts(sentence) w = tokenizer.word_index print(w) 我在https

浏览 19提问于2020-04-17得票数 2

1回答

如何修复numpy ValueError

python-3.x、numpy、keras

有没有人可以帮我纠正下面的代码错误？我正在准备我的数据，以便用深度学习模型训练它，但由于numpy ValueError的原因，我无法完成这一点。这是我的原始数据：https://drive.google.com/file/d/1skaoLARqjrEeLOf4R-9Ulh89M8KWOTYD/view?usp=sharing。清理后，这是用于训练我的模型的最终输出：https://drive.google.com/file/d/1i_OOkuSTQ7Y6iQJALbGUtJ5Fs10POuBY/view?usp=sharing。下面是用于训练我的模型的类WordEmbedding： f

浏览 24提问于2019-12-08得票数 0

1回答

将SentencepieceTokenizer保存在Keras模型中会引发TypeError:未能将[None，None]的元素转换为张量

python、tensorflow、keras、sentencepiece

我正在尝试保存一个使用SentencepieceTokenizer的Keras模型。到目前为止，一切都正常，但我无法保存Keras模型。在训练sentencepiece模型之后，我将创建Keras模型，先用一些示例调用它，然后尝试按如下方式保存它： proto = tf.io.gfile.GFile(model_path, "rb").read() model = Model(tokenizer=proto) embed = model(examples) assert embed.shape[0] == len(examples) model.save("embe

浏览 6提问于2022-08-02得票数 1

回答已采纳

1回答

UnparsedFlagAccessError:在解析标志之前尝试访问标志--preserve_unused_tokens。伯特

python、nlp、bert-language-model

我想使用Bert语言模型来训练多类文本分类任务。之前我使用LSTM训练，没有任何错误，但Bert给了我这个错误。我收到这个错误如下，我真的不知道如何解决它，谁能帮助我吗？不幸的是，在keras库中使用Bert的文档很少。 !wget --quiet https://raw.githubusercontent.com/tensorflow/models/master/official/nlp/bert/tokenization.py import tensorflow_hub as hub from bert import tokenization module_url = 'ht

浏览 72提问于2021-04-11得票数 0

回答已采纳

2回答

用keras.preprocessing.text.Tokenizer标记中文文本

python、keras、nlp、tokenize、cjk

keras.preprocessing.text.Tokenizer不能正确地处理中文文本。我如何修改它来处理中文文本呢？ from keras.preprocessing.text import Tokenizer def fit_get_tokenizer(data, max_words): tokenizer = Tokenizer(num_words=max_words, filters='!"#%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n') tokenizer.fit_on_texts(data)

浏览 10提问于2022-01-28得票数 1

回答已采纳

2回答

用字符RNN生成莎士比亚文本

python、machine-learning、neural-network、nltk、recurrent-neural-network

我正在读一本ML书Hands on Machine Learning (第二版)，在第526页Generating Shakespearean Text Using a Character RNN上有一个主题，我正在做他们正在做的事情，但是在训练的时候，它显示了TypeError。我尽力在我的水平上解决这个问题。 TypeError:不支持的操作数类型为*：'int‘和'NoneType’ 这是代码 import tensorflow as tf from tensorflow import keras from nltk import tokeni

浏览 3提问于2020-07-15得票数 0

回答已采纳

1回答

Tensorflow ValueError: logits和标签必须具有相同的形状((无，2) vs (无，1))

python、tensorflow、keras

我是机器学习的新手，我想我会从科拉斯开始。在这里，我将电影评论分类为三类(正为1，中性为0，负为-1)，使用二进制交叉熵。所以，当我试图用tensorflow估计来包装我的keras模型时，我得到了误差。守则如下： import tensorflow as tf import numpy as np import pandas as pd import numpy as K csvfilename_train = 'train(cleaned).csv' csvfilename_test = 'test(cleaned).csv' # Read .csv

浏览 3提问于2020-08-12得票数 2

回答已采纳

1回答

num_words指定了什么？

python、tensorflow、machine-learning、keras、nlp

考虑到这段代码： from tensorflow.keras.preprocessing.text import Tokenizer sentences = [ 'i love my dog', 'I, love my cat', 'You love my dog!' ] tokenizer = Tokenizer(num_words = 1) tokenizer.fit_on_texts(sentences) word_index = tokenizer.word_index print(word_index) 无论

浏览 3提问于2020-10-01得票数 7

回答已采纳

1回答

双向LSTM文本分类模型向TFLite模型转换中的错误

keras、nlp、lstm、tensorflow2.0、tensorflow-lite

我的模型是在"imdb评论数据集“上训练的，在预测电影评论的情绪时效果很好。然而，当我将我的模型转换为Tensorflow Lite时，它会输出:只有在第1维中才支持任何一种。张量‘嵌入1输入’具有无效的形状‘无，无’。在训练我的模型时，我没有指定一个特定的形状，因此我不确定我的模型要使用我的android应用程序时要传递什么样的形状。(只要我将embedding_input形状转换为其他东西，就会创建TFLite模型，但不适用于我的安卓应用程序) 型号代码： from tensorflow import keras from keras.preprocessing.text impo

浏览 3提问于2020-07-10得票数 0

回答已采纳

1回答

在使用<EOS>托卡器之后，是否应该将<BOS>和keras.preprocessing.text标记明确地添加到词汇表中？

python、tensorflow、keras、recurrent-neural-network、vocabulary

在Keras中，我们有keras.preprocessing.text来根据我们的需求标记文本并生成一个词汇。 tokenizer = tf.keras.preprocessing.text.Tokenizer(split=' ', oov_token=1) tokenizer.fit_on_texts(["Hello world"]) seqs = tokenizer.texts_to_sequences(["Hello world"]) 我不确定的是，如果我们将生成的seqs填充到固定长度的seq，那么是否要显式地添加seq标记和BOS标签

浏览 2提问于2020-05-26得票数 1

回答已采纳

1回答

LSTM文本生成模型的写生成函数

python、tensorflow、keras、deep-learning、nlp

我有一个用于文本生成的LSTM模型，但是当试图增加要输入的数据量时，我会遇到内存问题，因此我发现可以使用fit_generator函数逐步加载数据。目前的问题是，当唯一的单词数量增加时，keras.utils.to_categorical占用了很大的空间。因此，我想将这个代码块转换为生成器函数： x_values, labels = input_seqs[:, :-1], input_seqs[:, -1] y_values = tf.keras.utils.to_categorical(labels, num_classes=total_unique_words) #Shape of

浏览 1提问于2022-05-26得票数 0

回答已采纳

1回答

用于多类预测的多个命题

keras、lstm

我正在做一个单词预测问题。我有职业道路的例子，我希望能够预测下一个人的工作使用他们的最后两个工作。我已经构建了一个LSTM模型来执行它当我打算从keras model.predict_classes函数中获得多个结果时，我遇到了一个问题。它只返回1个结果。我希望得到多个结果，按概率排序。代码如下： from numpy import array from keras.preprocessing.text import Tokenizer from keras.utils import to_categorical from keras.preprocessing.sequence impo

浏览 0提问于2018-06-25得票数 2

3回答

keras文档如何获取方法和属性的详细信息

methods、keras、attributes

我想知道更多关于keras tokenizer的信息，在谷歌上快速搜索一下，我就找到了 (这是谷歌搜索中的第一个链接)。为什么不列出所有的方法和属性呢？我怎么能看到这些呢？有没有一个单独的页面？我找到了另一个。它似乎是官方的keras文档，但对于旧版本，它列出了方法和属性。我希望看到类似的信息，但最新的keras版本

浏览 2提问于2019-03-08得票数 2

1回答

遵循StackAbuse指南，但它不工作

python、tensorflow、keras

我在使用tensorflow和numpy的rnn文本生成网络上遵循this指南。我一直在几乎逐字地遵循指南，但它在23号和26号遇到一个错误，因为"TypeError: can only join an interable“。我不确定这是什么意思，因为我一直在抄袭指南。有人知道问题出在哪里吗？代码： import numpy import sys from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords from keras.models import Sequential from ker

浏览 2提问于2020-12-24得票数 0

1回答

在Keras工作流中使用NLTK标记器

machine-learning、keras、nlp、nltk

我正在使用Keras标记器对句子进行标记化，然后创建可用于神经网络训练的单词索引序列： from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=5000) tokenizer.fit_on_texts(X_train) X_train = tokenizer.texts_to_sequences(X_train) 如何使用casual_tokenize NLTK标记器来实现类似的结果？NLTK toeknizer不提供texts_to_sequences()方法。

浏览 0提问于2020-08-05得票数 0

1回答

无法从Keras导入Tokenizer

python、machine-learning、deep-learning、keras

目前正在处理一个深度学习示例，他们正在使用Tokenizer包。我收到以下错误： AttributeError：“Tokenizer”对象没有属性“”word_index“” 下面是我的代码： from keras.preprocessing.text import Tokenizer samples = ['The cat say on the mat.', 'The dog ate my homework.'] tokenizer = Tokenizer(num_words=1000) tokenizer.fit_on_sequences(samples

浏览 1提问于2018-02-03得票数 2

回答已采纳

3回答

Keras Tokenizer方法到底是做什么的？

python、keras、nlp

在某些情况下，我们需要做以下工作： from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=my_max) 然后，我们总是念诵这个咒语： tokenizer.fit_on_texts(text) sequences = tokenizer.texts_to_sequences(text) 虽然我(或多或少)理解总体效果是什么，但无论我做了多少研究(显然，包括文档)，我都无法弄清楚每个人分别做什么。我想我从没见过一个没有另一个。那么每个人都做什么呢？是否有任何情况下，你会使用任何一个而没有另

浏览 3提问于2018-08-21得票数 114

回答已采纳

1回答

在令牌化(texts_to_sequence)期间没有值出现

python-3.x、machine-learning

from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences test_sentence1 = "This is the worst flight experience of my life!" tokenizer = Tokenizer(num_words=5000) sequences = tokenizer.texts_to_sequences([test_sentence1]) prin

浏览 2提问于2022-03-09得票数 -1

回答已采纳

1回答

如何使用tensorflow上的文本分类来固定学习率？

tensorflow、keras、deep-learning、sentiment-analysis、text-classification

我一直在用tensorflow keras编写情感分析模型。我正在使用csv数据集，它的标签(pos:1，neg:0)在第一行，英文文本在第二行。我期望的结果是，当我通过txt文件输入一些文本时，显示的数字介于0和1之间。然而，虽然我设置了模型，但丢失率保持在负值，准确率没有增加，包括验证率。我不知道是怎么回事。因此，我附上了我的代码。非常感谢。 import csv import tensorflow as tf import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer from tensorfl

浏览 0提问于2020-03-03得票数 2

1回答

tf.texts_to_sequences以0开头

tensorflow、keras

我正在做标签编码使用编码器使用以下代码。它进行编码，但从1开始，而不是0。我怎么才能从0开始编码？ label_tokenizer = Tokenizer() label_tokenizer.fit_on_texts(labels) training_label_seq = np.array(label_tokenizer.texts_to_sequences(train_labels)) validation_label_seq = np.array(label_tokenizer.texts_to_sequences(validation_labels)) 下面的代码显示它从1开始： l

浏览 0提问于2020-07-14得票数 1

1回答

如何更准确地标记具有多种语言的word数据列？

python、machine-learning、keras、multilingual

在多语种分类数据集上工作，其中一列有多种语言的文本，我尝试使用简单的令牌化，但它的准确率较低。我使用过简单的记号器，但是准确率要低得多。 Dataset有一个包含多语言文本的列。 from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences tokenizer = Tokenizer(num_words=18, lower=True) tokenizer.fit_on_texts(data.overview) sequences = tokenizer

浏览 1提问于2019-09-05得票数 0

1回答

为什么Tokenizer比num_words记录更多的单词？

python、tensorflow、keras

我有以下代码 import tensorflow as tf from tensorflow import keras from tensorflow.keras.preprocessing.text import Tokenizer sentences = [ 'I love my dog', 'I love my cat', 'You love my dog', ] tokenizer = Tokenizer(num_words=3) tokenizer.fit

浏览 1提问于2019-09-12得票数 4

1回答

Python Keras NLP模型到Tensorflowjs的转换

tensorflow、keras、tensorflowjs-converter、tensorflowjs

我正在努力学习更多关于Tensorflowjs的知识，但不幸的是，我的Keras NLP模型被转换成了Tensorflowjs。这就是我想要转换的： from keras.models import load_model from keras.preprocessing.sequence import pad_sequences import pickle list_classes = ["toxic", "severe_toxic", "obscene", "threat", "insult", "

浏览 3提问于2019-05-28得票数 0

1回答

如何使用标记器函数tensorflow标记标点符号

python、tensorflow、keras、nlp、tokenize

我使用tensorflow.keras.preprocessing.text中的Tokenizer()函数如下： from tensorflow.keras.preprocessing.text import Tokenizer s = ["The quick brown fox jumped over the lazy dog."] t = Tokenizer() t.fit_on_texts(s) print(t.word_index) 输出： {'the': 1, 'quick': 2, 'brown': 3, '

浏览 11提问于2020-09-30得票数 1

回答已采纳

1回答

我得到这个错误AttributeError：'NoneType‘对象没有'word_index’属性

python、nlp、tensorflow2.0

即使当我打印句子时，它也会打印逗号分隔的字符串数，下面是我的代码： from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import json sentence = [] urls = [] labels = [] data = [json.loads(line) for line in open('Sarcasm_Headlines_Dataset.json', 'r&#

浏览 0提问于2020-08-03得票数 0

1回答

无法查看keras Tokenizer方法

python、machine-learning、keras

这肯定是一个微不足道的问题(对于github来说是新的)。我正在尝试查看github上的keras Tokenizer代码、类及其方法。路径keras/ keras /preprocessing/text.py --也就是keras文档页面上的“source”链接所指向的位置--只显示了14行，它们要么是导入定义，要么是别名定义。我应该往哪里看呢？在互联网上搜索了几个小时(包括注册github并尝试它的基本功能--以防我漏掉了什么明显的东西)，也没有得到答案。

浏览 12提问于2019-06-24得票数 0

回答已采纳

1回答

为什么word_index的长度大于num_words？

python-3.x、tensorflow、keras、deep-learning、nlp

我有一个代码，关于深入学习的文本预处理： from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences tokenizer = Tokenizer(num_words = 10000) tokenizer.fit_on_texts(X) tokenizer.word_index 但是，当我检查tokenizer.word_index的长度时，安全的是得到10000，得到的是13233。X的长度等于11541 (但是，如果需要知道的话，包含11541的数

浏览 9提问于2022-03-06得票数 1

回答已采纳

1回答

我的神经网络预测给我一个错误: IndexError:列表索引超出范围

python、machine-learning、keras、neural-network、data-analysis

我正在做一个简单的火腿/垃圾邮件文本分类。我的Keras NN经过了正确的训练和评估；然而，当我尝试以以下格式预测一个新文本时，我得到了一个"IndexError: list index out of range“错误： model.predict(cleaning_funcs('my bus departs in five minutes')) 如果有任何帮助的话，我还使用了以下内容： from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=5000) tokeni

浏览 38提问于2020-11-10得票数 0

回答已采纳

1回答

为什么我的python代码会出现类型错误，因为在将字典列表加载到Tokenizer对象时，dict对象是不可调用的？

machine-learning、keras、nlp、tensorflow2.0、tokenize

我试图编程一个讽刺检测模型使用讽刺数据集从Kaggle使用木星笔记本。我已经将数据集下载到我的pc上，并将其修改为字典列表。字典由三个键组成，如article_link、is_sarcastic和标题。下面的代码给出了以下错误： TypeError追踪(最近调用7 tokenizer.fit_on_texts(句子)8-->9 my_word_index=tokenizer.word_index() 10 11打印(len(Word_index) TypeError：“dict”对象不可调用 import os import pandas os.getcwd() import js

浏览 4提问于2020-11-18得票数 0

回答已采纳

1回答

当训练gru模型TypeError:不支持的操作数类型为*：'int‘和'NoneType’时，我得到了这个错误

python、tensorflow、keras、deep-learning、training-data

使用Scikit学习Keras和TensorFlow第二版的机器学习代码-2019年 import tensorflow as tf from tensorflow import keras from __future__ import print_function from keras.callbacks import LambdaCallback from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from keras.optimizers imp

浏览 2提问于2019-12-13得票数 1

回答已采纳

2回答

使用Keras Tokenizer生成n元语法

nlp、keras、tokenize、text-processing、n-gram

在Keras中可以使用n-gram吗？例如，包含在X_train数据帧中的带有“句子”列的句子。我通过以下方式使用Keras中的tokenizer： tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to_sequences(X_train.sentences) 然后，我将句子填充如下： X_train_sequence = sequence.pad_sequences(X_tra

浏览 3提问于2017-09-12得票数 10

2回答

烧瓶中加载的keras模型总是预测相同的类

python、tensorflow、machine-learning、flask、keras

奇怪的事情正在发生在我身上。我使用keras训练了一个情感分析模型，如下所示： max_fatures = 2000 tokenizer = Tokenizer(num_words=max_fatures, split=' ') tokenizer.fit_on_texts(data) X = tokenizer.texts_to_sequences(data) X = pad_sequences(X) with open('tokenizer.pkl', 'wb') as fid: _pickle.dump(tokenizer, f

浏览 26提问于2019-05-06得票数 1

1回答

打包keras标记器/word索引，用于google tokenizer

python、keras、google-cloud-ml-engine

我在Keras中创建了一个文本分类器，我可以很好地在Cloud上训练Keras模型:该模型随后部署在Cloud上。但是，在传递文本进行分类时，它返回错误的分类:我强烈怀疑它没有使用我在创建keras分类器时使用的标记器/word索引，而是用于对新文本进行令牌化。我不确定如何在训练时将tokeniser/word索引传递给Cloud :有一个以前的，但是 gcloud ml-engine jobs submit training 获取包含单词索引映射的泡菜或文本文件？如果是这样，我应该如何配置setup.py文件？编辑：所以，我使用Keras来记录输入文本，如下所示： tokenizer

浏览 2提问于2017-09-08得票数 3

回答已采纳