我正在使用keras.preprocessing来标记句子,我在keras.preprocessing.text.Tokenize中遇到了一个意想不到的情况。当我给它字符串时,word_index的输出是单个字符及其索引的字典,而对于list,word_index的输出是单词字典(由空格分割)。
为什么会发生这种事?
用于令牌程序输入的字符串:
from keras.preprocessing.text import Tokenizer
text = "Keras is a deep learning and neural networks API by François Choll
我使用Keras (TensorFlow上的2.1.4)实现了20个新闻组数据的文本分类。准确度为0.87。我还能够保存模型和标记器,并在另一个python程序中使用它们来预测文本文件的类。使用下面保存模型和令牌程序-
# creates a HDF5 file 'my_model.h5'
model.model.save('my_model.h5')
# Save Tokenizer i.e. Vocabulary
with open('tokenizer.pickle', 'wb') as handle:
pickl
我为一个看似简单的问题提前道歉;然而,我是新使用Tensorflow和Keras的,我无法从教程或之前提出的问题中找到解决方案。 我正在尝试加载一个包含文章标题和情感评分的数据集,并对文本数据使用分词器进行分类。我的代码如下: import keras
import sklearn
import pandas as pd
import numpy as np
from keras import preprocessing
from keras import models
from keras import layers
from google.colab import drive
driv
我正试着从keras库做几个导入。我正在使用安装了Python的Anaconda在木星笔记本上这样做。我以前很好地使用过keras,我只是检查了更新,但没有发现。以下是导入语句。
from keras.preprocessing.text import Tokenizer
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import SimpleRNN
from keras.layers impo
我正在尝试将TF Tokenizer用于NLP模型。 from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=200, split=" ")
sample_text = ["This is a sample sentence1 created by sample person AB.CDEFGHIJKLMNOPQRSTUVWXYZ",
"This is another sample sentence
我训练了一个tensorflow模型来预测输入文本的下一个单词。我将它保存为一个.h5文件。
我可以在另一个python代码中使用该模型来预测word,如下所示:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from keras.models import load_model
model = load_model('model.h5')
tf.keras.layers.TextVectorization层将文本特性映射为整数序列,由于它可以作为keras模型层添加,因此可以方便地将模型部署为单个文件,该文件以字符串作为输入并对其进行处理。但我也需要做反向操作,而无法找到任何方法来做到这一点。我正在使用一个LSTM模型来预测前面单词中的下一个单词。例如,我的模型需要接受一个字符串“我爱”,并且应该输出可能的下一个单词,如“猫”、“狗”等等。我可以使用这样的tf.keras.preprocessing.text.Tokenizer手动执行这个整数之间的映射字符串:
text = "I love cats"
toke
我经常使用scikit-learn管道来简化模型处理,我想知道在TensorFlow2.0中使用Keras做类似事情的最简单方法。 我想要做的是部署一个Keras模型作为API端点,然后以numpy数组的形式向它提交一段文本,并对其进行标记化、填充和预测。但我不知道这样做的最短路径。 下面是一些示例代码: from tensorflow import keras
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.mod
有没有人可以帮我纠正下面的代码错误?我正在准备我的数据,以便用深度学习模型训练它,但由于numpy ValueError的原因,我无法完成这一点。 这是我的原始数据:https://drive.google.com/file/d/1skaoLARqjrEeLOf4R-9Ulh89M8KWOTYD/view?usp=sharing。清理后,这是用于训练我的模型的最终输出:https://drive.google.com/file/d/1i_OOkuSTQ7Y6iQJALbGUtJ5Fs10POuBY/view?usp=sharing。 下面是用于训练我的模型的类WordEmbedding: f
我正在读一本ML书Hands on Machine Learning (第二版),在第526页Generating Shakespearean Text Using a Character RNN上有一个主题,我正在做他们正在做的事情,但是在训练的时候,它显示了TypeError。我尽力在我的水平上解决这个问题。
TypeError:不支持的操作数类型为*:'int‘和'NoneType’
这是代码
import tensorflow as tf
from tensorflow import keras
from nltk import tokeni
考虑到这段代码:
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
'i love my dog',
'I, love my cat',
'You love my dog!'
]
tokenizer = Tokenizer(num_words = 1)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)
无论
我的模型是在"imdb评论数据集“上训练的,在预测电影评论的情绪时效果很好。然而,当我将我的模型转换为Tensorflow Lite时,它会输出:只有在第1维中才支持任何一种。张量‘嵌入1输入’具有无效的形状‘无,无’。在训练我的模型时,我没有指定一个特定的形状,因此我不确定我的模型要使用我的android应用程序时要传递什么样的形状。(只要我将embedding_input形状转换为其他东西,就会创建TFLite模型,但不适用于我的安卓应用程序)
型号代码:
from tensorflow import keras
from keras.preprocessing.text impo
我正在做一个单词预测问题。我有职业道路的例子,我希望能够预测下一个人的工作使用他们的最后两个工作。我已经构建了一个LSTM模型来执行它
当我打算从keras model.predict_classes函数中获得多个结果时,我遇到了一个问题。它只返回1个结果。我希望得到多个结果,按概率排序。
代码如下:
from numpy import array
from keras.preprocessing.text import Tokenizer
from keras.utils import to_categorical
from keras.preprocessing.sequence impo
我在使用tensorflow和numpy的rnn文本生成网络上遵循this指南。我一直在几乎逐字地遵循指南,但它在23号和26号遇到一个错误,因为"TypeError: can only join an interable“。我不确定这是什么意思,因为我一直在抄袭指南。有人知道问题出在哪里吗?代码: import numpy
import sys
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from keras.models import Sequential
from ker
目前正在处理一个深度学习示例,他们正在使用Tokenizer包。我收到以下错误:
AttributeError:“Tokenizer”对象没有属性“”word_index“”
下面是我的代码:
from keras.preprocessing.text import Tokenizer
samples = ['The cat say on the mat.', 'The dog ate my homework.']
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_sequences(samples
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
test_sentence1 = "This is the worst flight experience of my life!"
tokenizer = Tokenizer(num_words=5000)
sequences = tokenizer.texts_to_sequences([test_sentence1])
prin
我一直在用tensorflow keras编写情感分析模型。我正在使用csv数据集,它的标签(pos:1,neg:0)在第一行,英文文本在第二行。我期望的结果是,当我通过txt文件输入一些文本时,显示的数字介于0和1之间。然而,虽然我设置了模型,但丢失率保持在负值,准确率没有增加,包括验证率。我不知道是怎么回事。因此,我附上了我的代码。非常感谢。
import csv
import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorfl
我有以下代码
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
'I love my dog',
'I love my cat',
'You love my dog',
]
tokenizer = Tokenizer(num_words=3)
tokenizer.fit
我使用tensorflow.keras.preprocessing.text中的Tokenizer()函数如下: from tensorflow.keras.preprocessing.text import Tokenizer
s = ["The quick brown fox jumped over the lazy dog."]
t = Tokenizer()
t.fit_on_texts(s)
print(t.word_index) 输出: {'the': 1, 'quick': 2, 'brown': 3, '
即使当我打印句子时,它也会打印逗号分隔的字符串数,下面是我的代码:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import json
sentence = []
urls = []
labels = []
data = [json.loads(line) for line in open('Sarcasm_Headlines_Dataset.json', 'r
我正在做一个简单的火腿/垃圾邮件文本分类。我的Keras NN经过了正确的训练和评估;然而,当我尝试以以下格式预测一个新文本时,我得到了一个"IndexError: list index out of range“错误: model.predict(cleaning_funcs('my bus departs in five minutes')) 如果有任何帮助的话,我还使用了以下内容: from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=5000)
tokeni
使用Scikit学习Keras和TensorFlow第二版的机器学习代码-2019年
import tensorflow as tf
from tensorflow import keras
from __future__ import print_function
from keras.callbacks import LambdaCallback
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from keras.optimizers imp
奇怪的事情正在发生在我身上。我使用keras训练了一个情感分析模型,如下所示: max_fatures = 2000
tokenizer = Tokenizer(num_words=max_fatures, split=' ')
tokenizer.fit_on_texts(data)
X = tokenizer.texts_to_sequences(data)
X = pad_sequences(X)
with open('tokenizer.pkl', 'wb') as fid:
_pickle.dump(tokenizer, f