我有一个包含questions and answers的数据集,格式如下:
[question...]?\t[answer...].
示例
Do you like pizza? Yes its delicious.
...
现在我想用它来训练一个keras模型。但是当我加载它的时候,我不能把它变成一个numpy数组,因为句子的长度不一样。
在input_text和out_text中,我将问题和答案存储为拆分的单词,如下所示:
[["Do", "you", "like", "pizza", "?"]
[ ... ]]
以下是我的代码的一部分。(我还使用一个自制函数将单词转换为向量)
X_data = []
Y_data = []
for i in range(len(input_text)):
xdata = []
ydata = []
xdata = xdata+[wordtovec(word,wrdvecdic) for word in input_text[i]]
for i in range(len(input_text[i])):
ydata.append([0 for i in range(300)])
xdata.append([0 for i in range(300)])
ydata.append([0 for i in range(300)])
ydata = ydata+[wordtovec(word, wrdvecdic) for word in out_text[i]]
for i in range(len(out_text[i])):
xdata.append([0 for i in range(300)])
X_data.append(xdata)
Y_data.append(ydata)
X_data = np.array(X_data)
Y_data = np.array(Y_data)
也许我可以展示如何做到这一点,或者有一个链接到一个类似数据集的例子,以及如何将它加载到keras的numpy数组中。
感谢您的回复。
https://stackoverflow.com/questions/54028273
复制相似问题