首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何将文本数据集(问答)加载到numpy数组中以训练keras模型

如何将文本数据集(问答)加载到numpy数组中以训练keras模型
EN

Stack Overflow用户
提问于 2019-01-04 02:59:27
回答 1查看 330关注 0票数 1

我有一个包含questions and answers的数据集,格式如下:

代码语言:javascript
复制
[question...]?\t[answer...].

示例

代码语言:javascript
复制
Do you like pizza?     Yes its delicious.
...                    

现在我想用它来训练一个keras模型。但是当我加载它的时候,我不能把它变成一个numpy数组,因为句子的长度不一样。

在input_text和out_text中,我将问题和答案存储为拆分的单词,如下所示:

代码语言:javascript
复制
[["Do", "you", "like", "pizza", "?"] 
 [ ... ]]

以下是我的代码的一部分。(我还使用一个自制函数将单词转换为向量)

代码语言:javascript
复制
X_data = []
Y_data = []

for i in range(len(input_text)):
    xdata = []
    ydata = []
    xdata = xdata+[wordtovec(word,wrdvecdic) for word in input_text[i]]
    for i in range(len(input_text[i])):
        ydata.append([0 for i in range(300)])

    xdata.append([0 for i in range(300)])
    ydata.append([0 for i in range(300)])

    ydata = ydata+[wordtovec(word, wrdvecdic) for word in out_text[i]]
    for i in range(len(out_text[i])):
        xdata.append([0 for i in range(300)])

    X_data.append(xdata)
    Y_data.append(ydata)

X_data = np.array(X_data)
Y_data = np.array(Y_data)

也许我可以展示如何做到这一点,或者有一个链接到一个类似数据集的例子,以及如何将它加载到keras的numpy数组中。

感谢您的回复。

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54028273

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档