我使用的是tf.data.Dataset
应用编程接口,它有一个大约500K行、大约1,800列的数据集。当我尝试的时候:
dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))
我回来了:
ValueError: Cannot create a tensor proto whose content is larger than 2GB.
我在谷歌上到处搜索,看到很多人遇到这个问题,但没有令人满意的答案。有没有办法绕过这个限制,或者使用tensorflow方法来分解我的dataset
?我已经对它进行了批处理,但这是在调用之后发生的:
dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))
无论如何,当我使用10%的数据时,我将数据从CSV读取到tf.data.Dataset
中的代码可以正常工作。
任何建议都会很棒!
发布于 2018-11-04 00:35:34
根据您的数据集,您可以尝试使用tf dataset api,这意味着您可以尝试将数据集转换为tf记录,也可以尝试使用csv文件。当你训练其他数据时,datasetapi负责在后台加载数据。这也大大加快了训练过程。
https://stackoverflow.com/questions/53107605
复制相似问题