我有一个相对较大的数据集,它是非常异构的。在模型的训练过程中,我已经使用了shuffle my dataset,如文档示例: (但无法将其全部混洗,因为它会占用太多内存),我还将我的数据集分成多个小碎片,每个碎片大小相等。然而,我有理由认为这种“近似”的混洗是不够的,我还认为馈送已经混洗的数据将提高训练速度。所以现在我的问题是:在我将我的数据集分成Tfrecords分片后,是否有可能高效地编写随机获取2个分片的代码,加载它们,对它们进行混洗,然后重写2个分片</
我没有面对这个问题,但我总是会想到..当然,这只是在复制数据之后,使用memcached和分区...order by date_added desc
在这种情况下,如果行有数十亿行,并且需要对哪个键进行分片,那么在不影响上述两个查询性能的情况下,使用哪个键呢?如果我的分片键是user_id,对于组,我必须访问多个数据库才能获得所需的结果(通过更改应用程序逻辑)。如果它是在group_id上为用户配置文件,我必须去多个数据库,以获得所需的结果。