让我们调用可用内存的数量R。
我们有一个10的未排序文件与一列键(允许重复)。
您将文件拆分为k个文件,每个文件的大小为R。您对每个文件进行排序并将文件写入磁盘。
您将(10 / R)从每个文件中读取到输入缓冲区中。执行k路合并,从第一个文件中读取第一个键,并将其与输入缓冲区中的每个其他键进行比较,以找到最小值。您可以将其添加到输出缓冲区中,该缓冲区还应该保存(10 / R)的数据。
输出缓冲区满后,将其写入磁盘到最终排序文件。
重复此过程,直到完全读取所有k文件为止。如果输入缓冲区为空,则使用相应文件的下一个(10 / R)内存填充,直到文件被完全读取为止。我们可以并行地进行缓冲区填充。
这个算法的正式名称是什么?这是一种K路合并类型吗?
第一部分,我们分裂成K文件的部分是O((n / k) log (n / k))第二部分,其中合并的是O(nk)?
如果我错了,我能解释一下吗?如果这是外部合并排序,我们如何进一步优化它?
发布于 2017-08-18 18:48:19
我认为它是一种合并算法,确切的文件IO是实现细节。
https://stackoverflow.com/questions/45763105
复制相似问题