如何将包含二进制值字符(0和1)的大型文本文件(>16G)转换为numpy数组文件,而不炸掉python中的内存?假设我们在机器上有足够的存储,但没有足够的RAM进行转换。样本代码:
converted_data = [ map(int,line.split(',')) for line in f ]
我现在正在做霍夫曼的编码,我在路上碰到了这个颠簸。除了这一部分,我几乎什么都做好了。我现在的主要问题是,我不知道如何存储使用我的代码编码的0和1s二进制字符串。我试着把它写出来,但是它的文件大小最终要比我编码的原始文本文件大得多。有人能告诉我如何存储二进制字符串,这样才不会发生这种情况吗?
我已经注意到,当我试图将许多字符转换成一个字符,并最终被打印为?String u = scanner.next