我目前正在读入一个很大的csv文件(大约100万行),使用中描述的命令,例如:with open('eggs.csv', 'rb') as csvfile: for row in spamreader:我怀疑这被证明是相当慢的,因为每一行都是单独读取的(需要对硬盘驱动器进行大量的读取调用)。有没有办法一次读取
我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大,我正在考虑将数据存储在辅助存储中,如Azure data Lake Store和Hadoop集群存储将充当主存储。我想知道,如何进行配置,以便在我创建Hive表和分区时,部分数据可以驻留在主存储中,其余数据可以驻留在辅助存储中?
感谢问候,马德胡