我正在尝试通过Ambari将大的csv文件(每个~4G)加载到Hive。下面的CREATE TABLE - LOAD DATA过程适用于较小的csv文件,但不适用于这么大的文件。ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;LOAD DATA INPATH 'mypath/INPUT.csv' OVERWRITE
我正在尝试用Python读取一个很大的csv文件;它有大约700个属性和101533行。我尝试使用pandas.read_csv命令读取文件,但它出现了内存问题,然后我尝试了这个解决方案with file("data.csv", "rb") as fsplitted by ","
print np.sum(data, axis=0) # sum along 0 axis to get the sum