我需要使用Spark将一个巨大的未压缩文本文件(>20 to )读取到RDD中。文件中的每条记录都跨越多行(每条记录不超过20行),所以我不能使用sc.textFile。我正在考虑使用带有自定义分隔符的SparkContext.newAPIHadoopFile。然而,由于文件相当大,我很好奇读取和解析是分布在多个Spark executors上,还是只<em
我正试着逐行读取文件。该文件是一个包含各种变量定义的tcl文件。一些变量定义很长,并且分布在多行中:例如: set ref_lib [list a b c d \f\] 有没有一种方法可以把这整行看作一行?在逐行解析时,我使用readline()函数。我的代码如下所示 baseScript=open(sys.argv[1],"r")for