我正在尝试使用Apache从管道(“AC.26”)分隔的文件中生成格式化的CSV文件。输入文件包含:
苹果球猫 黑城贝拉景观绿英亩 X-y-y-z
我试着:
val name= sc.textFile(input.txt")
val split=name.map(line=>line.split("|")).map( x => (x(0),x(2)) )
split.foreach(println)输出:
(x,y) (a,p) (B,a)
我需要的输出是:
(苹果、猫) (布莱克镇,格林阿克) (x,z)
发布于 2016-10-09 20:34:55
String函数的参数是一个正则表达式,所以如果要使用管道,就必须转义:
line.split("\\|")否则,它将被解释为两个空模式之间的交替。
您也可以使用 literal
line.split('|')或 literals
line.split(Array('|'))更好的做法是验证输入:
names.map(_.split("\\|")).collect {
case Array(x, _, y) => (x, y)
}https://stackoverflow.com/questions/39948177
复制相似问题