首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache Spark拆分“分部”

Apache Spark拆分“分部”
EN

Stack Overflow用户
提问于 2016-10-09 20:23:55
回答 1查看 6.1K关注 0票数 7

我正在尝试使用Apache从管道(“AC.26”)分隔的文件中生成格式化的CSV文件。输入文件包含:

苹果球猫 黑城贝拉景观绿英亩 X-y-y-z

我试着:

代码语言:javascript
运行
复制
val name= sc.textFile(input.txt")
val split=name.map(line=>line.split("|")).map( x => (x(0),x(2)) )
split.foreach(println)

输出:

(x,y) (a,p) (B,a)

我需要的输出是:

(苹果、猫) (布莱克镇,格林阿克) (x,z)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-10-09 20:34:55

String函数的参数是一个正则表达式,所以如果要使用管道,就必须转义:

代码语言:javascript
运行
复制
line.split("\\|")

否则,它将被解释为两个空模式之间的交替。

您也可以使用 literal

代码语言:javascript
运行
复制
line.split('|')

literals

代码语言:javascript
运行
复制
line.split(Array('|'))

更好的做法是验证输入:

代码语言:javascript
运行
复制
names.map(_.split("\\|")).collect {
  case Array(x, _, y) => (x, y)
}
票数 10
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39948177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档