split函数使用的一个小故障

《Spark快速大数据分析》书中一个例子 功能是把文本每行分割成单词组,并且去掉空行

val  input = sc.textFile("input.txt")
val tokenized = input.map(line=>line.split(" ").filter(words=>words.size>0)

上面操作咋看好像没有问题,但是运行不能去除空行,原因出在split函数

scala> "".split(" ")
res50: Array[String] = Array("")
scala> "".split(" ").size
res51: Int = 1

空行""分割后得到Array("")size是1不是0,这样就不能去除空行的目的,只要把filter

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏zingpLiu

python2.x之pyshp的使用

1426
来自专栏黒之染开发日记

gps相关

1、JavaScript版:通过两个gps坐标计算两点之间实际距离(因为考虑到地球的半径,准确度还行) 其实是直接把这篇文章的java版改成js版而已

531
来自专栏有趣的Python

玩转算法面试:(四)LeetCode查找类问题

查找问题 两类查找问题 查找有无:元素’a’是否存在?set;集合 查找对应关系(键值对应):元素’a’出现了几次?map;字典 通常语言的标准库中都内置set...

3216
来自专栏机器学习算法与Python学习

python基础语法(1)

从今天起,将进行python的一个系列学习,从基本的语法学起,后期会推出一些关于web开发,网络爬虫以及用python的第三方库进行数据挖掘与机器学习等高级的开...

34914
来自专栏测试开发架构之路

程序员面试50题(2)—二元查找树的后序遍历结果[数据结构]

题目:输入一个整数数组,判断该数组是不是某二元查找树的后序遍历的结果。如果是返回true,否则返回false。 例如输入5、7、6、9、11、10、8,由于这一...

2596
来自专栏行者常至

golang string、int、int64 float 互相转换

953
来自专栏Python爬虫与算法进阶

学点算法之栈的学习与应用

在学习栈前,脑海中对这个词只有一个印象:客栈 栈是什么 栈(有时称为“后进先出栈”)是一个项的有序集合,其中添加移除新项总发生在同一端。 这段话初学者是懵逼的...

2983
来自专栏技术博文

PHP实现经典算法

前提:分别用冒泡排序法,快速排序法,选择排序法,插入排序法将下面数组中的值按照从小到大的顺序进行排序。 $arr = array(1,43,54,62,21,6...

2614
来自专栏小小挖掘机

Numpy基础知识点汇总

1、概述 Numpy是高性能科学计算和数据分析的基础包,它的部分功能如下: 1)ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 ...

2704
来自专栏数据结构与算法

Splay详解(三)

前言 上一节我们学习了splay所能解决的基本问题,这节我来讲一下splay怎么搞区间问题 实现 splay搞区间问题非常简单,比如我们要在区间l,r上搞事情,...

2667

扫码关注云+社区