API即pyspark,所以直接启动即可
很简单使用pyspark便进入了环境:
?...=ipython
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
source /etc/bash.bashrc
然后再次使用pyspark启动时就会自动启动IPython...3 RDD(核心):
创建初始RDD有三种方法(用textFile时默认是hdfs文件系统):
使用并行化集合方式创建
?...可以看到使用map时实际上是[ [0,1,2,3,4],[0,1,2],[0,1,2,3,4,5,6] ]
类如切分单词,用map的话会返回多条记录,每条记录就是一行的单词,
而用flatmap则会整体返回一个对象即全文的单词这也是我们想要的...transformation 的一个重要特性就是Lazy,就是说虽然定义了各种transformation,但是都不会执行,只有在执行了一个action动作后才会触发所有的transformation,