一、RDD#flatMap 方法
1、RDD#flatMap 方法引入
RDD#map 方法 可以 将 RDD 中的数据元素 逐个进行处理 , 处理的逻辑 需要用外部 通过 参数传入 map 函数 ;...中的每个元素及元素嵌套的子元素 , 并返回一个 新的 RDD 对象 ;
2、解除嵌套
解除嵌套 含义 : 下面的的 列表 中 , 每个元素 都是一个列表 ;
lst = [[1, 2], [3, 4,...5], [6, 7, 8]]
如果将上述 列表 解除嵌套 , 则新的 列表 如下 :
lst = [1, 2, 3, 4, 5, 6, 7, 8]
RDD#flatMap 方法 先对 RDD 中的 每个元素...进行处理 , 然后再 将 计算结果展平放到一个新的 RDD 对象中 , 也就是 解除嵌套 ;
这样 原始 RDD 对象 中的 每个元素 , 都对应 新 RDD 对象中的若干元素 ;
3、RDD#flatMap...数据处理
"""
# 导入 PySpark 相关包
from pyspark import SparkConf, SparkContext
# 为 PySpark 配置 Python 解释器
import