首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python大数据之PySpark(五)RDD详解

collection_rdd.getNumPartitions())) # 5 # 3 - 使用rdd创建的第二种方法 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore...读取外部的文件使用sc.textFile和sc.wholeTextFile方式\ file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore..._3.1.2/data/ratings100") wholefile_rdd = sc.wholeTextFiles("/export/data/pyspark_workspace/PySpark-SparkCore...minPartitions最小的分区个数,最终有多少的分区个数,以实际打印为主 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore...读取的是文件夹中多个文件,这里的分区个数是以文件个数为主的,自己写的分区不起作用 # file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore

32320

【Spark Streaming】Spark Day10:Spark Streaming 学习笔记

SparkCore与SparkSQL,离线分析批处理,分析数据都是静态的,不变的 SparkStreaming和StructuredStreaming,实时流式数据分析,分析数据是源源不断产生,一产生就进行分析...在Spark1.x时,主要三个模块,都是自己数据结构进行封装 - SparkCore:RDD - SparkSQL:DataFrame/Dataset - SparkStreaming:DStream...Storm框架 阿里巴巴双11,前几年使用就是此框架 2)、Samza,领英公司开源 严重依赖Kafka,在国内几乎没有公司使用 3)、SparkStreaming 基于SparkCore...SparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。...在Spark框架中各个模块都有自己数据结构,也有自己的程序入口: - SparkCore RDD SparkContext - SparkSQL DataFrame/Dataset SparkSession

99120
领券