pySpark:将Kafka流放入parquet中，并从远程会话读取parquet

PySpark是Python编程语言的Spark API。它是Spark的一个开源项目，用于支持分布式数据处理和大规模数据处理。在云计算领域，PySpark被广泛应用于大数据处理、数据分析和机器学习等任务。

将Kafka流放入Parquet中并从远程会话读取Parquet的过程如下：

首先，需要安装和配置PySpark。可以参考PySpark官方文档（https://spark.apache.org/docs/latest/api/python/index.html）了解如何安装和配置PySpark。
导入所需的PySpark模块和类：

from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

创建SparkSession对象，用于连接到Spark集群：

spark = SparkSession.builder \
    .appName("Kafka to Parquet") \
    .getOrCreate()

创建StreamingContext对象，用于接收Kafka流数据：

ssc = StreamingContext(spark.sparkContext, batchDuration)

其中，batchDuration是批处理间隔时间。

从Kafka中读取流数据：

kafkaParams = {"bootstrap.servers": "kafka-server:9092"}
topics = ["topic1", "topic2"]
kafkaStream = KafkaUtils.createDirectStream(ssc, topics, kafkaParams)

需要替换"kafka-server:9092"为实际的Kafka服务器地址和端口，并设置所需的主题。

转换和处理流数据：

lines = kafkaStream.map(lambda x: x[1]) # 获取消息内容
parquetStream = lines.foreachRDD(lambda rdd: spark.createDataFrame(rdd, schema).write.mode("append").parquet("hdfs://path/to/parquet"))

这里使用map操作提取Kafka消息的内容，并通过foreachRDD将数据写入Parquet文件中。需要替换"schema"为适合数据的结构，并设置正确的HDFS路径。

启动StreamingContext并等待数据流入：

ssc.start()
ssc.awaitTermination()

从远程会话中读取Parquet文件的过程如下：

首先，需要创建SparkSession对象：

spark = SparkSession.builder \
    .appName("Read Parquet") \
    .getOrCreate()

读取Parquet文件并将其转换为DataFrame对象：

df = spark.read.parquet("hdfs://path/to/parquet")

需要替换"hdfs://path/to/parquet"为实际的Parquet文件路径。

对DataFrame进行相应的操作和分析：

df.show()
# 进行其他操作...

以上是将Kafka流放入Parquet并从远程会话读取Parquet的过程。对于这个过程，腾讯云提供了一些相关产品和服务，例如腾讯云数据仓库CDW（https://cloud.tencent.com/product/cdw）用于存储和处理大数据，腾讯云数据工厂CDF（https://cloud.tencent.com/product/cdf）用于实现数据集成和数据处理流水线等。

页面内容是否对你有帮助？

有帮助

没帮助

pySpark:将Kafka流放入parquet中，并从远程会话读取parquet

、、、、

Spark读取Kafka流。在这个目录中，我有一个json文件，文件路径很快。但是snappy不会被创建。从不同的docker容器中，我尝试读取拼图文件。pyspark.sql.utils.AnalysisException: Path does not exist: file:/tmp/edge/parquet; 如果我尝试使用spark shell读取:我有一个错误文件.snappy.par

浏览 36提问于2021-04-29得票数 0

1回答

如何从本地PySpark读取远程HDFS文件？

、、

我试图将数据从远程HDFS文件系统加载到本地Mac计算机上的本地PySpark会话：from pyspark.sql.functionsSparkSession.builder.getOrCreate() path = "/xx/yy/order_info_20220413/partn_date=20220511/part-00085-dd.gz.<e

浏览 23提问于2022-08-13得票数 0

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

、、、、

我有一个c#应用程序，可以创建拼花文件并将其上传到远程HDFS。如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。/sql/utils.py"，第69行中，在deco (s.split(‘：'，1)1，stackTrace) pyspark.sql.utils.AnalysisException中:U’无法推断<e

浏览 0提问于2018-12-04得票数 0

1回答

将Parquet文件加载到存储为Parquet* File的表格中(值为null)*

、、、、

我只是试图在单元格中创建一个表，该表存储为一个拼花文件，然后将保存数据的csv文件转换为一个拼图文件，然后将其加载到hdfs目录中，插入values.below是我正在执行的序列，但没有效果：CREATE external table if not EXISTS db1.managed_table55 (dummy string) stored as parquetlocation '/hadoop/db1/managed_t

浏览 2提问于2019-10-02得票数 0

2回答

结构化流式写入到不同的拼图文件夹

、、、

我正在使用spark structured streaming从kafka主题中读取事件，并对其进行处理并将其写入到parquet中。我必须根据我在事件中获得的键将输出写入不同的文件夹。我尝试使用结构化流式处理示例始终指向特定的文件夹.Do我需要为每个文件夹启动一个流吗？df.writeStream.format("parquet").option("path", "path/to/

浏览 2提问于2018-08-13得票数 0

1回答

如果会话被重新启动，缓存表会持续吗？

、

我有一个从远程存储读取数据的场景：将数据写入集群上的本地存储并从中读取数据是一种ok模式吗？localfile = '/X/myf

浏览 3提问于2022-10-26得票数 0

回答已采纳

3回答

火花放电中保存中间表的最佳方法

、、、、

我是在复制Pyspark中的SAS代码基。SAS代码库生成并存储中间SAS数据集(上次计数时为100)，这些数据集用于交叉检查最终输出，并用于稍后时间的其他分析。我的目的是以某种格式保存大量的Pyspark数据格式，以便可以在单独的Pyspark会话中重用它们。我想出了两个选择：还有其他格式吗？哪种方法更快？parquet文件或csv文件是否会有模式相关的问题，同时将这些文件重新读取

浏览 4提问于2020-06-05得票数 2

回答已采纳

1回答

Spark结构化流运行过程中Presto的"not a Parquet* file (太小)“*

、、、、

我有一个管道设置，从Kafka读取数据，使用Spark结构化流处理数据，然后将拼花文件写入HDFS。数据查询的下游客户端使用Presto配置，以便将数据作为Hive表读取。Kafka --> Spark --> Parquet on HDFS --> Presto 一般来说，这是可行的。当Spark作业运行批处理时发生查询时，就会出现问题。星火作业在HDFS上创建一个零长度的Parquet文件。如果Presto试图在

浏览 3提问于2017-11-16得票数 1

回答已采纳

1回答

如何使用Nifi将Azure DataLakeStorage中的.parquet数据转储到Microsoft SQL Server数据库？

、、、、

我开始认为，如果.parquet在Azure DataLake存储中，这是不可能的。我在Azure DataLake存储中有一个包含子文件夹的文件夹。在这些子文件夹中有许多.parquet。我认为PutDatabaseRecord读取到的流文件将其内容解释为.parquet (它应该使用ParquetReader作为RecordReader)，从而能够将数据理解为记录。但令我惊讶的是，没有必要说明如何解释.parquet，也没有必要说明如何将其列与D

浏览 28提问于2021-05-08得票数 0

回答已采纳

2回答

如何刷新HDFS路径？

、、

例如sp = spark.read.parquet(TB.STORE_PRODUCT)有时候，sp不能再被访问了，抱怨：‘刷新表tableName’不能工作，因为重新启动火花会话并再次读取该路径可以解决这个问题，但是我不想重新启动sparksession，它会浪费大量时间将整个路径位置保存在内存中是不明智的。spark.read.parqu

浏览 0提问于2020-07-01得票数 0

回答已采纳

2回答

如何判断spark会话是否能够以数据格式保存数据大小？

打算使用pyspark (在本地模式下运行)从Oracle DB中读取数据，并将本地存储为parquet。是否有一种方法可以判断火花会话数据是否能够保存来自查询的数据量(这将是整个表，即。是否有共同的解决方案，如果数据将无法适应一个数据？ *看到了一个类似的问题，但对评论中的讨论有点困惑

浏览 2提问于2019-10-30得票数 1

回答已采纳

2回答

在Python中从CSV动态生成拼图

、、、、

我需要将这些CSV转换为Apache Parquet文件。我没有(也不想要)任何Spark集群，所以如果我错了，请纠正我，但在我看来，pyspark不能提供任何帮助。基本上，从一个逐行传输CSV的迭代器开始，我希望根据一个模式生成Parquet文件。据我所知，pyarrow不能在输入中接受迭代器。有没有人有办法解决这个问题？感谢任何人的帮助！

浏览 7提问于2019-09-13得票数 0

1回答

在Impala中使用外部创建的Parquet文件

、、

我试图查询从另一个系统导出的Impala中的数据。到目前为止，它被导出为一个管道分隔的文本文件，通过创建带有正确分隔符设置的表，在文件中复制，然后运行refresh语句，可以导入该文本文件。有人建议，我们可以使用Parquet格式代替，这将处理内部线打破罚款。-+ 1 UserName Domain Users 20M Jan 17 10:15 part-00000-6a763116-6728-4467-a641-32dd710857fe.snappy.parquet如何在Impala中创建表，以便能够

浏览 0提问于2019-01-23得票数 0

1回答

bluedata写访问问题: hdfs_access_control_exception:权限被拒绝

、、、

我从每个NFS的Qumulo获取一个csv文件，每个DTAP将一个csv文件放入Spark容器中，只需执行一个小的过滤器，并将结果保存为每个DTAP的parquet文件，然后保存到我们的外部HDFS Cloudera集群中。除了将文件写入外部HDFS集群之外，一切都正常。我完全可以从HDFS中读取每个DTAP，并将每个DTAP写入Qumulo。只是每个DTAP写入HDFS不起作用。我检查了BD集群中的AD凭据。我可以从HDFS<

浏览 1提问于2019-07-22得票数 1

1回答

在火花流/结构化流中阅读Kafka的avro消息

、、、、

火花版本: 2.3.0卡夫卡版本: 2.2.0 我有一个卡夫卡生产者，它以avro格式发送嵌套数据，我正在尝试用火花流/结构化流写代码，这将反序列化从kafka到dataframe的avro，做转换，把它以拼花格式写成我能够在spark/scala中找到avro转换器，但是还没有增加对pyspark的支持。如何在火花放电中转换相同的内容。谢谢。

浏览 3提问于2019-05-02得票数 3

回答已采纳

2回答

撤消/回滚数据处理管道的效果

、、

我有一个工作流，我将描述如下： | Hive基于Parquet文

浏览 0提问于2018-03-01得票数 3

回答已采纳

2回答

火花流加入格林梅利/Postgres数据。方法

、、、、

我在Hadoop集群上有星火流应用程序(在Kafka流上)，它聚集了每5分钟用户的点击和在网站上完成的一些操作，并将它们转换成度量标准。此表通过Kafka使用逻辑日志流复制填充。表大小为1亿用户。 Notes我的解

浏览 2提问于2018-06-06得票数 0

1回答

PySpark:将输入文件写入单独的输出文件，而无需重新分区

、、

我正在尝试使用PySpark重新保存所有S3格式的文件，以供以后使用。('s3://mybucket/output/20120601')dataframe = spark.read.csv('s3://my

浏览 2提问于2017-12-16得票数 0

1回答

通过spark structured streaming读取正在写入的文件

、

option("header",True).option("delimiter",','). load("<Load Path>") query = df_str.writeStream.format("parquetseconds').option("path","<HDFS location>").option("checkpointLocation","<chckpoint

浏览 0提问于2021-01-02得票数 0

1回答

HDFS的批量分析

、、、、

我正在实时获取点击流数据。所有发送给卡夫卡的数据都被吃掉了。Question1:如何向HDFS发送数据？HDFS有write once read many的概念。我是否应该将数据作为批处理格式从Kafka发送到HDFS(例如每5或10分钟一次)？文件格式应该如何？JSON，

浏览 1提问于2019-08-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pySpark:将Kafka流放入parquet中，并从远程会话读取parquet

相关·内容

pySpark:将Kafka流放入parquet中，并从远程会话读取parquet

如何从本地PySpark读取远程HDFS文件？

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

将Parquet文件加载到存储为Parquet* File的表格中(值为null)*

结构化流式写入到不同的拼图文件夹

如果会话被重新启动，缓存表会持续吗？

火花放电中保存中间表的最佳方法

Spark结构化流运行过程中Presto的"not a Parquet* file (太小)“*

如何使用Nifi将Azure DataLakeStorage中的.parquet数据转储到Microsoft SQL Server数据库？

如何刷新HDFS路径？

如何判断spark会话是否能够以数据格式保存数据大小？

在Python中从CSV动态生成拼图

在Impala中使用外部创建的Parquet文件

bluedata写访问问题: hdfs_access_control_exception:权限被拒绝

在火花流/结构化流中阅读Kafka的avro消息

撤消/回滚数据处理管道的效果

火花流加入格林梅利/Postgres数据。方法

PySpark:将输入文件写入单独的输出文件，而无需重新分区

通过spark structured streaming读取正在写入的文件

HDFS的批量分析

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐