如何在python中将spark数据帧的输出作为结构化输出写入日志文件_如何在pyspark中将数据帧的输出写入CSV文件 - 腾讯云开发者社区

python、apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我已经在pyspark中创建了一个spark dataframe，我想要将过滤后的输出数据写入日志文件或文本文件。让我们把下面的代码看作df df=spark.sql(select * from tbl1) 我希望以下命令的输出为文本文件或日志文件 df.select("col1").show(5) 我试过下面的方法open(

浏览 27提问于2020-04-16得票数 0

1回答

使用hive优化hive数据聚合

apache-spark、optimization、hive、distributed-computing、bigdata

我有一个带有followig模式(event_id，country，unit_id，date)的hive表(8,000,000条记录)，我需要将这些数据导出到一个文本文件中，满足以下要求:1- event_id2-聚合的行必须根据日期进行排序。使用spark完成这项工作的最佳性能明智解决方案是什么？注意:这应该是一个批处理作业。

浏览 6提问于2017-05-05得票数 0

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

scala、apache-spark、apache-spark-sql、apache-spark-sql-repartition

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。如果是这样，它不会超过每个分区的最大大小吗？在这种情况下，重新分区是如何工作的？

浏览 34提问于2021-09-23得票数 2

回答已采纳

1回答

jsonPayload (结构化日志)输出来自函数的日志记录，以在GCP中创建基于日志的度量

logging、google-cloud-platform、python、google-cloud-functions

我的目标是使用字典中的键作为基于日志的度量的标签(参见基于日志的度量标签)，以便能够在Grafana中解决这些问题。我需要日志中的输出：但是我得到一个textPayload输出，下一行是一个字符串： "2022-02-08结构化</

浏览 0提问于2022-02-09得票数 4

回答已采纳

1回答

如何在非实时地使用sql在蜂窝表上进行星火流？

apache-spark、hive、spark-streaming、spark-structured-streaming

我们有一些数据(数百万)在蜂箱表中，每天都有。第二天，一旦熬夜摄入完成，不同的应用程序就会查询我们的数据(使用sql)。这导致火花驱动程序占用过多内存，我们是否可以使用火花流(或结构化流)以管道方式流，而不是收集驱动程序上的所有内容，然后发送给客户端

浏览 1提问于2020-07-12得票数 0

4回答

AWS Glue-如何以.txt文件的形式在S3中编写动态框架，并使用'|‘作为分隔符

pyspark、apache-spark-sql、aws-glue、aws-glue-spark

我想将动态框架作为文本文件写入S3，并使用'|‘作为分隔符。如何修改下面的代码，使Glue将帧保存为.txt文件，并使用'|‘作为分隔符。

浏览 0提问于2021-04-08得票数 0

1回答

使用kafka的sbt项目spark* streaming*

scala、apache-kafka、sbt、spark-streaming、apache-spark-dataset

以下行出错： val temp: RDD[String] = tRDD.rddscalaVersion := "2.11.8" "org.apache.spark" % "spark-streaming_2.11" % sparkVersion, "org.apache.

浏览 0提问于2018-07-14得票数 1

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

apache-spark、cassandra、apache-spark-sql、spark-structured-streaming、spark-cassandra-connector

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread &qu

浏览 25提问于2021-05-24得票数 0

回答已采纳

1回答

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

scala、hadoop、apache-spark

我正在使用spark读取压缩文件这为我提供了RDD[string]形式的数据。如何在scala中将其转换为RDD[(Array[Byte], Array[Byte])]？我在spark上使用terasort。默认情况下，terasort不写入压缩输出HDFS。classOf[TextOutputFormat[Text

浏览 3提问于2016-10-26得票数 0

1回答

马赛克决策Azure BLOB编写器节点创建多个文件

mosaic-decisions

我正在使用马赛克决策数据流功能从Azure blob读取文件，执行一些转换，然后将该数据写回Azure。它工作得很好，除了在我给出的输出文件路径中，它创建了一个文件夹，我可以看到许多文件的名称中有一些奇怪的“part-000”等。我需要的是输出位置中的一个文件--不是很多。

浏览 15提问于2020-06-18得票数 2

回答已采纳

1回答

如何避免/禁用.crc文件编写csv文件的火花？

r、csv、amazon-s3、sparklyr

我使用spark_write_csv函数将火花数据帧作为csv文件写入本地文件系统。在输出目录中，每个部件文件有一个.crc文件。我正在寻找任何函数或属性的Hadoop/火花，以避免生成这些.crc文件。flights_tbl<-copy_to(sc,flights,"flights") spark_write_csv(flig

浏览 0提问于2018-07-05得票数 1

1回答

如何将火花输出链接到Logstash输入

python、apache-spark、hdfs、logstash、spark-streaming

我有一个Spark流作业，输出一些日志，这些日志目前存储在HDFS中，我想用logstash处理它们。不幸的是，虽然hdfs中有一个用于日志存储的插件，但实际上用它从读取是不可能的。我已经搜索了一个链接这两个部分的解决方案，但是在python的中，存储某些内容的唯一方法是将其作为文本文件写入hdfs，所以我必须从hdfs中读取！

浏览 2提问于2016-07-25得票数 1

1回答

如何在火花数据帧csv输出和UTF-8-BOM编码中添加特殊字符分隔符

csv、apache-spark、spark-dataframe、spark-csv

我必须将我的星火数据帧输出写入一个csv文件中，该文件中有一个“\^\\”分隔符。我正试着这样做。df.write.format("csv").option("delimiter", "\\|\\^\\|") 如何添加UTF-8-B

浏览 1提问于2017-10-04得票数 0

1回答

pyspark 2.4.x结构化流foreachBatch未运行

pyspark、spark-structured-streaming

我正在使用spark 2.4.0和python 3.6。我正在开发一个python程序与pyspark结构化流操作。该程序从两个套接字运行两个readstream读取，然后将这两个流数据帧合并。我尝试了spark 2.4.0和2.4.3，但什么都没有改变。然后，我执行唯一的写流，以便只写入一个输出流数据帧。这很好用。我把spark.scheduler.mode=F

浏览 37提问于2019-06-15得票数 1

1回答

为什么Hadoop选择MapReduce作为其计算引擎？

hadoop

我知道MapReduce(MR)是Hadoop的三个核心框架之一，我熟悉它的mapper-shuffle-reducer进程。我的问题可以分为两个部分：2)其他语言(如：shell、python)的计算部分是如何工作的?它们的计算过程与MR相似吗？

浏览 0提问于2018-05-30得票数 0

1回答

正在将pyspark数据帧写入文本文件

apache-spark、pyspark

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： 202

浏览 0提问于2021-04-23得票数 0

1回答

如何使用bat文件记录MySQL错误

mysql、winapi、error-logging

我在Windows中运行bat文件来清理MySQL数据库.bat-file只是使用sql-脚本和简单的删除-其中操作符。bat文件中的代码，如："date /T >> cleaner_front.log“将一些有用的信息记录到输出文件中。script.sql文件中的代码如下:选择'14.从表中删除(7天)‘作为’_‘；选择NOW()；也记录

浏览 6提问于2014-05-29得票数 0

1回答

使用Apache写入HDFS时的输出序列

scala、hadoop、apache-spark、rdd

我正在进行apache中的一个项目，要求将处理后的输出从Spark写入特定的格式，如Header -> Data -> Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法，并使用密钥作为文件名将数据写入多个文件。但是问题是序列的数据是没有维护的，文件都是

浏览 3提问于2016-02-25得票数 0

回答已采纳

1回答

在palantir foundry中，如何在不使用transform或transform_df的情况下导入和读取数据集？

pyspark、palantir-foundry、foundry-code-repositories

我想知道有什么方法可以在不使用transform_df或在代码存储库中进行转换的情况下导入文件。基本上，我希望从数据集中提取数据，并以列表的形式返回所有值。如果我使用transform或transform_df装饰器，那么在调用返回函数时将无法访问输入文件。

浏览 11提问于2021-08-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云