如何在不复制数据的情况下使用spark将数据帧追加到数据源_如何在Python中不丢失索引的情况下将行从迭代组追加到数据帧中？ - 腾讯云开发者社区

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-streaming

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!/usr/bin/env python3 from pyspark.sql import SparkSession from pyspark.sql.functions import from_json from pyspark.sql.types import StructField, StructType, StringType, Doub

浏览 22提问于2019-09-10得票数 0

回答已采纳

1回答

如何在Databricks Spark中存储旧的流数据？

scala、databricks

我是Spark Streaming和Azure Databricks的新手。我读了很多关于spark如何工作和处理数据等的文章，但是旧数据呢？如果spark在交互式数据上工作，那么我的2周或2个月前的数据Spark可以保存吗？或者假设我必须在转换后移动数据，我应该移动到哪里并清除spark内存？它将只存储在SSD中吗？

浏览 2提问于2018-03-30得票数 0

2回答

Spark Dataframe分区数

apache-spark、dataframe、apache-spark-sql

有人能解释一下为Spark Dataframe创建的分区数量吗？我知道，对于RDD，在创建它的时候，我们可以像下面这样提到分区的数量。 val RDD1 = sc.textFile("path" , 6) 但是对于Spark dataframe，在创建时，我们看起来没有像RDD那样指定分区数量的选项。我认为唯一的可能性是，在创建数据帧之后，我们可以使用重新分区API。 df.repartition(4) 所以谁能让我知道我们是否可以在创建数据帧时指定分区的数量。

浏览 1提问于2016-09-07得票数 9

回答已采纳

1回答

使用通配符读取物理分区的数据

apache-spark、amazon-s3、pyspark、apache-spark-sql

浏览 50提问于2021-02-20得票数 1

回答已采纳

2回答

如果未安装'openpyxl‘模块，则将pyspark中的dataframe导出到excel文件

python、excel、pandas、pyspark、spark-dataframe

我正在尝试将spark数据帧写入excel文件中，以生成所需的报告，方法是在pandas dataframe中更改它们，然后使用 panda_df = df.toPandas() writer = pd.ExcelWriter(filename) panda_df.to_excel(writer,'Sheet1', startcol = 0, startrow = 0) 这给出了一个错误，即 File "/usr/lib64/python2.6/site-packages/pandas/io/excel.py", line 350, in __init__ fr

浏览 5提问于2017-09-06得票数 3

1回答

如何在单个spark作业中接收不同的spark数据帧

apache-spark、spark-streaming、etl、databricks、delta-lake

我想用spark编写一个ETL管道来处理不同的输入源，但是使用尽可能少的计算资源，并且使用‘传统的’spark ETL方法会有问题。我有许多流数据源需要持久化到DeltaLake表中。每个数据源只是s3中的一个文件夹，里面有avro文件。每个数据源都有不同的模式。每个数据源都应该持久化到它自己的DeltaLake表中。除了avro ->增量之外，只需要很少的转换，只需要通过从filename派生的一些额外字段进行丰富。新文件的添加速度适中，从每分钟一次到一天一次不等，具体取决于数据源。当新数据登陆时，我有一个kafka通知，描述了什么类型的数据和s3文件路径。假设有两个数据源-A和B

浏览 11提问于2020-05-05得票数 1

回答已采纳

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

apache-spark、apache-spark-sql、spark-jdbc

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

1回答

高效地将Spark中的数据帧发送到其他应用程序

apache-spark、apache-spark-sql、spark-dataframe

我想将Spark上下文中的数据帧发送到我的客户端应用程序。目前，我只是将数据帧转换为内存中的列表，并通过ZMQ将该列表发送给客户端。但是调用Dataframe.collectAsList()需要花费很多时间。有什么方法可以提高这个过程的速度吗？或者我应该尝试其他方式将数据从Spark传递到其他应用程序？提前谢谢。

浏览 7提问于2016-09-13得票数 2

回答已采纳

5回答

如何在pyspark中获取dataframe列的名称？

pyspark、pyspark-sql

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

1回答

来自SQL外部源的Spark自动更新

apache-spark、apache-spark-sql

我有一个简单的问题。我正在使用Spark加载一个大型的外部数据源 Map<String, String> options = new HashMap<String, String>(); options.put("url", "jdbc:postgresql:dbserver"); options.put("dbtable", "schema.tablename"); DataFrame myDF= sqlContext.read().format("jdbc"). options(opt

浏览 2提问于2016-05-09得票数 1

1回答

带有Azure Synapse火花池的spark.write.synapsesql选项

scala、apache-spark、azure-databricks、azure-synapse

在Azure Synapse中，我使用Spark笔记本中Scala语言的synapsesql函数将数据帧的内容推到SQL池中 // Write data frame to sql table df2.write. option(Constants.SERVER,s"${pServerName}.sql.azuresynapse.net"). synapsesql(s"${pDatabaseName}.xtr.${pTableName}",Constants.INTERNAL) 这是成功的，但是我想增加一些额外的功能。如何指定要为堆而不是群集列存储索引的索引

浏览 3提问于2022-04-07得票数 0

回答已采纳

1回答

使用谓词下推过滤来自另一个数据帧的数据帧

apache-spark

如何将过滤器下推到基于我拥有的另一个数据帧的数据帧读数？基本上，我希望避免完全读取第二个数据帧，然后进行内部连接。相反，我只想在读数上提交一个过滤器，以便在源代码上进行过滤。即使我使用了一个包含在read中的内部连接，该计划也没有显示出它正在被过滤。我觉得肯定有更好的方法来设置它。使用Spark 2.x，到目前为止我已经有了这个，但我想避免收集如下列表： // Don't want to do this collect...too slow val idFilter = df1.select("id").distinct().map(r => r.getLo

浏览 0提问于2018-04-06得票数 3

1回答

将星火流数据流加载到MongoDB中

mongodb、apache-spark、pyspark、spark-structured-streaming

我正在从事一个项目，在该项目中，我拥有以下数据管道： Twitter MongoDB→Tweepy API (流)→Kafka→火花(实时情绪分析)→Tableau 我能够利用Tweepy获得推特流到卡夫卡制片人，从生产者到卡夫卡消费者。然后我使用卡夫卡消费者的Twitter Stream作为数据源，我在星火(PySpark)中创建了一个“流数据框架”，进行了实时的预处理和情感分析，由此产生的“流数据框架”需要进入MongoDB，这就是问题所在。我能够将“静态”PySpark数据帧写入MongoDB，但不能编写流数据帧。详情如下： mongo_conn = "mongodb+srv

浏览 19提问于2022-11-21得票数 0

3回答

为什么不单独使用spark-streaming

real-time、apache-kafka、spark-streaming、lambda-architecture

我没有太多使用Kafka/ Spark-Streaming的经验，但我读过很多关于组合在为分析/仪表板构建实时系统方面有多棒的文章。有人能给我解释一下为什么spark-streaming不能单独完成吗？换句话说，为什么Kafka在数据源和spark-streaming之间？谢谢

浏览 1提问于2016-01-11得票数 1

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

scala、apache-spark、hadoop、hive、apache-spark-sql

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

1回答

Spark-SQL数据帧外部数据源效率低

apache-spark、apache-spark-sql

当我试图在Spark-SQL外部数据源上做一些测试时，会发生这个问题。我以两种方式构建数据帧，并比较收集操作的速度。而且我发现如果列数太大，从外部数据源构建的数据帧将会滞后。我想知道这是否是Spark-SQL的外部数据源的限制。:-) 为了更清楚地表达这个问题，我编写了一段代码：在我的外部Datasource API基准代码中，它实现了一个假的外部数据源(实际上是一个RDD[String，ArrayInt] )，并通过以下方式获取数据帧 val cmpdf = sqlContext.load("com.redislabs.test.dataframeRP", Map[St

浏览 2提问于2016-01-09得票数 1

2回答

在拼图文件上创建Hive表失败-我哪里出错了？

apache-spark、hive、apache-spark-sql、parquet

我要把数据帧保存到拼图文件中。生成的模式如下所示： org.apache.spark.sql.parquet.row.metadata{ "type":"struct", "fields":[ { "name":"DCN", "type":"string", "nullable":true, "metadata":{} }, { "name":"EDW

浏览 0提问于2017-11-08得票数 0

1回答

使用Hive表迭代Spark数据帧

apache-spark、hive、pyspark、apache-spark-sql、hiveql

我有一个非常大的csv文件，所以我使用spark并将其加载到spark数据帧中。我需要从csv上的每一行提取纬度和经度，以便创建folium地图。使用pandas，我可以用一个循环解决我的问题： for index, row in locations.iterrows(): folium.CircleMarker(location=(row["Pickup_latitude"], row["Pickup_longitude"]), radiu

浏览 27提问于2018-05-30得票数 0

1回答

用于Apache Spark拼花数据帧的JOOQ生成器？

apache-spark、apache-spark-sql、jooq、parquet

我工作的地方是，我们在后端代码的某些部分使用JOOQ生成sql查询。已经编写了很多代码来使用它。在我这方面，我想将这些特性映射到spark中，特别是在Spark SQL中生成从一堆拼图文件加载的数据帧上的查询。有没有工具可以从parquet (或spark)模式生成DSL类？我什么也找不到。在这个问题上，其他方法是否成功？理想情况下，我希望从可能不断演变的模式中动态生成表和字段。我知道这是一个广泛的问题，如果它被认为超出了范围，我将结束它。

浏览 1提问于2017-11-09得票数 3

4回答

如何在写拼图文件时避免空文件？

apache-spark、pyspark、spark-structured-streaming

我正在使用Spark Structured从Kafka队列中读取。读完卡夫卡之后，我在dataframe上应用了filter。我正在将这个经过过滤的数据帧保存到一个拼图文件中。这将生成许多空拼图文件。有没有什么方法可以让我不再写空文件？ df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", KafkaServer) \ .option("subscribe", KafkaTopics) \ .load

浏览 1提问于2017-09-27得票数 2

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

scala、dataframe、apache-spark、apache-spark-sql

我有两个数据帧： val df1 = List(("Sid", 1), ("Teni", 2), ("Bob", 3), ("Spark", 4), ("Hbase", 5)).toDF("name", "value") val df2 = List(("Sidhartha", 1), ("Tammineni", 2), ("Bobby", 3), ("Spark", 4)).toDF("name", &

浏览 0提问于2021-04-14得票数 0

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

apache-spark、hive、pyspark、apache-spark-sql、hiveql

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。我看到了这个错误： "Failed with exception java.io.IOException:java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循的步骤 scala >val sqlContext = new org.apache.

浏览 3提问于2016-01-20得票数 1

1回答

更改源的火花Dataframe.cache()行为

dataframe、apache-spark、apache-spark-sql、cassandra、spark-cassandra-connector

我的用例：从cassandra表创建数据帧。通过对列进行过滤并修改该列的值来创建输出数据。使用TTL集将输出数据写入cassandra，以便在短时间(2s)后删除所有修改的记录。将输出数据返回给一个调用方，该调用者在一段时间后将其写入文件系统。我只能返回一个数据文件给调用者，我没有进一步的控制。而且，我不能增加TTL。在执行步骤4时，输出数据为空。这是因为，星火重新评估行动的数据，由于血统，卡桑德拉查询再次完成，这现在不产生任何记录。为了避免这种情况，我在步骤2之后添加了一个步骤： 2a) outputDataframe.cache() 这确保了在第5步中，

浏览 0提问于2018-10-17得票数 2

回答已采纳

1回答

无法读取UTF-16文件

python、pyspark、apache-spark-sql、azure-databricks、utf-16

我正在尝试读取Spark数据帧中UTF-16编码的文件。然而，当我显示我的数据帧的结果时，我在我的结果集中得到了不需要的特殊字符。我尝试了以下方法-使用UTF-16BE： df = spark.read.format('text').option("encoding", 'UTF-16BE').option("charset", 'UTF-16').option('delimiter', "\|").option('header', 'false'

浏览 49提问于2021-03-24得票数 1

回答已采纳

1回答

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别？

r、dplyr、sparklyr

我正在使用sparklyr库与“spark”进行交互。存在用于将数据帧放入spark上下文中的函数。这样的函数是'dplyr::copy_to‘和'sparklyr::sdf_copy_to’。有什么不同?什么时候建议使用一种而不是另一种？

浏览 53提问于2019-05-15得票数 5

1回答

以第三行为标题读取pyspark中的excel文件

excel、pyspark、azure-databricks

我想读取excel文件作为spark数据帧，第3行作为header.The synatax，读取excel文件作为spark数据帧，第1行作为标题是： s_df = spark.read.format("com.crealytics.spark.excel") \ .option("header", "true") \ .option("inferSchema", "true") \

浏览 86提问于2021-04-07得票数 2

回答已采纳

1回答

如何向Apache添加图形帧

apache-spark、pyspark、apache-zeppelin、graphframes

我正在尝试使用Apache上的图形框架库，并使用Spark (吡火花)解释器，但是，每当我试图使用ModuleNotFoundError: No module named 'graphframes'导入图形帧模块时，我都会继续获取错误：from graphframes import *。我尝试在zeppelin-env.sh文件中添加--packages 'graphframes:graphframes:0.7.0-spark2.4-s_2.11'指令，尝试使用z.load('graphframes:graphframes:0.7.0-spark2.4

浏览 0提问于2019-06-01得票数 2

回答已采纳

1回答

我们可以在除Hive表之外的任何其他数据库表上使用spark.sql吗？

dataframe、hive、apache-spark-sql、cloud、sql-data-warehouse

目前，我们的数据库托管在其他数据库中。我们正在考虑使用JDBC连接器在SPARK中执行流程。是否可以在连接数据源之后使用SPARK.SQL语句，还是必须加载数据才能使用spark.sql查询？

浏览 3提问于2022-08-11得票数 -1

1回答

在foreachPartition中执行Mysql查询spark运行缓慢

mysql、apache-spark

我想在spark中的foreachparition中执行mysql查询，并最终将所有查询结果放到一个数据帧中。看起来是这样的： var rowAccumulator: RowAccumulator = new RowAccumulator foreachPartition((p) => { val result = MysqlService.getData(query, p) rowAccumulator.add(result) }) 然后将rowAccumulator转换为数据帧。然而，它在加班时运行缓慢。例如，第一个查询花费130ms，第20个查询可能花费150000ms

浏览 52提问于2018-06-09得票数 0

1回答

如何读取文件夹中的CSV文件并合并到一个CSV文件中？

java、dataframe、csv、apache-spark

我有一个标签为‘输入’的文件夹，里面有多个CSV文件。它们都有相同的列名，但每个CSV文件中的数据是不同的。如何使用Spark和Java转到标记为“input”的文件夹，读取该文件夹中的所有CSV文件，并将这些CSV文件合并到一个文件中。文件夹中的文件可能会改变，例如可能有4个CSV文件，而另一天可能有6个等等。 Dataset<Row> df = ( spark.read() .format("com.databricks.spark.csv") .option("head

浏览 0提问于2021-10-06得票数 2

回答已采纳

1回答

无法将数据帧转换为标注点

scala、apache-spark、apache-spark-mllib

我的程序使用Spark.ML，我对数据帧使用逻辑回归。然而，我也想使用LogisticRegressionWithLBFGS，所以我想把我的数据帧转换成LabeledPoint。下面的代码显示了一个错误 val model = new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs[Double]("label"),org.apache.spark.mllib.linalg.SparseVector.fromML(row.getAs[org.apache.spark.m

浏览 6提问于2017-08-25得票数 0

回答已采纳

6回答

如何在spark中将rdd对象转换为dataframe

scala、apache-spark、apache-spark-sql、rdd

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

8回答

为什么斯派克应用程序在“ClassNotFoundException：”作为uber与sbt程序集一起失败？

scala、apache-spark、sbt、sbt-assembly、spark-structured-streaming

我正在试着运行一个像这样的示例。我从开始。我的代码是 package io.boontadata.spark.job1 import org.apache.spark.sql.SparkSession object DirectKafkaAggregateEvents { val FIELD_MESSAGE_ID = 0 val FIELD_DEVICE_ID = 1 val FIELD_TIMESTAMP = 2 val FIELD_CATEGORY = 3 val FIELD_MEASURE1 = 4 val FIELD_MEASURE2 = 5 def

浏览 10提问于2016-12-23得票数 26

回答已采纳

4回答

与spark中的所有其他任务相比，最后2/3的任务需要大量的时间

scala、apache-spark、hadoop-yarn、spark-dataframe、apache-spark-mllib

我正在尝试对评论做感伤的分析。程序在Spark上成功运行，但我面临的问题是在70个分区中，68个分区的时间比最后2个分区的时间缩短了约20%。我已经检查了我的数据在所有分区上是否均匀分布，甚至还检查了不同的样本数据。另外，我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为所有数据帧运行了代码，并在不再需要这些数据帧时立即取消它们的持久化。我也尝试了增加和减少分区的数量，但对于最后两个任务，它仍然需要大量的时间。下面是我正在使用的当前配置 --master yarn \ --deploy-mode client \ --num-executors 15

浏览 29提问于2016-09-26得票数 1

1回答

电子病历上的自定义数据源插件抛出java.lang.NoClassDefFoundError: scalaj/http/Http

scala、amazon-web-services、apache-spark、pyspark、amazon-emr

我正在使用位于此处的自定义数据源https://github.com/sourav-mazumder/Data-Science-Extensions/releases 当我在本地使用Dockerized Spark环境处理它时，它可以按预期工作。然而，当我在EMR上使用它时，我在这个问题标题中得到错误。以下是使用的EMR配置选项、Spark启动消息以及我运行它时的测试代码和结果。我不确定我还需要配置什么。 ? 配置为： [ { "configurations": [ { "classification":

浏览 24提问于2019-04-12得票数 2

回答已采纳

2回答

如何调用从Spark作业调用的web服务？

apache-spark、apache-spark-sql、spark-structured-streaming

我想调用一个web服务来获取Spark Structured Streaming中的一些数据。有可能吗？多么?

浏览 0提问于2019-12-07得票数 5

1回答

使用Spark BigQuery连接器查询BigQuery视图时未启用缓存

apache-spark、pyspark、apache-spark-sql、google-bigquery、google-cloud-dataproc

我正在使用Spark BigQuery连接器从Dataproc集群中查询表和视图，我看到的是，当请求未使用缓存的视图时，连接器会为每个读取的视图创建一个新的临时表： df = spark.read.format('bigquery').option('table', view_name).option('viewsEnabled', 'true').load() 当我从一个表中读取数据时，情况并非如此，这里使用的是缓存： df = spark.read.format('bigquery').option('

浏览 0提问于2021-01-13得票数 2

1回答

Spark如何处理超出其容量的内存

apache-spark

假设我的Spark集群有100G内存，在Spark计算过程中，会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下，Spark会将部分数据存储在磁盘上，还是只会使用OOM

浏览 235提问于2020-07-14得票数 0

回答已采纳

1回答

Apache未将UTF-16数据文件导入Server

python、sql-server、apache-spark、azure-sql-database

我使用Apache Spark connector将数据文件中的数据导入到Azure SQL Server。它适用于utf-8文件。但是对于UTF-16文件，我得到了以下错误，尽管在Spark和目的Server表中列及其总数完全相同误差错误: java.sql.SQLException: Spark和Server表有不同的列数问题：我可能做错了什么，我们如何解决这个问题？我尝试过来自在线的各种建议，但仍然没有成功。 from pyspark.sql.functions import * df = spark.read.option("multiline",

浏览 1提问于2022-05-27得票数 0

1回答

字段标识，在Spark中的except()操作期间

apache-spark、except

spark工作中的except()函数，用于比较两个数据帧并从第一个数据帧返回不匹配的记录。但是，我也想跟踪字段详细信息，这是不匹配的。在spark中怎么做?？请帮帮忙

浏览 1提问于2018-06-21得票数 0

1回答

如何在Scala中将Spark DataFrames逐个添加到Seq()中

apache-spark

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]() x: Seq[org.apache.spark.sql.DataFrame] = List() 我有一个名为createSamplesForOneDay()的函数，它返回一个DataFrame，我想将它添加到这个Seq() x中。 val temp = createSamplesForOneDay(some_inputs) // this returns a Spark DF x = x + temp // this throws an error 我得到下面的错误- scala&

浏览 57提问于2019-07-02得票数 0

回答已采纳

1回答

Spark 2.0 toPandas方法

python、apache-spark、pyspark

我有一个spark数据框，如下所示： topics.show(2) +-----+--------------------+--------------------+--------------------+ |topic| termIndices| termWeights| topics_words| +-----+--------------------+--------------------+--------------------+ | 0|[0, 39, 68, 43, 5...|[0.06362107696025...|[, m

浏览 8提问于2017-02-17得票数 5

2回答

如何在spark中编写dataset对象以excel？

apache-spark、pyspark、apache-spark-sql、spark-excel

我使用com.crealytics.spark.excel软件包读取excel文件。下面是在spark中读取excel文件的代码。 Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", "D:\\5Kto10K.xlsx") .option("useHeader"

浏览 5提问于2017-06-24得票数 2

回答已采纳

1回答

Spark中UDAF与聚合器的性能比较

performance、apache-spark、spark-dataframe、aggregate-functions、apache-spark-2.0

我正在尝试用Spark编写一些关注性能的代码，想知道我应该为数据帧上的汇总操作编写还是 (UDAF)。我在任何地方都找不到任何数据，关于这些方法中的每一种有多快，以及你应该将哪些方法用于spark 2.0+。

浏览 10提问于2017-07-28得票数 3

1回答

如何避免/禁用.crc文件编写csv文件的火花？

r、csv、amazon-s3、sparklyr

我使用spark_write_csv函数将火花数据帧作为csv文件写入本地文件系统。在输出目录中，每个部件文件有一个.crc文件。我正在寻找任何函数或属性的Hadoop/火花，以避免生成这些.crc文件。 flights_tbl<-copy_to(sc,flights,"flights") spark_write_csv(flights_tbl, path="xxx" , mode = "overwrite") 这是我得到的输出： .part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000

浏览 0提问于2018-07-05得票数 1

2回答

如何在从json创建dataframe时不推断架构？

python、json、apache-spark、pyspark

我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式，但我不能像从csv中读取时那样传递。下面是我读取数据的方式： df = spark.read.json(r's3://mypath/')

浏览 5提问于2017-12-12得票数 4

回答已采纳

1回答

Spark持久化方法奇怪的行为

scala、dataframe、apache-spark

我正在探索spark persist函数。对于某些数据帧，它似乎是持久化的，而对于其他数据帧，则不是，即使我在所有数据帧上都使用了persisting方法下面是我的代码和解释 // loading csv as dataframe and creating a view val src_data=spark.read.option("header",true).csv("sources/data.csv") src_data.createTempView("src_data") **There is alreading a table cal

浏览 0提问于2021-04-12得票数 0

1回答

如何在pyspark中比较数据帧之间的差异

python、dataframe、pyspark、apache-spark-sql

我有两个数据帧，它们本质上是相同的，但来自两个不同的来源。在我的第一个数据帧中，我有一个longType和一个dateType的p_user_id和date_of_birth字段，其余的字段是stringType。在我的第二个数据帧中，所有内容都是stringType的。我首先根据p_user_id(这是我的惟一标识符)检查两个数据帧的行数。DF1： +--------------+ |test1_racounts| +--------------+ |

浏览 32提问于2021-11-17得票数 1

回答已采纳

1回答

如何在没有使用UDF的情况下对Spark SQL结果进行后处理

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我读过建议不要使用UDF来节省反序列化/序列化成本。在我的例子中，我执行了如下查询 select MYFUN(f1, f2, ...) from A ... 我使用MYFUN逐行对查询结果进行后处理，例如，将它们发送到另一个服务。 def my_fun(f1, f2, ...): service.send(f1, f2, ...) session.udf.register('MYFUN', my_fun) 在没有使用UDF的情况下，我可能想要将查询结果保存到Python数据框或hdfs上的Parque表中，然后通过数据帧读取，并逐个处理数据帧。问题是结果表很大

浏览 1提问于2019-03-07得票数 0

1回答

无法在databricks社区版本集群中cat dbfs文件。FileNotFoundError：[Errno 2]没有这样的文件或目录：

apache-spark、pyspark、databricks、dbutils、databricks-community-edition

尝试读取databricks社区版集群中的增量日志文件。(数据库-7.2版) df=spark.range(100).toDF("id") df.show() df.repartition(1).write.mode("append").format("delta").save("/user/delta_test") with open('/user/delta_test/_delta_log/00000000000000000000.json','r') as f: for l in f:

浏览 0提问于2020-08-23得票数 5

回答已采纳