如何在不改变顺序的情况下逐行读取数据帧？在Spark Scala中

在Spark Scala中，可以使用foreachPartition方法逐行读取数据帧，而不改变顺序。以下是完善且全面的答案：

逐行读取数据帧是指按照行的顺序逐个读取数据帧中的记录或行。在Spark Scala中，可以使用foreachPartition方法实现逐行读取数据帧的功能。

foreachPartition方法用于对数据帧中的每个分区执行自定义的操作。通过在每个分区上迭代处理，可以逐行读取数据帧，同时保持记录的顺序。在处理每个分区时，可以使用foreach方法迭代分区中的每一行，并对每一行执行自定义的操作。

以下是一个示例代码，演示了如何在Spark Scala中使用foreachPartition方法逐行读取数据帧：

// 导入必要的Spark依赖
import org.apache.spark.sql.{SparkSession, Row}

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("Read DataFrame Row by Row")
  .master("local")
  .getOrCreate()

// 创建示例数据帧
val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val df = spark.createDataFrame(data).toDF("Name", "Age")

// 定义自定义的操作函数，用于处理每个分区中的行
def processPartition(rows: Iterator[Row]): Unit = {
  rows.foreach(row => {
    val name = row.getString(0)
    val age = row.getInt(1)
    // 在这里可以对每一行进行自定义的操作，例如打印、存储等
    println(s"Name: $name, Age: $age")
  })
}

// 使用foreachPartition方法逐个分区处理数据帧
df.foreachPartition(processPartition)

在上述示例代码中，首先创建了一个包含姓名和年龄的示例数据帧。然后定义了一个名为processPartition的自定义操作函数，用于处理每个分区中的行。在该函数中，可以对每一行进行自定义的操作，例如打印、存储等。最后使用foreachPartition方法对数据帧进行逐个分区处理，传入自定义操作函数。

对于该问题，腾讯云提供了云原生数据库TDSQL和云数据库Redis等相关产品，可以根据具体需求选择合适的产品。您可以通过以下链接了解更多关于腾讯云相关产品的详细信息：

如何在pyspark中找到数据帧的大小

、

如何复制此代码以获取pyspark中的数据帧大小？ scala> val df = spark.range(10) scala> print(spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats) Statistics(sizeInBytes=80.0 B, hints=none) 我想要做的是将sizeInBytes值放入一个变量中。

浏览 0提问于2020-06-03得票数 2

1回答

火花放电不起作用

、、、

我正试图在Pyspark的映射函数中解析。我感兴趣的是从第21行提取“费用”字段:481000。如果我在普通的python (即没有pyspark)中这样做，我可以用下面的方法来完成，它可以工作！ import json f=open("block_395545.json") lines = f.read() json_data = json.loads(lines) fee_data = json_data["fees"] print fee_data 但是，如果我按下面的方式将它放入映射函数中，它将不起作用： function get_tx_fee(line

浏览 1提问于2016-02-03得票数 0

回答已采纳

1回答

无法使用SparkContext.textFile读取文件(.)论

、、

我正在Google上运行一个Spark集群，在尝试使用GZipped读取sparkContext.textFile(...)文件时遇到了一些问题。我正在运行的代码是： object SparkFtpTest extends App { val file = "ftp://username:password@host:21/filename.txt.gz" val lines = sc.textFile(file) lines.saveAsTextFile("gs://my-bucket-storage/tmp123") } 我得到的错误是： Exc

浏览 5提问于2016-12-06得票数 0

回答已采纳

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

3回答

在spark 1.6中将csv读取为数据帧

、

我使用的是Spark 1.6，正在尝试将csv (或tsv)文件读取为数据帧。以下是我采取的步骤： scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc) scala> import sqlContext.implicits._ scala> val df = sqlContext.read scala> .format("com.databricks.spark.csv") scala> .option("header", "true") sc

浏览 12提问于2016-07-27得票数 2

1回答

Spark 'FileNotFoundException:文件不存在‘错误(python)

、、

我已经设置了一个spark集群，所有节点都可以访问网络共享存储，在那里它们可以访问要读取的文件。我在python jupyter笔记本上运行它。几天前它还在工作，现在它停止工作了，但我不确定为什么，或者我改变了什么。我已经尝试重新启动节点和主节点。我还尝试将csv文件复制到一个新目录，并将spark.read指向该目录，但仍然显示相同的错误。当我删除csv文件时，它给出了一个简短得多的错误消息“file not found”。任何帮助都将不胜感激。这是我的代码： from pyspark.sql import SparkSession from pyspark.conf import

浏览 1提问于2017-08-02得票数 0

回答已采纳

2回答

在Spark中，获取EOF异常的原因是什么？

、、、、

我正在从多个文件读取一些数据(8 GB)数据，过滤数据做一些null检查，并在列上执行一些提升(操作)，如清除列值为此我有6到7个功能(自定义功能，不能使用火花功能)注册为UDF。然后我将最终结果写到表和CSV文件中，现在在'dataframe.write.saveAsTable()‘上，在写'CSV’时，我得到了EOF异常查找文件的结尾。这个异常并不是每次都会发生，比如如果我运行20次，它可能会出现一次。我无法找到它的原因和原因，因为它是不可重现的，(在scala和pyspark中都有)，感谢任何帮助或提示。展望未来。谢谢 -------------------------

浏览 89提问于2019-03-04得票数 3

回答已采纳

1回答

非常慢的地板读

、、

我正在尝试从两个不同的位置读取拼图文件A和B。它们都是GCP中的parquet文件，模式中的列数大致相同(80-90列，大部分是字符串)。B在文件大小和记录计数方面非常小(大约比A小5个数量级)。但是我想知道为什么会是这样，从GS那里读到的东西和A几乎一样。 scala> show_timing{spark.read.parquet("gs://bucket-name/tables/A/year=2018/month=4/day=5/*")} Time elapsed: 34862525 microsecs res5: org.apache.spark.sql.DataF

浏览 0提问于2018-04-13得票数 2

3回答

通过Spark读取保存在文件夹中的所有拼图文件

、、

我有一个包含拼图文件的文件夹。如下所示： scala> val df = sc.parallelize(List(1,2,3,4)).toDF() df: org.apache.spark.sql.DataFrame = [value: int] scala> df.write.parquet("/tmp/test/df/1.parquet") scala> val df = sc.parallelize(List(5,6,7,8)).toDF() df: org.apache.spark.sql.DataFrame = [value: int] sca

浏览 0提问于2017-03-27得票数 13

回答已采纳

1回答

Pyspark: Multiple LInear REgression label字段不存在

、、

我有一个数据帧，如下所示，称为training +------------------+------+ | features| MEDV| +------------------+------+ | [6.575,4.98,15.3]|504000| | [6.421,9.14,17.8]|453600| | [7.185,4.03,17.8]|728700| | [6.998,2.94,18.7]|701400| 我对此数据集运行线性回归 from pyspark.ml.regression import LinearRegression lr=LinearRegres

浏览 16提问于2020-06-15得票数 0

回答已采纳

3回答

Spark 1.5.2: org.apache.spark.sql.AnalysisException:未解析的运算符联合；

浏览 0提问于2016-07-29得票数 16

回答已采纳

1回答

将写入ORC文件引发错误

、、

我试图写一个Spark作为ORC文件，它抛出以下错误。我去叫IndexOutOfBoundsException..。日志： Caused by: org.apache.spark.SparkException: Task failed while writing rows at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.

浏览 0提问于2018-08-09得票数 0

1回答

错误SparkContext:初始化SparkContext时出错(在spark上使用tensorflow运行mnist示例)

、、、

我在spark上用tensorflow运行了一个mnist示例。火花:2.1.0 scala:2.11.8 tensorflow:0.12.1 spark上的tensorflow : lastest 巨蟒:蟒蛇(python=3.5) 错误上下文： (tf012-p35) superstar@superstar-System-Product-Name:~/TFSpark/TensorFlowOnSpark$ ${SPARK_HOME}/bin/spark-submit \ > --master ${MASTER} \ > --py-files /home/sup

浏览 2提问于2017-03-17得票数 0

5回答

如何在spark中使用parquet读写相同的文件？

、、

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： couldnt write parquet to file: An error occurred while calling o102.parquet. : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: TungstenExchange hashpartitioning(billID#42,200), None +- Union :-

浏览 0提问于2016-05-06得票数 8

3回答

读取hive事务表时星火抛出错误

、、

我正在尝试从蜂箱中的db.abc中选择*，这个蜂窝表是使用spark加载的。它不能工作，显示了一个错误：错误: java.io.IOException: java.lang.IllegalArgumentException:超出范围的bucketId：-1 (state=，code=0) 当我使用以下属性时，我能够查询hive： set hive.mapred.mode=nonstrict; set hive.optimize.ppd=true; set hive.optimize.index.filter=true; set hive.tez.bucket.pruning=tru

浏览 3提问于2020-02-06得票数 4

回答已采纳

1回答

处理每个分区和每个分区中的每一行，一次处理一个

、、、、

浏览 13提问于2019-09-23得票数 0

2回答

如何在没有异常的情况下，用更改的模式从Spark写入Kafka？

、、、、

我正在从Databricks加载拼花文件到Spark： val dataset = context.session.read().parquet(parquetPath) 然后，我执行如下一些转换： val df = dataset.withColumn( columnName, concat_ws("", col(data.columnName), lit(textToAppend))) 当我试图将它保存为JSON到Kafka (而不是回到地板！)： df = df.select( lit("da

浏览 2提问于2018-06-14得票数 4

回答已采纳

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。我看到了这个错误： "Failed with exception java.io.IOException:java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循的步骤 scala >val sqlContext = new org.apache.

浏览 3提问于2016-01-20得票数 1

1回答

如何从拼花文件中读取和写入自定义类

、、、、

我试图使用DataFrame/datasets为某个类类型编写一个parquet读/写类类模式： class A { long count; List<B> listOfValues; } class B { String id; long count; } 代码： String path = "some path"; List<A> entries = somerandomAentries(); JavaRDD<A> rdd = sc.parallelize(entries, 1); DataFrame d

浏览 3提问于2016-10-14得票数 1

回答已采纳

7回答

从spark dataframe获取特定行

、

scala spark数据帧中有没有df[100, c("column")]的替代品？我想从spark data frame的一列中选择特定的行。例如，上述R等效代码中的100th行

浏览 613提问于2016-02-07得票数 45

回答已采纳

1回答

Spark错误:读取大型压缩文件时，java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

我正在尝试使用Spark (在EMR上是2.1 )处理~500M的gz文件，我没有办法改变格式或将它们分割成更小的尺寸。其中一个执行程序失败，出现以下问题： java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869) at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:103)

浏览 10提问于2017-05-21得票数 2

1回答

线程“主”org.apache.spark.sql.AnalysisException中的异常:无法解析‘in’给定输入列：[0，33,385，Will]；

、、、

我正在使用以下代码构建一个基本的'id‘程序，但是在运行时得到线程"main“org.apache.spark.sql.AnalysisException:无法解析给定的输入列的异常: 0、33、385、Will。 package com.LearningSpark.app2 import org.apache.spark.sql._ import org.apache.log4j._ object SparkSQLDataset { case class Person(id: Int, name: String, age: Int, friends: Int

浏览 2提问于2021-06-05得票数 0

1回答

如何在Yarn，Hadoop上提交scala作业

、、、、

我是Spark的新手，我正试图在伪分布式Hadoop系统上运行scala作业。 Hadoop2.6+ Yarn +Spark1.6.1+Scala2.10.6+ JVM 8，从零开始安装。我的Scala应用程序是一个简单的WordCount示例，我不知道是什么错误。 /usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scala package com.mydomain.spark.wordcount import org.apache.spark.{SparkConf,

浏览 3提问于2016-04-08得票数 0

回答已采纳

1回答

从文件系统中填充Properties对象

、、、、

TL:DR 有办法从Databricks文件系统读取Scala/Java属性文件吗？或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spark，但是尝试填充java.utils.Properties对象时出错，因为它不接受Spark的“行”类型。我尝试将数据帧更改为Array和Li

浏览 4提问于2020-12-29得票数 1

回答已采纳

2回答

如何在"pyspark“中读取xml文件？

、、

其他人使用此代码。 spark.read \ .format('com.databricks.spark.xml') \ .option('rootTag', 'tags') \ .option('rowTag', 'row') \ .load('example.xml') 所以，我试着这样做。 df = spark.read.format('xml').options(rowTag=

浏览 2提问于2021-09-30得票数 0

1回答

java.sql.SQLException:从Apache连接到Oracle数据库时未识别的SQL类型-102

、、、、

我正在尝试将远程Oracle数据库表加载到上。我就是这样启动火花壳的。 ./spark-shell --driver-class-path ../jars/ojdbc6.jar --jars ../jars/ojdbc6.jar --master local 我得到一个Scala提示符，在这里我尝试加载一个Oracle数据库表，如下所示。(我使用自定义的JDBC ) val jdbcDF = spark.read.format("jdbc").option("url", "jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS_

浏览 3提问于2019-06-16得票数 1

回答已采纳

2回答

在hadoop中解析spark驱动程序主机时出错

、

我正在尝试对Apache Hadoop 2.2.0纱线集群运行Spark-1.0.1。它们都部署在我的Windows7机器上。当我尝试运行Hadoop端的JavaSparkPI示例时，我得到了解析异常。在Spark端，所有参数看起来都没问题，port的5位数字后没有额外的字符。有人能帮帮忙吗..。 Exception in thread "main" java.lang.NumberFormatException: For input string: "57831'" at java.lang.NumberFormatException.forI

浏览 0提问于2014-08-11得票数 0

1回答

如何在Spark DataFrame中将已分区列排序到开头？

、、

我有像这样的数据， 1,IN,abc 2,US,pqr 3,UK,rst 4,IN,xyz 5,US,lmn 我正在使用spark-2.4.5 (scala)在这些数据上创建一个数据帧。 val df = spark.read.format("csv").option("header","false").load("file:///home/hduser/Desktop/demo.csv").toDF("id","country","name") 现在，当我使用以下代码将数据写出为拼

浏览 8提问于2020-11-18得票数 1

1回答

找偏移量后，群主题分区记录有误

、

我正在使用Spark Streaming，当它试图流式传输一个主题时，我突然收到了这条消息。如何跳过此错误？ Caused by: java.lang.AssertionError: assertion failed: Got wrong record for GROUP TOPIC 109 even after seeking to offset 754809 at scala.Predef$.assert(Predef.scala:170) at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaC

浏览 0提问于2018-06-25得票数 1

2回答

EMR 5.28无法在s3上加载拼图文件

、、、

在EMR集群5.28.0上，从s3读取拼图文件失败，出现以下异常，而在EMR 5.18.0上，同样可以正常工作。下面是EMR 5.28.0上的堆栈跟踪。我在spark-shell上也试过了 sqlContext.read.load(("s3://s3_file_path/*") df.take(5) 但失败了，并出现了相同的异常： Job aborted due to stage failure: Task 3 in stage 1.0 failed 4 times, most recent failure: Lost task 3.3 in stage 1.0 (TID

浏览 0提问于2019-12-08得票数 3

1回答

ApacheSpark:不支持的拼花数据类型

、、、、

我正试着用SparkSql HiveContext来读Hive表。但是，当我提交工作时，会出现以下错误： Exception in thread "main" java.lang.RuntimeException: Unsupported parquet datatype optional fixed_len_byte_array(11) amount (DECIMAL(24,7)) at scala.sys.package$.error(package.scala:27) at org.apache.spark.sql.parq

浏览 4提问于2015-08-05得票数 1

回答已采纳

2回答

无法使用java中的spark-redshift库连接到S3

、、

我正在尝试基于spark数据集在Redshift中创建一个表。我正在使用jdbc中的spark-redshift驱动程序在本地实现这一点。执行此操作的代码片段 data.write() .format("com.databricks.spark.redshift") .option("url", "jdbc:redshift://..") .option("dbtable", "test_table") .option("tempdir", "s3://temp") .option(

浏览 2提问于2019-01-25得票数 1

1回答

在安装较新版本时，Spark中的ClassNotFoundException

、

我试着用spark读取csv、json和parquet文件。但是，在每种情况下，我都会在问题的末尾列出错误。我已经尝试在spark-shell中运行以下代码 val df = spark.read.csv('a.csv') 我还尝试在pyspark中运行以下代码 df = spark.read.csv('a.csv') 对于所有文件类型，我都会得到相同的错误。我使用的spark-version是2.4.0，带有一个打包的bin-hadoop-2.7。我还安装了spark-2.3.3。但是，我的环境变量(如SPARK_HOME )已被编辑为指向spark-2.

浏览 0提问于2020-09-04得票数 0

3回答

如何解决此错误org.apache.spark.sql.catalyst.errors.package$TreeNodeException

、、、

我有两个进程，每个进程做1)连接oracle数据库，读取一个特定的表，2)形成数据帧并处理它。3)将df保存到cassandra。如果我并行运行这两个进程，则两个进程都尝试从oracle读取数据，而第二个进程读取数据时，我得到以下错误 ERROR ValsProcessor2: org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: Exchange SinglePartition +- *(1) HashAggregate(keys=[], functions=[partial_coun

浏览 0提问于2018-10-26得票数 12

回答已采纳

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： root |-- id: string (nullable = true) |-- url: string (nullable = true) 但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： root |-- crawl: struct (nullable = true) | |-- id: string (nullable = true) 然后我得到以下异常： Exception in thread "main" java.lang

浏览 4提问于2016-06-27得票数 1

1回答

在jscc.start()处出错

、、

这是我的火花代码和pom.xml。这个程序的问题是JavaStreamingContext只流第一批记录，它不再流了，而且我在jscc.start()上出错了。有人能告诉我为什么会发生这种事吗。我的火花依赖有什么问题吗？ 17/04/11 10:32:20错误StreamingContext:启动上下文错误，将其标记为已停止java.lang.IllegalArgumentException:需求失败:未注册输出操作，所以在org.apache.spark.streaming.DStreamGraph.validate(DStreamGraph.scala:163)，org.apache.s

浏览 4提问于2017-04-11得票数 0

回答已采纳

1回答

在分流之前在spark中进行缓存

、、

我有一个关于使用Spark DataFrame的基本问题。考虑下面这段伪代码： val df1 = // Lazy Read from csv and create dataframe val df2 = // Filter df1 on some condition val df3 = // Group by on df2 on certain columns val df4 = // Join df3 with some other df val subdf1 = // All records from df4 where id < 0 val subdf2 = // All

浏览 23提问于2021-02-12得票数 1

回答已采纳

1回答

Spark Structured来自Cassandra

、

我使用结构化数据流从Kafka流式传输数据 val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("enable.auto.commit", false) .option("auto.offset.reset", "earliest") .option("group.id", U

浏览 0提问于2018-11-16得票数 1

1回答

在Spark 2中获取CastClassException : java.lang.ClassCastException: java.util.ArrayList无法强制转换为org.apache.hadoop.io.Text

、、、、

在处理具有复杂数据类型列的表时在Spark2中获取CastClassException 我尝试的操作很简单: count df=spark.sql("select * from <tablename>") df.count 但在运行spark应用程序时出现以下错误 Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 4 times, most recent

浏览 2提问于2017-12-15得票数 0

1回答

如何在Spark数据帧中执行条件"withColumn“？

、、

我有一个数据帧(mydf)，如下所示： +---+---+---+---+ | F1| F2| F3| F4| +---+---+---+---+ | t| y4| 5|1.0| | x| y| 1|0.5| | x| y| 1|0.5| | x| z| 2|1.0| | x| b| 5|1.0| | t| y2| 6|1.0| | t| y3| 3|1.0| | x| a| 4|1.0| +---+---+---+---+ 我想在"withColumn“中做一个条件聚合，如下所示： mydf.withColumn("myVar"

浏览 0提问于2018-11-07得票数 6

回答已采纳

1回答

如何解决火花流程序中“作业流作业运行错误”的问题？

、、

我在星火上创造了一个大师和一个工人。然后我创建了一个Spark流作业，我正在尝试提交它，但是在Master上它显示了大量java错误使用此命令启动主服务器：火花类org.apache.spark.deploy.master.Master 使用此方法启动工作人员：火花类org.apache.spark.deploy.worker.Worker火花://ip:端口对于提交火花作业，尝试使用不同参数的命令：星星之火-提交-类com.rba.boston.SparkHome RBA-jar-与-依赖。提交-类com.rba.boston.SparkHome

浏览 0提问于2019-08-01得票数 0

回答已采纳

1回答

在Spark的Scala REPL中使用:load时找不到值

、、

知道为什么Spark的REPL (Spark 2.0.0)会抛出以下错误： scala> :load ../StatsWithMissing.scala Loading ../StatsWithMissing.scala... import org.apache.spark.util.StatCounter defined class NAStatCounter <console>:22: error: illegal start of statement (no modifiers allowed here) override def toString: String

浏览 11提问于2016-08-12得票数 0

1回答

如何将包含struct的数据帧写入cassandratable

、、、

浏览 3提问于2019-04-16得票数 0

1回答

spark dataframe到rdd的转换需要很长时间

、、

我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧，我将其分解以获得对。这个过程运行得很完美。稍后，我想将其转换为RDD (用于GraphX)，但RDD的创建需要很长时间。 val social_network = spark.read.json(my/path) // 200MB val exploded_network = social_network. withColumn("follower", explode($"followers")). withColumn("id_follower",

浏览 1提问于2017-03-20得票数 3

6回答

spark sql cast函数创建具有空值的列

、、

我在Spark中有以下数据框架和模式 val df = spark.read.options(Map("header"-> "true")).csv("path") scala> df show() +-------+-------+-----+ | user| topic| hits| +-------+-------+-----+ | om| scala| 120| | daniel| spark| 80| |3754978| spark| 1| +-------+-------+-----+

浏览 118提问于2017-06-21得票数 1

2回答

如何在Spark应用程序中进行有效的日志记录

、、

我有一个用Scala编写的spark应用程序代码，它运行一系列Spark-SQL语句。这些结果是通过在最后对最终数据帧调用操作'Count‘来计算的。我想知道在Spark-scala应用程序作业中进行日志记录的最佳方式是什么？由于数量上的所有数据帧(大约20个)最终都是使用单个操作来计算的，那么在记录某些语句的输出/序列/成功时，我有什么选择呢？问题在本质上是很小的泛型。由于spark在惰性评估上工作，所以执行计划是由spark决定的，我想知道应用程序语句在哪个阶段成功运行，以及在那个阶段的中间结果是什么。这里的目的是监视长时间运行的任务，看看它在哪一点上是正常的，以及问题出现在

浏览 22提问于2019-09-03得票数 4

2回答

为什么使用AbstractMethodError时MongoDB火花连接器会失败？

、、

我正尝试在一个远程mongodb集合中插入一个spark sql数据帧。以前，我用MongoClient编写了一个java程序来检查远程收集是否可访问，并且我成功地做到了这一点。我现在的spark代码如下- scala> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) warning: there was one deprecation warning; re-run with -deprecation for details sqlContext: org.apache.spark.sql.hive.Hiv

浏览 1提问于2016-08-10得票数 3

1回答

com.google.common.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError:未能初始化类com.datastax.driver.core.Cluster

、

当我试图从Spark向Cassandra表中插入一些数据时，我得到了下面的错误。 com.google.common.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: Could not initialize class com.datastax.driver.core.Cluster at com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2261) at com.google.common.cache.Lo

浏览 11提问于2017-08-04得票数 0

4回答

如何在逗号(，)处拆分字符串，但忽略双引号(“，")中的逗号

、、、、

我有一个文本文件字符串，格式如下： "1","1st",1,"Allen, Miss Elisabeth Walton",29.0000,"Southampton","St Louis, MO","B-5","24160 L221","2","female" 我想在逗号(，)处拆分字符串，但忽略双引号(“”)中的逗号(，)。我使用Spark、Scala和case类来创建数据帧。我尝试了下面的代码，但得到了一个错误： val tit_rdd = td.m

浏览 0提问于2017-05-22得票数 0

2回答

Apache火花中的数据集

、、

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused by: java.util.concurrent.ExecutionException: org.codehaus.commons.compiler.CompileException: File '

浏览 1提问于2018-04-29得票数 2

回答已采纳