使用Spark Scala处理特定日期范围目录中的数据_使用Scala连接spark数据帧中的数据_使用Scala/Spark列出目录中的文件(包括文件信息) - 腾讯云开发者社区

、、

考虑scala代码： import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions} import org.apache.spark.SparkContext import scala.collection.JavaConverters.mapAsJavaMapConverter object MyGlueJob { def main(sysArgs: Array[String]) { val spa

浏览 1提问于2018-01-18得票数 2

1回答

org.apache.hadoop.fs.FileAlreadyExistsException:无法为路径创建目录：“S3A//bucket1 1/folder1 1”，因为它是一个文件

、、

下面的代码用于将数据从oracle加载到S3。 source_data = spark.read.format("jdbc").option("url", url).option("dbtable", "scott.emp").option("fetchSize","10000").option("user", user).option("password", password) .option("driver", driver).load() had

浏览 2提问于2020-10-05得票数 0

2回答

什么是“偏移从X改为0”错误与KafkaSource在星火结构化流？

、、、、

在带有检查点的Spark结构化流应用程序中，我得到了“偏移量从X更改为0，一些数据可能被漏掉”的错误，但它似乎并没有真正造成任何问题。我想弄清楚这个错误到底意味着什么。我的设置如下。我让Kafka (0.10.1.0)在一个码头容器中运行，在/tmp/kafka日志上挂载了一个命名的卷，以便在重新启动之间保持日志。我在另一个码头容器中有一个Spark结构化流(2.1.1)应用程序。溪流消耗卡夫卡的数据。它们还在重新挂载到指定卷中的位置使用检查点，以确保在重新启动之间保留元数据。我使用一个实现接口的自定义接收器，这意味着我必须实现自己的已处理版本日志，以便当一切重新启动时，我

浏览 2提问于2017-05-09得票数 3

2回答

火花流检查点在驱动程序重新启动后不工作

、

我有一个简单的火花流应用程序，它从rabbitMQ读取数据，并在1分钟和1小时的窗口间隔上进行一些聚合，批处理间隔为30。我有三个节点设置。为了启用检查点，我使用sshfs将同一个目录挂载到所有工作节点以创建检查点。当我第一次运行星火流应用程序时，它工作得很好。我可以看到控制台上打印的结果以及网络目录中的一些检查点。但是，在我终止驱动程序进程并重新启动之后，它会失败，但会出现以下异常 ERROR 2015-11-06 08:29:10 org.apache.spark.streaming.scheduler.JobScheduler: Error running job

浏览 2提问于2015-11-04得票数 2

1回答

当jar在HDFS中时，Spark作业不运行

、、

我正尝试在独立模式下运行spark作业，但是命令没有从HDFS文件中拾取，jar文件存在于HDFS.The位置，并且当我在本地模式下运行它时，它工作得很好。下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序： val conf = new SparkConf().setAppName("WordCount").setMaster("yarn") val spark = new S

浏览 52提问于2019-01-19得票数 0

回答已采纳

2回答

Spark Structured Streaming NOT process Kafka offset过期

、、

我们有火花结构化流媒体应用程序，将数据从卡夫卡推送到S3。 Spark Job在几天内运行良好，然后开始累积延迟。我们有Kafka主题，过期6小时。如果延迟增加，并且一些偏移量开始过期，则Spark无法找到偏移量，并在警告后开始记录。从表面上看，Spark job似乎正在运行，但它没有处理任何数据。当我尝试手动重新启动系统时，我遇到了GC问题(见下面的屏幕截图)。我已将"failOnDataLoss“设置为"false”。我们希望系统不会在找不到偏移量时停止处理。除了下面提到的警告之外，我没有在日志中看到任何错误。我们看到的唯一警告是： The current av

浏览 1提问于2020-05-18得票数 1

2回答

使用直线客户端通过Spark服务器查询冰山表时出错吗？

、、

我正在尝试使用星火节约服务器来查询冰山表(外部表包含S3中的数据和Hivemetastore中的元数据)。我能够查询非冰山表，但是当我查询冰山表时，我得到的是以下错误。我们不可以通过星火节约服务器查询冰山表吗？版本细节火花- 3.2.1 斯卡拉- 2.12.15 冰山火花库- 我从maven中添加了其他S3、AWS依赖jars，并添加到spark文件夹中。我已经使用以下命令启动了节俭服务器 start-thriftserver.sh \ --hiveconf hive.metastore.uris=thrift://$ip:$port \ --conf spar

浏览 31提问于2022-06-14得票数 2

回答已采纳

2回答

获取异常"submit- job -thread-pool-0“spark job kafka

、、

运行spark作业时，从Kafka队列中获取结果。获取下面的错误，这是工作良好，如果在kafka队列有400个项目，如果我处理1000个项目比它崩溃。从kafka队列中获取项目的代码， SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount11").setMaster("local[*]"); sparkConf.set("spark.streaming.concurrentJobs", "20"); // Cr

浏览 0提问于2016-11-18得票数 1

2回答

Spark 0.9.0:当作业失败时，worker在独立模式下继续死亡

、

我是spark的新手。我在我的mac上以独立模式运行Spark。我带上了主人和工人，他们都很好。master的日志文件如下所示： ... 14/02/25 18:52:43 INFO Slf4jLogger: Slf4jLogger started 14/02/25 18:52:43 INFO Remoting: Starting remoting 14/02/25 18:52:43 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkMaster@Shirishs-MacBook-Pro.loca

浏览 0提问于2014-02-26得票数 6

4回答

星星之火SQL SaveMode.Overwrite，获取java.io.FileNotFoundException并要求“刷新表tableName”

、

对于spark，我们应该如何从HDFS中的一个文件夹中获取数据，进行一些修改，并通过覆盖保存模式将更新后的数据保存到HDFS 中的同一个文件夹中，而不需要FileNotFoundException。 import org.apache.spark.sql.{SparkSession,SaveMode} import org.apache.spark.SparkConf val sparkConf: SparkConf = new SparkConf() val sparkSession = SparkSession.builder.config(sparkConf).getOrCreate(

浏览 4提问于2017-03-21得票数 18

1回答

为什么Spark应用程序失败，并显示"IOException：( null ) entry in command string: null chmod0644“？

、、

我尝试使用下面的JAVA将数据集结果写入到单个CSV中 dataset.write().mode(SaveMode.Overwrite).option("header",true).csv("C:\\tmp\\csvs"); 但是它是超时的，文件没有被写入。抛出org.apache.spark.SparkException: Job aborted. 错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 13.0 failed 1 time

浏览 0提问于2017-12-29得票数 5

回答已采纳

2回答

我如何在spark scala中创建日期范围的存储箱？

、

你好。你好吗？我是一名Python开发人员，正在尝试学习Spark Scala。我的任务是创建日期范围框，并计算每个框(直方图)中出现的频率。我的输入数据帧如下所示我的bin边是这样的(在Python中)： bins = ["01-01-1990 - 12-31-1999","01-01-2000 - 12-31-2009"] 我要查找的输出dataframe是(每个bin的原始dataframe中有多少个值的计数)：有没有人可以指导我怎么做是spark scala？我有点迷路了。谢谢。

浏览 2提问于2020-09-02得票数 0

1回答

找不到cassandra表抛出一致性LOCAL_ONE的计数(*)(需要1个响应，但只有0个副本响应)

、、、、

我有一个使用spark -sql将数据写入cassandra表的场景。我有一个3节点的cassandra集群。我创建了复制因子为2的表，如下所示： CREATE TABLE keyspaceRf2. c_columnar ( id int, company_id int, dd date, c_code text, year int, quarter int, etc ....etc... PRIMARY KEY (( id, year, quarter), dd, c_code, company_id ) )

浏览 3提问于2019-01-11得票数 0

2回答

使用Spark连接到MS SQL Server

我正在尝试使用Spark JdbcRDD从SQL Server数据库加载数据。我使用的是Microsoft JDBC驱动程序的4.0版。下面是一段代码： public JdbcRDD<Object[]> load(){ SparkConf conf = new SparkConf().setMaster("local").setAppName("myapp"); JavaSparkContext context = new JavaSparkContext(conf); DbConnection connection = n

浏览 0提问于2015-01-31得票数 4

2回答

星火作业(scala)向Cassandra写入类型日期

、、、、

我使用的是DSE 5.1 (spark 2.0.2.6和cassandra 3.10.0.1652) 我的卡桑德拉桌： CREATE TABLE ks.tbl ( dk int, date date, ck int, val int, PRIMARY KEY (dk, date, ck) ) WITH CLUSTERING ORDER BY (date DESC, ck ASC); 有以下数据： dk | date | ck | val ----+------------+----+----- 1 | 2017-01-01 | 1 | 100 1

浏览 2提问于2017-05-08得票数 0

回答已采纳

1回答

org/apache/spark/TaskOutputFileAlreadyExistException :java.lang.NoClassDefFoundError

、、、

我读过HDFS中的数据。我分析了它，但我在写作时得到了这个错误。错误的延续 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/TaskOutputFileAlreadyExistException at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:167) at or

浏览 0提问于2020-05-15得票数 0

回答已采纳

1回答

Azure HD Insight是否支持自动加载器来检测新文件？

、、、

我指的是下面的链接，它使用火花流处理azure中的增量文件。我想知道带有数据池存储的HD集群Gen2是否支持增量文件。我尝试了HD星系团中的示例，我得到了以下错误示例代码： input_df = spark.readStream \ .format("cloudFiles") \ .option("cloudFiles.format","json") \ .option("cloudFiles.connectionString", connection_st

浏览 9提问于2020-09-30得票数 0

回答已采纳

1回答

Spark scala无法推送配置单元表中的数据

、、

我正在尝试推送现有配置单元表中的数据，我已经在配置单元中创建了orc表，无法推送配置单元中的数据。如果我在spark控制台上复制粘贴，但不能通过spark-submit运行，则此代码可以工作。 import org.apache.spark.SparkConf import org.apache.spark.SparkContext object TestCode { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("first example").set

浏览 0提问于2018-04-11得票数 0

1回答

火花SQL -如何从时代中选择存储为UTC millis的日期？

、、、

我一直在搜索，还没有找到一个解决方案，说明如何使用Spark查询存储为UTC毫秒的日期。我从NoSQL数据源(来自MongoDB的JSON)中提取的模式的目标日期为： |-- dateCreated: struct (nullable = true) ||-- $date: long (nullable = true) 完整的模式如下： scala> accEvt.printSchema root |-- _id: struct (nullable = true) | |-- $oid: string (nullable = true) |-- appId: integer

浏览 0提问于2014-10-29得票数 1

回答已采纳

1回答

为什么dataframe.show()在PyCharm中使我的程序崩溃，而不是在终端中

、、

我正在尝试运行一个简单的pyspark示例，它是我自己编写的，用于学习目的： from pyspark import SQLContext from pyspark import SparkContext from pyspark.sql.types import StringType from pyspark.sql.functions import udf from urllib.parse import urlsplit def extractPath(host, url): if host in url: return urlsplit(url).path

浏览 2提问于2019-03-28得票数 2

3回答

使用Joda时间将字符串转换为unsupportedOperationException错误

、、、

我使用joda.time.Datetime库将字符串转换为datetime字段，但它引发不受支持的异常，这里是主要类代码： //create new var with input data without header var inputDataWithoutHeader: RDD[String] = dropHeader(inputFile) var inputDF1 = inputDataWithoutHeader.map(_.split(",")).map{p => val dateYMD: DateTime = DateTimeFormat.forPattern(

浏览 4提问于2016-01-14得票数 2

回答已采纳

1回答

如何处理星火rdd生成上的CSV文件列？

、、

这是我的Java火花代码。这是星火CSV数据格式。 "f_name","l_name","job","gender","age","salary" "Elsdon","Jaycob","Java programmer","male",43,2000 "Tamsen","Brittany","Java programmer","female",23,1500 "Flo

浏览 2提问于2017-11-04得票数 0

回答已采纳

2回答

MongoDB和Spark:无法将字符串转换为TimestampType

、

我使用官方的MongoDB Spark Connector从MongoDB集合中读取Spark中的数据，代码如下： val spark = SparkSession. builder(). appName("MongoDB to SQL"). getOrCreate() val df = MongoSpark.load(spark, readConfig) df.count() readConfig是MongoDB的标准读配置，它工作得很好。我遇到的问题是，我从MongoDB获取的一些日期/时间作为字符串

浏览 12提问于2018-11-28得票数 1

2回答

通过spark从mariadb读取日期和日期时间列时出错

、、、

我正在从spark中读取mariadb表，其中包含日期和日期时间字段。火花是在阅读时抛出错误。以下是mariadb表的架构：读取mariadb表的星火代码： val df = spark.read.format("jdbc").option("driver", "org.mariadb.jdbc.Driver").option("url", "jdbc:mariadb://xxxx:xxxx/db").option("user", "user").option("

浏览 10提问于2022-05-06得票数 0

回答已采纳

1回答

Datastax 6独立分析服务器

、、

我下载了datastax 6，并希望(在mac上)分析一下(火花很好，但火花+搜索会很好)。我提取了gz，配置了目录结构并执行了dse cassandra -ks。启动似乎工作得很好，我可以到火花主节点，问题是当我运行dse spark-sql (或者仅仅是火花)。我经常会遇到以下错误:是否可以为开发设置一个节点？ ERROR [ExecutorRunner for app-20180623083819-0000/212] 2018-06-23 08:40:28,323 SPARK-WORKER Logging.scala:91 - Error running executor java.la

浏览 1提问于2018-06-23得票数 1

回答已采纳

3回答

为什么Spark分区对HDFS有2GB的限制？

、、

在使用mllib RandomForest训练数据时，我得到了一个错误。因为我的数据集很大，并且默认分区相对较小。因此抛出的异常指示“大小超过Integer.MAX_VALUE”，原始堆栈跟踪如下所示， 15/04/16 14:13:03警告scheduler.TaskSetManager:阶段6.0中丢失的任务19.0 (TID 120，10.215.149.47)：java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE 在sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828

浏览 5提问于2015-04-17得票数 16

回答已采纳

1回答

Dataframe转换产生空值。

、、、

除了元数据目录之外，我一直试图在目录中列出Parquet文件中的所有Spark数据。目录的结构如下所示： dumped_data/ - time=19424145 - time=19424146 - time=19424147 - _spark_metadata 主要目标是避免从_spark_metadata目录读取数据。我已经创建了一个解决方案，但由于某种原因，它经常返回空值。原因是什么？以下是解决办法： val dirNamesRegex: Regex = s"\\_spark\\_metadata*".r def transformDf: Option[Da

浏览 1提问于2020-07-01得票数 0

回答已采纳

1回答

sbt assemblyMergeStrategy不工作

、

我编写了以下build.sbt文件 lazy val root = (project in file(".")).settings( name := "SparkStreaming1", organization := "abhi", version := "1.0", scalaVersion := "2.11.8", libraryDependencies ++= Seq( "org.apache.spark" %% "spark-st

浏览 5提问于2016-05-11得票数 3

回答已采纳

1回答

如何使用partitionBy调优保存操作

、、、、

我需要将数据集数据划分为6列: region/year/month/day/id/quadkey，其中在顶层我只有二进制区域状态，而在最底层实际上是它进入许多分区的位置。假设我们有两个区域/通常是一年/通常是一个月/3-4天/100-150个I/ 50-200个四键，当我执行这个操作时，我得到了非常不平衡的随机操作，有时执行器会因为超出内存限制而失败。此外，我从History UI中注意到，hat阶段的一些任务非常大(约15 1Gb)，而其他任务则小得多(约1 1Gb)。我试着去玩 sqlContext.setConf("spark.sql.shuffle.partitions

浏览 0提问于2019-04-11得票数 1

2回答

delta lake - Insert in pyspark : java.lang.NoSuchMethodError: delta lake-Insert Insert is sql in pyspark:java.lang.NoSuchMethodError:delta lake-Insert Insert is with java.lang.NoSuchMethodError:delta lake-Insert is sql in pyspark

、、、、

使用带有增量io包io.delta:delta-core_2.12:0.7.0镜像2.0.x创建Dataproc集群 Spark版本为3.1.1 Spark shell由以下命令启动： pyspark --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \ --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog 执行命令以创建增量表并插入到增量sql中： spark.sql

浏览 34提问于2021-02-09得票数 4

2回答

在emr上使用oozie执行火花提交时，我得到了以下错误

、、、

我在集群模式下运行。apacheds-kerberos-codec-2.0.0-M15.jar存在于oozie/share/lib/lib*/share和oozie/share/lib/lib*/oozie中的多个位置。这是环境问题吗？ ava.lang.IllegalArgumentException: Attempt to add (hdfs://ip-172-20-10-53.ec2.internal:8020/user/oozie/share/lib/lib_20170208121307/oozie/apacheds-kerberos-codec-2.0.0-M15.jar) mult

浏览 3提问于2017-02-08得票数 2

回答已采纳

1回答

Scala未能看到Scala中的表内容

、

未能使用Vora查看Scala中的数据。 VORA: 1.2火花: 1.5.2火花放电控制器: 1.5.8 hdfs文件"content“显示得很好。 /user/vora/XXXXXXXX/part-00000 -cat AB0 5,560 CD06,340 EF07,590 GH08,230 表在“显示数据源”命令中显示得很好 scala> vc.sql(s“”显示使用com.sap.spark.vora的DATASOURCETABLES“.stripMargin ).show 显示表在Scala scala> vc.sql("select * VVCSV&#

浏览 0提问于2016-04-18得票数 0

1回答

火花误差-十进制精度39超过最大精度38

、、

当我试图从收集数据时，我会得到一个错误声明 "java.lang.IllegalArgumentException:要求失败:十进制精度39超过最大精度38“。 Spark数据中的所有数据都来自Oracle数据库，在那里，我相信十进制精度小于38。有什么办法可以做到这一点，而不修改数据？ # Load required table into memory from Oracle database df <- loadDF(sqlContext, source = "jdbc", url = "jdbc:oracle:thin:usr/pass@ur

浏览 7提问于2017-05-23得票数 9

1回答

群集wso2应用编程接口管理器网关不向wso2发布统计信息

、

我正在设置mysql manager 1.10.x和DAS3.0.1，以便使用wso2发布API统计数据。我的API管理器系统与单独的VM上的网关工作节点群集在一起。我遵循以下文档，通过UI为API管理器启用分析。我还按照本文档手动启用了对网关工作节点的分析。安装完成后，我重新启动了所有服务器，一切似乎都很正常。但是当我从网关工作者日志向发布的API发出请求时，我看不到它向DAS接收器发布任何统计数据。DAS汇总表中也没有数据。如何使API管理器网关工节点将统计数据发布到DAS？我在配置中遗漏了什么吗？我确实在DAS中看到了以下异常(我不认为这与网关工作节点没有发布统计信息有关)。 [201

浏览 2提问于2017-06-01得票数 1

1回答

spark hbase连接器-异常"java.lang.UnsupportedOperationException: empty.tail“

、、

我们使用的是HDP 2.4.2，spark 1.6是使用Scala 2.10.5编译的。Hbase版本为1.1.2.2.4.2.0-258 环境是一个基本的dev集群(<10个节点)，hbase & spark在集群模式下运行。尝试使用spark hbase连接器将soem数据从hbase获取到spark中的数据帧失败，并显示以下错误- Exception in thread "main" java.lang.UnsupportedOperationException: empty.tail at scala.collection.Traversable

浏览 16提问于2017-03-02得票数 4

1回答

如果日期格式不正确，验证日期格式并删除行

、、、

示例rddDate: 2016-08-01，"pm",5，"ri“在这个RDD中有一些日期格式不正确的行，所以我不能在RDD中计数行。这会引发IndexOutOfBound异常。使用的日期格式是java.sql.Date 预期的日期格式为RDD中的每一行：“yyyy dd”。 2016-08-01 若要验证RDD中的日期格式，请执行以下代码， val rddVerified: RDD[(Date, String, Long, String)] = rddDate.map{ a => { val

浏览 0提问于2018-01-28得票数 0

2回答

如何在Spark中获取默认属性值

、、

我正在使用这个版本的Spark：spark-1.4.0-bin-hadoop2.6。我想检查几个默认属性。因此，我在spark-shell中给出了以下语句 scala> sqlContext.getConf("spark.sql.hive.metastore.version") 我期望对方法getConf的调用会返回此中描述的0.13.1值。但是我得到了下面的异常 java.util.NoSuchElementException: spark.sql.hive.metastore.version at org.apache.spark.sql.SQLConf$$a

浏览 0提问于2015-07-17得票数 6

回答已采纳

1回答

在齐柏林飞艇中使用SparkSQL查询Hive表时，为什么会收到这个IO异常？

、、、、

我按照的第一部分创建了一个外部配置单元表，并将其指向特定的S3 Bucket。在Hue界面中，我可以在成功创建后浏览数据示例。如果我切换到齐柏林飞艇并运行以下命令：%sql show tables，我可以看到我的表列在default数据库旁边。现在，如果我实际尝试查询表，就会得到一个java.io.IOException: Not a file: s3://my-bucket/my-subdirectory错误。这个错误是有道理的，但是Hive会让你指定一个S3存储桶，而不是一个实际的S3文件，所以我不知道如何让两者都满意！请注意，此目录中只有一个文件，并且我没有尝试任何分区。该文件经过压

浏览 1提问于2017-06-03得票数 0

3回答

当火花试图发送MapOutputTracker时，为什么会报告“与GetMapOutputStatuses通信错误”？

、

我正在使用Spark1.3对大量数据进行聚合。这项工作由四个步骤组成：读取一个大的(1TB)序列文件(对应1天的数据) 过滤掉其中的大部分，得到大约1GB的洗牌写入。 keyBy客户 aggregateByKey()指向为该客户构建配置文件的自定义结构，该配置文件对应于HashMapLong，每个客户浮动。长键是唯一的，从来不超过50K不同的条目。我使用这个配置来运行这个： --name geo-extract-$1-askTimeout \ --executor-cores 8 \ --num-executors 100 \ --executor-memory 4

浏览 0提问于2015-09-09得票数 16

回答已采纳

1回答

运行Spark App: Persist

、

我正在开发一个同样使用SparkSQL并使用dataframe.write.saveAsTable(tbl)保存数据的Spark2.1应用程序。我的理解是内存中的Derby DB用于Hive元存储(对吗？)。这意味着我在第一次执行时创建的表在任何后续执行中都不可用。在许多情况下，这可能是预期的行为-但我希望在执行过程中保持metastore (因为这也是我的生产系统中的行为)。因此，有一个简单的问题:如何更改配置以在磁盘上持久化元存储？需要注意的是:我并不是使用spark-shell或spark-submit来启动Spark作业，而是将其作为一个独立的Scala应用程序。

浏览 4提问于2017-07-26得票数 0

回答已采纳

2回答

如何在星火中访问这类数据

、

数据以下列形式存储： data/file1_features.mat data/file1_labels.txt data/file2_features.mat data/file2_labels.txt ... data/file100_features.mat data/file100_labels.txt 每个data/file*_features.mat存储一些样本的特性，每一行都是一个示例。每个data/file*_labels.txt存储这些样本的标签，每一行都是一个数字(例如，1,2,3，.)。在整个100个文件中，总共有大

浏览 5提问于2016-05-18得票数 3

回答已采纳

1回答

尝试通过scala/spark应用程序连接到postgres数据库时的ClassNotFoundException

、、、、

我需要通过scala/spark应用程序连接到postgres数据库。当我在我的IDE中运行它时，它工作得很好，但是，当我尝试使用以下命令运行打包的可执行jar时，我得到了以下日志消息：使用以下命令触发可执行jar： java -cp HighestPerformingCampaign-assembly-1.0.jar com.scala.Executor 抛出异常： Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: jdbc. Please fin

浏览 31提问于2021-05-21得票数 0

2回答

在无法通过SSH访问internet的远程节点上使用SBT

、、、、

我正试图在一台远程机器上用Scala写一个程序，但那台机器没有互联网接入。因为我使用的是Hadoop的预编译版本，所以我能够运行预编译的示例： [user@host spark-0.7.2]$ ./run spark.examples.LocalPi 但是我不能在机器上编译任何引用spark的东西： $ scalac PiEstimate.scala PiEstimate.scala:1: error: not found: object spark import spark.SparkContext ^ 通常，我会使用SBT来处理任何依赖项，但是机器不能访问internet，并

浏览 0提问于2013-06-11得票数 2

回答已采纳

1回答

如何从拼花地板的当前日期开始读取最近N天的最后天数

、

我已经用partition by date类型列将数据以拼图文件格式保存在仓库中。我尝试使用scala spark从当前日期获取最近N天的数据。文件数据保存方式与仓库路径类似。 Tespath/filename/dt=2020-02-01 Tespath/filename/dt=2020-02-02 ........... Tespath/filename/dt=2020-02-28 如果我读取所有的数据，它的数据量是非常大的。

浏览 14提问于2020-02-24得票数 1

回答已采纳

1回答

如何禁用混洗文件的磁盘写入？

、

嗨，我们有spark集群，在spark作业执行期间，当我将中间数据写入spark.local.dir位置时，我得到了sparkoutofmemory，但是当我看到他们的内存是执行器未使用的两倍以上时，所以我们可以将数据存储到内存本身吗？下面是异常详细信息 Job aborted due to stage failure: Task 134555 in stage 32.0 failed 4 times, most recent failure: Lost task 134555.3 in stage 32.0 (TID 151065, <<some worker node IP&

浏览 1提问于2020-12-29得票数 1

2回答

在scala中的hive表中创建数据帧时，无法将模式名称作为输入

、、、

我正在尝试从clickstream_db模式中存在的一个现有的单元表中创建一个数据格式。 val ganulardataframe=hc.table("clickstream_db.granulartable"); 它犯了一个错误： org.apache.spark.sql.catalyst.analysis.NoSuchTableException at org.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:112)

浏览 5提问于2015-12-22得票数 2

回答已采纳

2回答

如何丰富流查询的数据，并将结果写入Elasticsearch？

、、、

对于给定的数据集(originalData)，我需要映射值，然后结合elasticsearch的搜索结果准备一个新的数据集。 Dataset<Row> orignalData = spark .readStream() .format("kafka") .option("kafka.bootstrap.servers","test") .option("subscribe", "test") .option("startingOffsets", "latest

浏览 4提问于2019-10-10得票数 1

回答已采纳

1回答

在星火DataFrame中找不到嵌套列的路径

、、、

我有一个问题，我不确定是否是火花DataFrames的问题，或火花- XML，我正在使用它来解析一个XML文件到Spark。我真的很感谢你的帮助。因此，我有以下XML： <root> <path> <to> <atag> <atag_number>1</atag_number> <more> <again> <text>1111</text> </a

浏览 1提问于2016-11-05得票数 0

1回答

在运行时更改参数类型的Scala案例类

Scala问题: JSON数据被提取并存储到case类中，需要将时间字符串数据转换为用于Spark dataframe的sql时间戳和用于Salat DAO/Mongo存储的Java/Joda日期。而且两者都不支持对方的格式。目前，我们使用两个case类进行相同的操作： case class A(a:int, b:string, time:java.sql.timestamp) case class B(a:int, b:string, time:java.util.Date) 因此，Json Extractor方法基于Spark/Mongo存储类型填充上述两个案例类中的任何一个。有更

浏览 0提问于2016-04-08得票数 1

回答已采纳

1回答

对pyspark dataframe执行重复数据删除时遇到内存错误

、

我对pyspark还是个新手，在对数据帧进行重复数据删除时遇到了问题。我的数据帧中有3个字段: PersonId、PlaceId和ThingId。下面是一个示例： PersonTest = [1,1,2,2,2,3,4] PlaceTest = [['A', 'B'],['A', 'B', 'C'],['C'],['C','D','E','F'],['C','D','F'],['

浏览 10提问于2020-09-02得票数 1

回答已采纳