我正尝试在独立模式下运行spark作业,但是命令没有从HDFS文件中拾取,jar文件存在于HDFS.The位置,并且当我在本地模式下运行它时,它工作得很好。 下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序: val conf = new SparkConf().setAppName("WordCount").setMaster("yarn")
val spark = new S
我们有火花结构化流媒体应用程序,将数据从卡夫卡推送到S3。
Spark Job在几天内运行良好,然后开始累积延迟。我们有Kafka主题,过期6小时。如果延迟增加,并且一些偏移量开始过期,则Spark无法找到偏移量,并在警告后开始记录。从表面上看,Spark job似乎正在运行,但它没有处理任何数据。当我尝试手动重新启动系统时,我遇到了GC问题(见下面的屏幕截图)。我已将"failOnDataLoss“设置为"false”。我们希望系统不会在找不到偏移量时停止处理。除了下面提到的警告之外,我没有在日志中看到任何错误。
我们看到的唯一警告是:
The current av
我是spark的新手。我在我的mac上以独立模式运行Spark。我带上了主人和工人,他们都很好。master的日志文件如下所示:
...
14/02/25 18:52:43 INFO Slf4jLogger: Slf4jLogger started
14/02/25 18:52:43 INFO Remoting: Starting remoting
14/02/25 18:52:43 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkMaster@Shirishs-MacBook-Pro.loca
我使用的是DSE 5.1 (spark 2.0.2.6和cassandra 3.10.0.1652)
我的卡桑德拉桌:
CREATE TABLE ks.tbl (
dk int,
date date,
ck int,
val int,
PRIMARY KEY (dk, date, ck)
) WITH CLUSTERING ORDER BY (date DESC, ck ASC);
有以下数据:
dk | date | ck | val
----+------------+----+-----
1 | 2017-01-01 | 1 | 100
1
我读过HDFS中的数据。我分析了它,但我在写作时得到了这个错误。错误的延续
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/TaskOutputFileAlreadyExistException
at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:167)
at or
我正在尝试运行一个简单的pyspark示例,它是我自己编写的,用于学习目的:
from pyspark import SQLContext
from pyspark import SparkContext
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf
from urllib.parse import urlsplit
def extractPath(host, url):
if host in url:
return urlsplit(url).path
我使用joda.time.Datetime库将字符串转换为datetime字段,但它引发不受支持的异常,这里是主要类代码:
//create new var with input data without header
var inputDataWithoutHeader: RDD[String] = dropHeader(inputFile)
var inputDF1 = inputDataWithoutHeader.map(_.split(",")).map{p =>
val dateYMD: DateTime = DateTimeFormat.forPattern(
我在集群模式下运行。apacheds-kerberos-codec-2.0.0-M15.jar存在于oozie/share/lib/lib*/share和oozie/share/lib/lib*/oozie中的多个位置。这是环境问题吗?
ava.lang.IllegalArgumentException: Attempt to add (hdfs://ip-172-20-10-53.ec2.internal:8020/user/oozie/share/lib/lib_20170208121307/oozie/apacheds-kerberos-codec-2.0.0-M15.jar) mult
我按照的第一部分创建了一个外部配置单元表,并将其指向特定的S3 Bucket。在Hue界面中,我可以在成功创建后浏览数据示例。如果我切换到齐柏林飞艇并运行以下命令:%sql show tables,我可以看到我的表列在default数据库旁边。
现在,如果我实际尝试查询表,就会得到一个java.io.IOException: Not a file: s3://my-bucket/my-subdirectory错误。这个错误是有道理的,但是Hive会让你指定一个S3存储桶,而不是一个实际的S3文件,所以我不知道如何让两者都满意!
请注意,此目录中只有一个文件,并且我没有尝试任何分区。该文件经过压
我需要通过scala/spark应用程序连接到postgres数据库。当我在我的IDE中运行它时,它工作得很好,但是,当我尝试使用以下命令运行打包的可执行jar时,我得到了以下日志消息:
使用以下命令触发可执行jar:
java -cp HighestPerformingCampaign-assembly-1.0.jar com.scala.Executor
抛出异常:
Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: jdbc. Please fin
我正在尝试从clickstream_db模式中存在的一个现有的单元表中创建一个数据格式。
val ganulardataframe=hc.table("clickstream_db.granulartable");
它犯了一个错误:
org.apache.spark.sql.catalyst.analysis.NoSuchTableException
at org.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:112)
Scala问题: JSON数据被提取并存储到case类中,需要将时间字符串数据转换为用于Spark dataframe的sql时间戳和用于Salat DAO/Mongo存储的Java/Joda日期。
而且两者都不支持对方的格式。
目前,我们使用两个case类进行相同的操作:
case class A(a:int, b:string, time:java.sql.timestamp)
case class B(a:int, b:string, time:java.util.Date)
因此,Json Extractor方法基于Spark/Mongo存储类型填充上述两个案例类中的任何一个。
有更