我们正在尝试使用ZK设置Spark HA设置。我们有2台主机用于Spark进程,另外3台用于Spark Slaves,spark HA的Master Machine中的配置如下在spark-env.sh中完成:
# - SPARK_DAEMON_JAVA_OPTS, to set config properties for all daemons (e.g. "-Dx=y")
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url
我使用亚马逊网络服务的EC2指南安装了Spark,我可以使用bin/pyspark脚本很好地启动程序,进入spark提示符,还可以成功地执行Quick Start quide。
然而,我无论如何也想不出如何在每个命令之后停止所有详细的INFO日志记录。
我已经在下面的代码中尝试了几乎所有可能的场景(注释掉,设置为OFF),在我启动应用程序的conf文件夹中的log4j.properties文件中,以及在每个节点上,都没有任何效果。在执行每条语句之后,我仍然可以打印日志记录INFO语句。
我对这应该如何工作感到非常困惑。
#Set everything to be logged to the c
在使用Spark执行我的第一个步骤时,我遇到了从应用程序代码向集群提交作业的问题。在挖掘日志时,我注意到主日志中有一些周期性的警告消息:
15/10/08 13:00:00 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkDriver@192.168.254.167:64014] has failed, address is now gated for [5000] ms. Reason: [Disassociated]
问题是ip地址在我们的网络上不存在,并且没有在
我正在星火独立集群中编程火花应用程序。当我运行以下代码时,我得到了下面的ClassNotFoundException(参考屏幕截图)。因此,我跟踪工人(192.168.111.202)日志。
package main
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
object mavenTest {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("stream t
我得到了下面的错误。Spark_local_dir已设置,并具有足够的空间和inode。
java.io.IOException: No space left on device
at java.io.FileOutputStream.writeBytes(Native Method)
at java.io.FileOutputStream.write(FileOutputStream.java:326)
at org.apache.spark.storage.TimeTrackingOutputStream.write(TimeTrackin
我想在火花作业中使用Kryo序列化。
public class SerializeTest {
public static class Toto implements Serializable {
private static final long serialVersionUID = 6369241181075151871L;
private String a;
public String getA() {
return a;
}
public void setA(Strin
我已经安装了一个hadoop集群,其中有3台机器,一台主计算机和2台从机。
SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly
添加了HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop火花-env.sh
Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hado
我们只是在尝试星火,结果证明很慢。为了说明我的意思,我给出了下面的一个例子--在一个包含HDFS 10行的文本文件中加载Spark需要将近2秒的时间,并计算行数。我的问题:
这是意料之中吗?你的站台需要多长时间?
有什么可能的想法吗?目前,我正在两个节点Hadoop集群上使用Spark1.3(都是8核,64 G RAM)。谈到Hadoop和Spark,我非常绿色,所以除了Ambari/HDP默认设置之外,我做了很少的配置。
最初,我在一亿行上进行测试--星火只需10分钟就能计算出来。
示例:
创建10个数字的文本文件,并将其加载到hadoop中:
for i in {1..10
我在VM上有一个ClouderaCdh5.3快速启动程序。我在运行星火有问题。我已经走过了那些台阶..。运行exapmle这个词就成功了。但是当我去找主人(quickstart.cloudera:18080)的时候,那里没有工人-- cores=0,memory=0.当我去(quickstart.cloudera:18081)时,有一个工人。我的问题是如何增加工人?在出口STANDALONE_SPARK_MASTER_HOST中我应该输入什么?
这是火花-env.sh:
#Change the following to specify a real cluster's Master h
我们有一个在本地独立模式下运行良好的spark作业。我们已将其提交到aws EMR-5.0 (spark 2.0,hadoop 2.7.2),并收到以下错误:
java.io.FileNotFoundException: File does not exist: hdfs://ip.us-west-2.compute.internal:8020/user/hadoop/.sparkStaging/application_1470941709244_0001/__spark_libs__3533384422462530422.zip
at org.apache.hadoop.hdfs.D
在Spark1.3.0中重新分区DataFrame之后,当保存到亚马逊的S3时,我会得到一个.parquet异常。
logsForDate
.repartition(10)
.saveAsParquetFile(destination) // <-- Exception here
我收到的例外是:
java.io.IOException: The file being written is in an invalid state. Probably caused by an error thrown previously. Current state: COLUMN
at