我有以下代码
我按如下方式调用spark-shell
./spark-shell --conf spark.cassandra.connection.host=170.99.99.134 --executor-memory 15G --executor-cores 12 --conf spark.cassandra.input.split.size_in_mb=67108864
代码
scala> val df = spark.sql("SELECT test from hello") // Billion rows in hello and test column is
我终于设法让火花在本地运行,并启动它(?)使用:
spark-shell
我看到这就像启动一个可以通过API消费的服务器程序--不确定这是否正确?还是火花大师在运行?其结果是打印出来:
Spark context Web UI available at http://123.134.0.4:4040
Spark context available as 'sc' (master = local[*], app id = local-1492347943688
).
Spark session available as 'spark'.
我可以访问web,但是我如
最近,我们开始面对spark 2.4.4与Hive1.2.1版本的问题。
当我们试图从按字符串类型进行分区的表中读取数据时
spark.sql("select count(*) from table where #conditions");
Caused by: java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. You can set the Spark configuration setting spa
sparks 2/Java8 8 Cassandra2试图读取Cassandra中的一些数据,然后在sparks中按查询运行组。在DF传输日期(日期)、原点(字符串)中只有2列。
Dataset<Row> maxOrigindate = sparks.sql("SELECT origin, transdate, COUNT(*) AS cnt FROM origins GROUP BY (origin,transdate) ORDER BY cnt DESC LIMIT 1"); `
获取错误:
`Exception in thread "main
我试图在分区中添加分区索引和行号到rdd中,然后我就这样做了。但是,当我试图获得最后一行数的值时,我得到的值为零,行号数组似乎没有被碰过。变范围问题?
它类似于rownumber ()、/count() over(partition_index),但是行号与分区索引一起添加在一个循环中,所以可能更有效?
下面是代码:
scala> val rdd1 = sc.makeRDD(100 to 110)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[32] at makeRDD at <console>:25
/Downloads/spark-3.0.1-bin-hadoop2.7/bin$ ./spark-shell
20/09/23 10:58:45 WARN Utils: Your hostname, byte-nihal resolves to a loopback address: 127.0.1.1; using 192.168.2.103 instead (on interface enp2s0)
20/09/23 10:58:45 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
20/09
我有一些关于服务提供商客户的数据(~1MB)。我正在尝试根据几个特性来预测是否会终止订阅(PySpark on Databricks)。
单特征模型
首先,我只试了一个功能,并看到了成功的培训:
# Create vector assembler to merge independent features (in this case just one) into one feature as a list
vectorAssembler = VectorAssembler(inputCols=['MonthlyCharges'], outputCol='Charges&
我正在尝试访问一个hive表,并从表/ dataframe中提取和转换某些列,然后将这些新列放到一个新的dataframe中。我正试着这样做-
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val hiveDF = sqlContext.sql("select * from table_x")
val system_generated_id = hiveDF("unique_key")
val application_assigned_event_id = hiveDF("
我使用的是DSE 5.1 (spark 2.0.2.6和cassandra 3.10.0.1652)
我的卡桑德拉桌:
CREATE TABLE ks.tbl (
dk int,
date date,
ck int,
val int,
PRIMARY KEY (dk, date, ck)
) WITH CLUSTERING ORDER BY (date DESC, ck ASC);
有以下数据:
dk | date | ck | val
----+------------+----+-----
1 | 2017-01-01 | 1 | 100
1
我有一个运行的星火作业。
我可视化了DAG,它创建了每个连接的+5阶段。无论如何,在DAG有大约40个阶段之后,下一个步骤总是会出现异常,即经过8次迭代,每个阶段都有5个阶段。
java.lang.AbstractStringBuilder.hugeCapacity(AbstractStringBuilder.java:161) at java.lang.AbstractStringBuilder.newCapacity(AbstractStringBuilder.java:155) at java.lang.AbstractStringBuilder.ensureCapacityInter
我正在运行一个简单的sparkSQL查询,它在两个数据集上进行匹配,每个数据集大约是500 is。所以整个数据都在1TB左右。
val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ")
adreqPerDeviceid.cache()
adreqPerDeviceid.show()
作业工作良好,直到数据加载(10k任务分配
rdd = sc.textFile("test_file.txt").cache()
rdd.collect() 上面的代码返回给我以下内容: ['my number is 0', 'my number is 1', 'my number is 2'] 然后rdd.count()会给我这个错误: ---------------------------------------------------------------------------
Py4JJavaError
我正在使用Spark2.0.0并使用SparkSession创建一个SparkSession。当我在java.util.UUID方法中使用createDataFrame时,它工作得很好。但是,当我将java.util.UUID作为Javabean中的字段时,当我使用这个Javabean创建Dataset时,它给了我scala.MatchError。请参阅下面的代码和控制台日志。有谁能告诉我这里发生了什么,以及如何在Javabean类中使用Dataset创建UUID。谢谢。
UUIDTest.java
public class UUIDTest {
public static void m
有人在Windows上使用Spark的编写文件(特别是CSV)吗?
因此,许多答案已经过时(例如,),因为Sparks自2.0版以来具有编写.CSV (和统一的write()方法)的本地功能。此外,我下载并添加了winutils.exe,就像建议的一样。
码
// reading works just fine
val df = spark.read
.option("header", true)
.option("inferSchema", true)
.csv("file:
我正在尝试使用eclipse中的Apache Spark作业将数据插入到Cassandra中。我能够运行我的示例代码,但面临着复杂的表格设计问题。
有没有人能帮我解决这个问题?
Caused by: java.io.IOException: Failed to write statements to test.events.
at com.datastax.spark.connector.writer.TableWriter$$anonfun$write$1.apply(TableWriter.scala:167)
at com.datastax.spark.connector
我正在尝试将一个参数传递给spark-shell。例如,我想把今天的日期作为scala代码中的一个变量。
val conf = new SparkConf().setAppName("test").setMaster("local[*]")
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.format("csv").load("./"+date+"
我正尝试在独立模式下运行spark作业,但是命令没有从HDFS文件中拾取,jar文件存在于HDFS.The位置,并且当我在本地模式下运行它时,它工作得很好。 下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序: val conf = new SparkConf().setAppName("WordCount").setMaster("yarn")
val spark = new S