java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset_如何用apache处理org.apache.spark.sql.Dataset？_reducebykey不是org.apache.spark.sql.Dataset的成员 - 腾讯云开发者社区

java、dataframe、apache-spark、cassandra、spark-cassandra-connector

找不到我需要的东西。scala和Python中的大量代码。这就是我所拥有的： import org.apache.log4j.Logger; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; public class CassandraWriter { private transient Logger logger = Logger.getLogger(CassandraWriter.class); private Dataset<Row> hdfsDF; publ

浏览 10提问于2020-02-11得票数 0

1回答

无法使用scala从dataset中的行获取第一列的值

scala、apache-spark、apache-spark-sql、spark-streaming、apache-spark-dataset

我试图使用Foreach分区来迭代一个数据文件，以便将一个值插入到数据库中。我使用了前端分区，对行进行分组，并使用foreach迭代每一行。请在下面找到我的密码， val endDF=spark.read.parquet(path).select("pc").filter(col("pc").isNotNull); endDF.foreachpartition((partition: Iterator[Row]) => class.forname(driver) val con=DriverManager.connection(jdbcu

浏览 0提问于2021-12-02得票数 0

1回答

Spark 2.2结构化流流-静态左外部连接问题

spark-structured-streaming

我似乎错过了什么在流静态加入在星火2.2。手册指出这样的联接是可能的，但我无法得到正确的语法。很奇怪。不使用水印。 val joinedDs = salesDs .join(customerDs, "customerId", joinType="leftOuter") 得到的错误如下所示，但我非常肯定我有正确的一面： <console>:81: error: overloaded method value join with alternatives: (right: org.apache.spark.sql.Dataset[_],join

浏览 0提问于2019-03-05得票数 0

回答已采纳

1回答

如何连接星星之df中的小写列值

scala、apache-spark

val df_final = Data1 .join(broadcast(df), Seq(lower(col("NAME")), lower(col("TYPE"))), "left") 上面的代码正在抛出以下错误。 <console>:65: error: overloaded method value join with alternatives: (right: org.apache.spark.sql.Dataset[_],joinExprs: org.apac

浏览 0提问于2018-06-07得票数 1

回答已采纳

3回答

对筛选器的Java8 maven提升错误引用不明确

java、maven

我正在运行Spark快速入门应用程序： /* SimpleApp.java */ import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.Dataset; public class SimpleApp { public static void main(String[] args) { String logFile = "/data/software/spark-2.4.4-bin-without-hadoop/README.md"; // Should be some file

浏览 136提问于2020-01-13得票数 6

4回答

java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset

scala、apache-spark、apache-spark-sql

当运行一个使用Spark Dataset类型的Scala文件时，我得到以下堆栈跟踪： Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMet

浏览 197提问于2016-07-08得票数 9

回答已采纳

1回答

错误:找不到org.apache.spark.sql.Dataset类型的编码器[(字符串，长)]

scala、apache-spark、apache-spark-encoders

以下数据集比较测试失败，出现错误： Error:(55, 38) Unable to find encoder for type org.apache.spark.sql.Dataset[(String, Long)]. An implicit Encoder[org.apache.spark.sql.Dataset[(String, Long)]] is needed to store org.apache.spark.sql.Dataset[(String, Long)] instances in a Dataset. Primitive types (Int, String, etc)

浏览 16提问于2020-04-17得票数 0

回答已采纳

1回答

使用scala在spark中为csv文件定义模式时出错

scala、apache-spark

我试图在Scala中使用case class将模式定义为CSV文件。 case class userSchema(name : String, place : String, designation : String) object userProcess { val spark = SparkSession.builder().appName("Spark_processing for Hbase").master("yarn").getOrCreate() imp

浏览 1提问于2018-09-24得票数 0

回答已采纳

1回答

星火-使用不起作用的列名在数据表上应用筛选器/映射

apache-spark、dataset、spark-dataframe

对不起，如果这是重复，然而，指出的解决方案不适用于我。很可能我在这里错过了一些基本的东西。我有一个如下所示的数据： inputDF: org.apache.spark.sql.DataFrame = [ts: string, id: string ... 20 more fields] 我试图根据一个名为"state“(类型为String)的字段(在Scala中)过滤一些感兴趣的”行“： inputDF.filter(inputDF("state") == "BALANCED").show() 然而，这给我带来了一个错误： <console>

浏览 2提问于2017-10-23得票数 1

回答已采纳

0回答

联合数据集集合时为什么会出现类型不匹配的情况

scala、apache-spark

我正在尝试获取ArrayBuffer[Dataset[_]]的union。所以我写了下面的代码： var buffer: ArrayBuffer[Dataset[_]] = ArrayBuffer.empty[Dataset[_]] var size:Long = 0 ... if size < 1000 { buffer.append(df) size = size + df.count() } else { val unionedDataset = buffer.reduce(_ union _) } 我得到以下错误： type mismatch; [error]

浏览 1提问于2017-12-06得票数 0

2回答

为什么在显示操作员之后不能加入？

scala、apache-spark、join、apache-spark-sql

下面的代码可以正常工作，直到我在show之后添加agg。为什么show是不可能的？ val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === $"idB", "inner") .drop("idA", "numA"

浏览 0提问于2017-07-26得票数 2

回答已采纳

3回答

如何将数据集转换为Scala Iterable？

scala、apache-spark-sql

有没有办法把org.apache.spark.sql.Dataset转换成scala.collection.Iterable？看起来这应该足够简单了。

浏览 0提问于2017-04-21得票数 3

1回答

org.apache.spark.SparkException:任务不可序列化。Scala Spark

scala、apache-spark

将现有应用程序从Spark1.6迁移到Spark2.2*(最终)会带来错误“org.apache.spark.SparkException:任务不可序列化”。为了演示同样的错误，我过度简化了代码。该代码查询一个拼图文件以返回以下数据类型：'org.apache.spark.sql.Datasetorg.apache.spark.sql.Row‘我应用一个函数来提取字符串和整数，并返回一个字符串。一个固有的问题与Spark 2.2返回数据集而不是dataframe这一点有关。(请参阅上一篇关于初步错误的文章) How do I write a Dataset encoder to su

浏览 13提问于2020-05-01得票数 1

回答已采纳

1回答

Spark应用程序与配置单元元存储同步-“没有用于UGI spark的主组”错误

apache-spark、kubernetes、hive、apache-spark-sql、hive-metastore

我正在Kubernetes集群上运行一个简单的Spark作业，该作业使用Hive分类将数据写入HDFS。无论出于什么原因，我的应用程序都无法运行Spark SQL命令，但出现了以下异常： 21/09/22 09:23:54 ERROR SplunkStreamListener: |exception=org.apache.spark.sql.AnalysisException org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(messa

浏览 25提问于2021-09-22得票数 1

回答已采纳

1回答

如何将多个Spark数据帧转换为数据集[Map[String，Array]]？

scala、apache-spark、apache-spark-sql

我需要获取一个MapString，DataFrame并将其转换为Dataset[MapString，Array] val map_of_df = Map( "df1"->sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","x").repartition(4) ,"df2"->sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y").repartition(4

浏览 22提问于2019-09-20得票数 0

1回答

使用Scala Spark限制行

scala、apache-spark

我有一个看起来正确的数据集。我可以看到所有行的顺序正确，如下所示： df1.orderBy($"count".desc) df1.show() 但是当我尝试像这样添加一个限制时： df1.orderBy($"count".desc).limit(5) df1.show() 我还是得到了所有的行。我想我没看错文件..。[https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/Dataset.html#limit(n:Int):org.apache.spark.sql.Dataset[

浏览 10提问于2020-10-09得票数 0

回答已采纳

1回答

spark‘`reduceGroups`’错误重载方法

scala、apache-spark

使用SparkVersion2.0.1和ScalaVersion2.11.8运行星火外壳。以下代码无法键入check： val is = sc.parallelize(0 until 100) val ds = is.map{i => (s"${i%10}", i)} val gs = ds.groupByKey(r => r._1) gs.reduceGroups((v: ((String, Int), (String, Int))) => (v._1._1, v._1._2 + v._2._2)) 错误信息是 <console>:32: er

浏览 2提问于2016-11-06得票数 2

回答已采纳

5回答

使用Spark SQL时未找到获取Spark日志记录类

java、maven、apache-spark

我正在尝试用Java做一个简单的Spark SQL编程。在程序中，我从Cassandra表中获取数据，将RDD转换为Dataset并显示数据。当我运行spark-submit命令时，我得到了错误：java.lang.ClassNotFoundException: org.apache.spark.internal.Logging。我的程序是： SparkConf sparkConf = new SparkConf().setAppName("DataFrameTest") .set("spark.cassandra.connection.host

浏览 0提问于2016-12-06得票数 5

1回答

如何在Scala中根据列的散列对数据集进行排序？

scala、apache-spark、apache-spark-sql

我有一个org.apache.spark.sql.Dataset，并尝试按列的散列对其进行排序。像这样试过 ds.sort($"source".hashCode) 但这显然是错误的。

浏览 0提问于2020-01-31得票数 0

3回答

如何将路径列表传递给spark.read.textFile？

apache-spark、apache-spark-sql

目前，我们可以成功地将多个日志文件(文本)加载到Spark (v2.1)数据帧中，并使用glob语法将每行映射到链接的文件路径，例如。 val df = spark.read.textFile( "wasb://container_name@storage_name/base_dir/2018/*.txt" ).withColumn("input_file_name", input_file_name) // Add column with filename for grouping. 现在，我们希望将预先准备的路径列表

浏览 25提问于2018-08-14得票数 0

回答已采纳

2回答

Java.lang.ClassNotFoundException的Spark异常: de.unkrig.jdisasm.Disassembler

scala、apache-spark

我正在运行spark版本2.1.0，我得到了以下异常。我正在获得结果，但它抛出了异常 java.lang.ClassNotFoundException: de.unkrig.jdisasm.Disassembler at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:3

浏览 12提问于2017-03-07得票数 7

回答已采纳

1回答

使用已保存的模型对新数据进行预测时，spark数据帧格式错误

scala、dataframe、apache-spark、apache-spark-sql、apache-spark-mllib

我能够训练模型并保存模型(Train.scala)。现在我想使用这个经过训练的模型来预测新数据(Predict.scala)。我在Predict.scala中创建了一个新的VectorAssembler来特色化新数据。我是否应该在Train.scala中对Predict.scala文件使用相同的VectorAssembler？因为我在转换后发现了特征数据类型的问题。例如:当我读入训练好的模型并尝试对新的特征化数据进行预测时，我得到了这个错误： type mismatch; [error] found : org.apache.spark.sql.DataFrame [error]

浏览 2提问于2019-08-24得票数 1

1回答

火花存储状态在哪里持久？

apache-spark

我正试图了解在星火中突变的状态。不过，我最初认为我应该在下一个操作中使用返回值；相反，这似乎是对同一个实例的引用，并且状态实际上是在同一个Dataset中变异的。这是否意味着火花实际上正在改变数据集的状态？也就是说，它是否意味着数据集并不是纯功能性的，因为它持有可变状态？或者，这和会议有某种联系吗？如果是这样的话，请再说一次；从功能上讲，这意味着数据集仍然包含可变状态，即使它是通过代理进行的。 scala> var x = sc.parallelize(List(1, 2, 3)).toDS x: org.apache.spark.sql.Dataset[Int] = [value:

浏览 0提问于2018-11-08得票数 0

回答已采纳

1回答

无法在Spark2.0中的Dataset[(scala.Long，org.apache.spark.mllib.linalg.Vector)]上运行LDA

scala、apache-spark、apache-spark-mllib

我正在关注关于LDA示例的教程视频，我得到了以下问题： <console>:37: error: overloaded method value run with alternatives: (documents: org.apache.spark.api.java.JavaPairRDD[java.lang.Long,org.apache.spark.mllib.linalg.Vector])org.apache.spark.mllib.clustering.LDAModel <and> (documents: org.apache.spark.rdd.RDD

浏览 0提问于2016-08-06得票数 3

回答已采纳

1回答

为什么Dataset.unpersist级联到所有依赖的缓存数据集？

apache-spark、apache-spark-sql

我用的是火花2.3.2。对于我的用例，我缓存第一个dataframe，然后缓存第二个dataframe。试图复制同样的东西。 scala> val df = spark.range(1, 1000000).withColumn("rand", (rand * 100).cast("int")).cache df: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [id: bigint, rand: int] scala> df.count res0: Long = 999999

浏览 0提问于2019-01-01得票数 3

回答已采纳

2回答

使用Java 7的org.apache.spark.sql.Dataset.foreachPartition()示例

apache-spark、apache-spark-sql、cassandra、spark-cassandra-connector

我有org.apache.spark.sql.Dataset，打算遍历每一行。我看到了、foreach、和等方法，但我没有看到使用它的文档或示例。我指的是医生火花2.1 Java 7 卡桑德拉3.9 有人能指导我如何遍历星火数据集的记录吗？

浏览 1提问于2017-03-27得票数 1

回答已采纳

1回答

为什么IDEA找不到toDS()和toDF()函数？

intellij-idea、apache-spark-sql

我的代码在spark-shell中运行良好： scala> case class Person(name:String,age:Int) defined class Person scala> val person = Seq(Person("ppopo",23)).toDS() person: org.apache.spark.sql.Dataset[Person] = [name: string, age: int] scala> person.show() +-----+---+ | name|age| +-----+---+ |ppopo| 23|

浏览 0提问于2016-08-16得票数 10

3回答

如何从一系列地图创建数据集？

scala、apache-spark、apache-spark-sql

为什么下面的操作会失败？ val fd:Dataset[Map[Int, Int]] = Seq(Map(1->2, 3->4), Map(5->6), Map(8->9)).toDS() error: value toDS is not a member of Seq[scala.collection.immutable.Map[Int,Int]] 鉴于这是可行的： val cd:Dataset[Array[Int]] = Seq(Array(1, 2, 3), Array(100)).toDS() cd: org.apache.spark.sql.D

浏览 25提问于2018-03-01得票数 1

回答已采纳

1回答

为什么特征不能有带有上下文界限的参数

scala、generics

此处:ClassTag : TypeTag基类定义在特征上是不允许的，因为它们被视为上下文边界我可以让它成为抽象类，但我失去了多重继承的好处 import scala.reflect.ClassTag import reflect.runtime.universe.TypeTag import org.apache.spark.sql.Dataset trait DataProcessor[T <: Product : ClassTag : TypeTag, U <: Product : ClassTag : TypeTag] { def performAnalysis(

浏览 14提问于2019-01-29得票数 2

回答已采纳

1回答

星火图形多重边缘类型

scala、apache-spark、spark-graphx

我最近开始使用火花。目前，我正在测试一个具有不同顶点和边缘类型的二分图。根据我在图中所做的研究，为了有不同的边和一些具有属性的边，我需要对这些边进行子类化。下面是代码的一个片段： scala> trait VertexProperty defined trait VertexProperty scala> case class paperProperty(val paperid: Long, val papername: String, val doi: String, val keywords: String) extends VertexProperty defined

浏览 0提问于2017-01-16得票数 2

回答已采纳

1回答

星火数据集中的groupByKey

scala、apache-spark、apache-spark-dataset

当数据集上使用groupByKey时，请帮助我理解传递给它的参数 scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).groupByKey(l=>l).count.show 在上面的代码中，请帮助我理解(l=>l)在groupByKey(l=>l)中的含义。

浏览 1提问于2017-02-16得票数 2

2回答

如何在Map[String，Dataframe]中存储多个dataframe，并使用map的key访问每个dataframe

scala、apache-spark

我有多个数据帧需要将它们存储在MapString中，数据帧数据结构。下一步，我们的目标是访问它们以进行连接操作。以下是输入数据帧： names_df: +-----+----------+----------+ |Id |FirstName | LastName | +-----+----------+----------+ |1000 | Bob | B | |1001 | Alice | A | +-----+----------+----------+ addresses_df +----+----+----+ |I

浏览 27提问于2019-08-27得票数 0

1回答

有没有办法在spark streaming中扁平化嵌套的JSON？

java、apache-spark-sql、spark-streaming

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据，它工作得很好，但是当我试图在火花流作业中使用相同的代码片段时，它抛出了以下错误:必须用writeStream.start()执行流源查询；那么，有没有办法在流式作业中扁平化嵌套的JSON呢？示例输入嵌套JSON - { "name":" Akash", "age":26, "watches":{ "name":"Apple", "models":[ "Ap

浏览 18提问于2020-04-27得票数 0

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

mongodb、scala、apache-spark、spark-structured-streaming

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中将流媒体方法从spark kafkastreaming改为结构化流媒体，因此早期使用kafkaUtils的方法产生了DstreamDocument 在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.format("kafka").option("kafka.bootstrap.servers","brokerList").option("subsc

浏览 15提问于2019-11-09得票数 2

2回答

将ADT /密封特性层次结构编码到星火DataSet列中

scala、apache-spark、apache-spark-dataset、apache-spark-encoders

如果我想在星火列中存储代数数据类型(即Scala密封的特征层次结构)，那么最好的编码策略是什么？例如，如果我有一个ADT，其中叶类型存储不同类型的数据： sealed trait Occupation case object SoftwareEngineer extends Occupation case class Wizard(level: Int) extends Occupation case class Other(description: String) extends Occupation 构造a的最佳方法是什么： org.apache.spark.sql.DataSet[Oc

浏览 5提问于2016-12-08得票数 14

回答已采纳

1回答

如何将星火数据集转换为scala

scala、apache-spark、scala-collections、apache-spark-dataset

我有下面的案例类 case class Station(id: Long, name: String) extends Node 和星星点点的站点数据 vertices: org.apache.spark.sql.Dataset[Station] = [id: bigint, name: string] 我想将顶点数据集转换为SeqStation。我发现了很多关于如何从序列创建数据集的教程，但反之亦然。你有什么提示给我吗？

浏览 2提问于2019-04-04得票数 2

回答已采纳

2回答

转换和RDD到火花数据(火花)。这个成功了。但给出了新的错误

python、apache-spark、pyspark、spark-dataframe、rdd

我有一个RDD： rd.take(2) [Row(id=0, items=['ab', 'nccd], actor='brad'), Row(id=1, items=['rd', 'fh'], actor='tony')] 我正在尝试将其转换为星星之火： df = spark.createDataFrame(rd) 这对我有用。但现在当我试图运行它时： df.show() 这让我出错了。这起作用了。请给我一些这方面的见解。 Error: Py4JJavaError: An error occurre

浏览 0提问于2018-04-16得票数 0

回答已采纳

1回答

数据集筛选: eta扩展不会自动完成

scala、apache-spark

如果我有一个Ints的简单Scala集合，并且定义了一个简单的方法 isPositive，如果值大于0时返回true，那么我只需将该方法传递给集合的filter方法，如下例所示 def isPositive(i: Int): Boolean = i > 0 val aList = List(-3, -2, -1, 1, 2, 3) val newList = aList.filter(isPositive) > newList: List[Int] = List(1, 2, 3) 因此，据我所知，编译器可以通过eta扩展将方法自动转换为函数实例，然后将该函数作为参数传递。但是

浏览 1提问于2017-08-09得票数 5

回答已采纳

1回答

如何用apache处理org.apache.spark.sql.Dataset？

apache-spark-sql、apache-beam

我想要处理来自org.apache.spark.sql.Dataset对象的数据，该对象是我用Apache从spark.sql(“query ")检索到的。但我无法将PTransform直接应用于此数据集。现在，我使用的解决方案是将数据集转储到txt文件，然后使用beam进行处理。有没有什么方法可以让我直接把Dataset / JavaRDD用到电子束中(Ptransform)？我使用的是apache beam 2.9.0。

浏览 17提问于2019-02-12得票数 1

回答已采纳

1回答

spark SQL子字符串函数有什么问题？

apache-spark-sql、spark-dataframe

这应该不需要解释。但是谁能描述一下substring的pos参数背后的逻辑，因为我不能理解这个(使用Spark 2.1)： scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show +------+ | value| +------+ |abcdef| +------+ scala> df.selectExpr("substring(value, 0, 2)", "sub

浏览 2提问于2017-09-30得票数 11

回答已采纳

2回答

两个DataFrames上的左联接不能应用于(org.apache.spark.sql.Dataset，org.apache.spark.sql.Column，String)

scala、apache-spark

我能够读到它们两个数据格式，但是加入它们会给我一个错误，我可以加入到笔记本中。 val s3Reader = new S3Reader(new S3Configuration, sparkSession, "mece_gaia_gaia_property_mapping") val geoFeaturesPropertyDF = s3Reader.get(StorageFormat.PARQUET, "s3n:" + giNewBucket + geoInsightsPath + "/properties.parquet") val mece

浏览 7提问于2022-07-14得票数 0

回答已采纳

1回答

读取嵌套完整JSON文件时中的错误

scala、apache-spark

我有一个复杂的嵌套json数据文件，如下所示，我试图使用这些数据并将其转换为按下课 case class DeviceData (id: Int, device: String) 其中id =0和 device = "{""device_id"": 0, ""device_type"": ""sensor-ipad"",""battery"":[{""type"": ""electrical""

浏览 3提问于2020-03-13得票数 1

回答已采纳

1回答

发现:org.apache.spark.sql.Dataset[(双，双)]要求:org.apache.spark.rdd.RDD[(双，双)]

scala、apache-spark、apache-spark-sql、spark-dataframe、rdd

我收到下面的错误 found : org.apache.spark.sql.Dataset[(Double, Double)] required: org.apache.spark.rdd.RDD[(Double, Double)] val testMetrics = new BinaryClassificationMetrics(testScoreAndLabel) 关于下列代码： val testScoreAndLabel = testResults. select("Label","ModelProbability"). m

浏览 5提问于2016-11-13得票数 2

回答已采纳

1回答

将spark scala数据集转换为特定的RDD格式

scala、rdd、apache-spark-dataset

我有一个数据帧，看起来像这样： +--------------------+-----------------+ | recommendations|relevant_products| +--------------------+-----------------+ |[12949, 12949, 71...| [4343]| |[12949, 12949, 71...| [1589]| |[12949, 12949, 71...| [11497]| evaluation_ds:org.apache.spark.sql.Da

浏览 31提问于2019-03-02得票数 0

回答已采纳

2回答

如何忽略Scala /Spark中Groupby中的第一个元素？

scala、apache-spark、apache-zeppelin

我使用Spark2、齐柏林飞艇( Zeppelin )和斯卡拉( Scala )来显示数据集中出现的前10位单词。我的代码： z.show(dfFlat.groupBy("value").count().sort(desc("count")), 10) 给予：我如何忽略“猫”，让情节从“帽子”开始，即显示第二元素到最后元素？我试过： z.show(dfFlat.groupBy("value").count().sort(desc("count")).slice(2,4), 10) 但这给出了： error: value sl

浏览 3提问于2017-09-05得票数 0

回答已采纳

1回答

值na不是？

scala、apache-spark

你好，我刚开始学习scala。只需遵循udemy中的教程即可。我被遵循相同的代码，但给了我一个错误。我对这个错误一无所知。这是我的代码 import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.sql.SparkSession import org.apache.log4j._ import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel} import org.apache.spark.ml.f

浏览 0提问于2018-04-30得票数 0

3回答

为什么spark-submit找不到kafka数据源，除非使用--packages？

maven、apache-spark、apache-kafka、apache-spark-sql、spark-structured-streaming

我正在尝试将Kafka集成到我的Spark应用程序中，这是我的POM文件所需的条目： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>${spark.stream.kafka.version}</version> </dependency> <dependency&g

浏览 0提问于2017-09-01得票数 4

1回答

Android:将外部项目包名称添加到布局xml中？

java、android、xml、package

我的主项目中有一个XML布局文件，其中包含以下内容： <com.quietlycoding.android.picker.NumberPicker android:id="@+id/belegposition_belegpositionpickerpause" android:layout_width="wrap_content" android:layout_height="wrap_content" /> 这个包驻留在我已经添加到构建路径中的另一个项目中。包名

浏览 0提问于2013-02-03得票数 0

回答已采纳

1回答

在spark中使用KeyValueGroupedDataset cogroup

scala、apache-spark

我想在spark的KeyValueGroupedDataset上使用cogroup方法。下面是一次scala尝试，但得到了一个错误： import org.apache.spark.sql.functions._ val x1 = Seq(("a", 36), ("b", 33), ("c", 40), ("a", 38), ("c", 39)).toDS val g1 = x1.groupByKey(_._1) val x2 = Seq(("a", "ali"), ("b&

浏览 0提问于2018-01-17得票数 3

回答已采纳

1回答

在spark中从HDFS加载文件

apache-spark、hdfs

我尝试从HDFS运行这个spark程序，因为当我在本地运行它时，我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载csv文件，而不是在本地加载吗？下面是我的代码： import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.StructType; public class

浏览 0提问于2018-04-19得票数 0