如何使用Spark在Apache Solr上构建聚合

Apache Solr是一个开源的搜索平台，用于快速和可扩展的构建搜索应用程序。它基于Lucene搜索引擎，提供了丰富的功能和灵活的配置选项。使用Spark在Apache Solr上构建聚合是一种常见的做法，可以将大量数据进行聚合和分析。

具体步骤如下：

准备数据：将需要聚合和分析的数据准备好，可以是结构化数据，也可以是非结构化数据。数据可以来自各种数据源，如数据库、文件等。
安装和配置Solr：首先需要安装和配置Solr服务。可以从Apache官网下载最新版本的Solr，并按照官方文档进行安装和配置。
创建Solr集合：使用Solr提供的命令行工具创建一个新的集合，用于存储聚合后的数据。可以指定集合的名称、配置文件等参数。
创建Spark应用程序：使用Spark编写一个应用程序，用于从数据源读取数据，并进行聚合和分析。可以使用Scala或Java编写Spark应用程序。
引入Solr依赖：在Spark应用程序中引入Solr的依赖库，以便与Solr进行交互。可以使用Maven或Gradle等构建工具来管理依赖。
将数据写入Solr集合：在Spark应用程序中使用Solr提供的API将聚合后的数据写入到Solr集合中。可以指定集合的名称、字段映射关系等参数。
执行Spark应用程序：使用Spark提交命令执行应用程序，开始进行数据聚合和分析。Spark会将数据按照预定的逻辑进行处理，并将结果写入Solr集合。
查询和可视化：使用Solr提供的查询语言进行数据检索和查询，可以根据需求定义查询条件、排序规则等。可以使用Solr提供的可视化工具，如Kibana、Grafana等进行数据可视化。

需要注意的是，以上步骤只是一个基本的流程，具体的实现方式和细节可能因项目需求而异。在实际应用中，还需要考虑数据的分布和存储策略、性能优化、数据安全等问题。

如何使用Spark在Apache Solr上构建聚合

、、

我有一个要求建立聚合的数据，我们收到我们的Apache Kafka… 我有点不知道该走哪条技术路线…… 似乎人们看到的是标准的方式，一群Apache Kafka <-> Apache Spark <-> Solr Bitnami Data Platform 我找不到具体的例子说明这是如何工作的，但我也在问自己，是否有任何解决方案 Apache Kafka <-> Kafka Connect Solr <-> Solr 不会这样做，因为solr也支持聚合... Solr Aggregation 但我看到了一些代码片段，它们将数据聚合在Spark中

浏览 34提问于2021-11-11得票数 0

2回答

org.apache.solr.client.solrj.impl.CloudSolrClient$Builder.withHttpClient :java.lang.NoSuchMethodError

、、

我遵循this示例将数据从Solr获取到我的Scala Spark程序。下面是我的代码： val solrURL = "someurl" val collectionName = "somecollection" val solrRDD = new SelectSolrRDD(solrURL,collectionName,sc) val solrQuery=new SolrQuery("somequery") solrQuery.setTimeAllowed(0) val solrDataRDD=solrRDD.query(solrQue

浏览 61提问于2019-03-08得票数 0

回答已采纳

1回答

Gradle:多项目构建

、

因此，我有一个如下的项目结构 root |-- module-1 |-- module-2 . . |-- module-n 我们正在查看的最后一个工件是来自所有模块的所有源的组合jar。我不确定这是否正确的方式。下面是我的构建脚本： plugins { id "com.github.johnrengelman.shadow" version "1.2.3" } group = 'com.root' version = System.getenv('BUILD_NUMBER') ?:

浏览 10提问于2016-09-27得票数 0

1回答

火花-Solr错误java.lang.ClassNotFoundException: org.apache.solr.client.solrj.io.stream.expr.StreamExpressionParameter

、、

有人试过spark-solr 吗？当我运行这个 val options = Map("collection" -> "DS", "zkhost" -> "url:2181,url:2181,url:2181") val df = spark.read.format("solr").options(options).load 那么我就得到了这个错误 at solr.DefaultSource.createRelation(DefaultSource.scala:14) at org.apache

浏览 11提问于2020-09-21得票数 2

回答已采纳

2回答

为什么完全输出模式需要聚合？

、

我在ApacheSpark2.2中使用了最新的结构化流，并得到了以下例外： org.apache.spark.sql.AnalysisException:当流数据框架/数据集上没有流聚合时，不支持完整的输出模式；为什么完全输出模式需要流聚合？如果Spark允许流查询中没有聚合的完整输出模式，会发生什么情况？ scala> spark.version res0: String = 2.2.0 import org.apache.spark.sql.execution.streaming.MemoryStream import org.apache.spark.sql.SQLCo

浏览 1提问于2017-08-18得票数 19

回答已采纳

1回答

无法在本地主机中使用Solr连接到ZooKeeper

、、

我正在使用Solr 6，我正在尝试填充它。下面是我设置的主scala： object testChildDocToSolr { def main(args: Array[String]): Unit = { setProperty("hadoop.home.dir", "c:\\winutils\\") val sparkSession = SparkSession.builder() .appName("spark-solr-tester") .master("local")

浏览 3提问于2017-12-20得票数 1

1回答

Spark-Solr连接器尝试使用stored=true添加已存在的字段

、、、

我在Spark 2.2.1集群中使用Spark-Solr连接器3.4.0和Solr cloud版本7.6.0。我们有一个现有的Solr集合，它有一个预定义的模式。大多数字段的stored参数都设置为true，但也有某些字段显式设置了stored=false。当我们尝试使用spark-solr连接器将数据推送到Solr时，我们得到以下错误： org.apache.solr.api.ApiBag$ExceptionWithErrObject: error processing commands, errors: [{add-field={name=taxonomy, indexed=true,

浏览 44提问于2019-02-26得票数 3

回答已采纳

1回答

值为“jar”的“打包”无效。聚合器项目需要“pom”作为打包。

我对我的项目有一个问题，即项目pom文件有一个错误，说明打包不应该解决jar，而应该解析为pom。我需要我的项目来生成一个目标'jar‘，而且我没有任何子模块，但是这个错误是用另一个错误生成的：Child module of pom.xml does not exist现在是我的pom文件： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

浏览 2提问于2015-09-07得票数 3

回答已采纳

2回答

星星之胞udf:没有处理程序用于联非新议程分析异常

、、、、

创建了一个项目‘spark udf’&编写的单元udf如下所示： package com.spark.udf import org.apache.hadoop.hive.ql.exec.UDF class UpperCase extends UDF with Serializable { def evaluate(input: String): String = { input.toUpperCase } 构建它&为它创建jar。试图在另一个spark程序中使用此udf： spark.sql("CREATE OR REPLACE FUNCTION up

浏览 4提问于2018-09-04得票数 5

回答已采纳

1回答

将Spark 3数据帧索引到Apache Solr 8中

、、、、

我设置了一个运行Apache Spark的小型Hadoop Yarn集群。我有一些数据(JSON，CSV)，我上传到Spark (数据帧)进行一些分析。稍后，我必须将所有数据帧数据索引到Apache SOlr中。我使用的是Spark 3和Solr 8.8版本。在我的探索中，我找到了一个解决方案here但它是针对不同版本的Spark的。因此，我决定向别人请教这件事。此任务是否有任何内置选项。我可以使用SolrJ和pySpark (不是scal shell)。

浏览 46提问于2021-02-22得票数 0

回答已采纳

1回答

Apache Bean Spark Runner无法在流模式下工作- java.lang.IllegalAccessException

我有一个在Flink上运行的流束应用程序。当我尝试用EMR (5.30.1)和apache bean (2.23.0和2.24.0)将它切换到spark runner时，我得到了以下错误： Exception in thread "main" java.lang.IllegalAccessException: Class org.apache.spark.sql.streaming.DataStreamReader can not access a member of class org.apache.beam.runners.spark.structuredstreamin

浏览 12提问于2020-10-15得票数 2

1回答

spark-solr fat jar装配问题

、、、

我正在使用在这里找到的spark-solr客户端我正在使用sbt汇编插件()来打包我的fat jar。我使用了这篇文章中的说明我的build.sbt文件是 name := "SolrSpark" version := "1.0" scalaVersion := "2.10.4" libraryDependencies ++= Seq( "com.lucidworks.spark" % "spark-solr" % "2.0.0" ) mergeStrategy in assembl

浏览 1提问于2016-04-27得票数 1

0回答

如何将Spark Streaming连接到windows上的独立Solr？

、、

我想将Spark Streaming与独立的Solr集成在一起。我在没有Zookeeper配置的windows上使用Spark 1.6.1和Solr 5.2 standalone。我能够找到一些解决方案，通过传递Zookeeper配置，他们可以从spark连接到Solr。如何将我的spark程序连接到独立的Solr？

浏览 3提问于2017-01-02得票数 0

1回答

org/apache/solr/client/solrj/io/stream/expr/StreamExpressionParameter NoClassDefFoundError: Solr和Spark的NoClassDefFoundError

、、、、

我试图通过火花读取存储在Solr中的数据，但我无法显示下面的输出。但是，我在Livy配置中传递以下驱动程序。我试过其他的驱动程序版本，但都没有用。我的火花是2.3.1和Solr 7.4.0版本。我已经试着删除Solr-solrj.jar，因为火花-solr包含它，但也没有成功。 Livy配置： "jars": [ "hdfs://hdfs-name/utils/jars/solr/solr-solrj-8.6.1.jar", "hdfs://hdfs-name/utils/jars/spark

浏览 1提问于2020-09-22得票数 0

回答已采纳

1回答

星火3类型用户在窗口上定义聚合函数

、、

我试图在窗口上使用自定义用户定义的聚合器。当我使用非类型化聚合器时，查询可以工作。但是，我无法使用类型的U选项作为窗口函数--我得到了一个声明The query operator ``Project`` contains one or more unsupported expression types Aggregate, Window or Generate的错误。下面的基本程序演示了这个问题。我认为它可以使用UserDefinedAggregateFunction而不是Aggregator，但前者是不可取的。 import scala.collection.mutable.Set imp

浏览 3提问于2020-12-05得票数 1

回答已采纳

1回答

在php中尝试Solr时出现问题

、

在PHP中运行示例时，我遇到了一个问题，代码如下： <?php require_once( 'SolrPhpClient/Apache/Solr/Service.php' ); // // // Try to connect to the named server, port, and url // $solr = new Apache_Solr_Service( 'localhost', '8983', '/solr/' ); if ( ! $solr->ping() ) {

浏览 0提问于2011-06-03得票数 3

回答已采纳

1回答

在火花数据集上使用groupByKey中的最小/最大操作

、、

我正在尝试实现min和max在agg中的groupByKey操作。代码如下所示： import org.apache.spark.sql.functions._ import org.apache.spark.sql.TypedColumn import org.apache.spark.sql.expressions.scalalang.typed.{ count => typedCount, sum => typedSum } inputFlowRecords.groupByKey(inputFlowRecrd => inputFlowRecrd.FlowIn

浏览 1提问于2019-07-23得票数 2

2回答

Spark Structured立即抛出Java OOM

、、

我正在尝试构建一个简单的管道，使用Kafka作为Spark的结构化流API的流源，执行分组聚合并将结果持久化到HDFS。但是，只要我提交作业，我就会收到Java堆空间错误，即使流数据的容量非常小。以下是pyspark中的代码： allEvents =spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subscribe","MyNe

浏览 0提问于2017-11-24得票数 0

1回答

Solr-Spark由于访问集合url时出错而无法索引

、、、、

我在Java中使用Solr with Spark对文档进行索引。我在2181端口上设置了动物园管理员，我的收集测试有两个碎片当我启动我的代码时，我有一个java.lang.NullPointerException。下面是我的代码(仅用于索引的类)： public class SparkRead implements Serializable { private Integer nbLinesToSkip; private Integer lineNumber = 0; private String fileName; private Integer sizeToRead;

浏览 0提问于2018-05-02得票数 1

回答已采纳

1回答

用DSE 4.7.1设置tinkerpop星火图计算机

、、、

我正在尝试使用火花图计算机进行测试，使用的是titan 1.0和tinkerpop 3.0.1。现在，如果我尝试以下步骤，则该操作似乎与空图一起工作。 sparkgraph = GraphFactory.open('conf/hadoop-graph/read-cassandra.properties') gs = sparkgraph.traversal(computer(org.apache.tinkerpop.gremlin.hadoop.process.computer.spark.SparkGraphComputer)) gs.V().count() 结果为0。

浏览 2提问于2015-12-15得票数 2

1回答

带有Scala错误的DSE SearchAnalytics

、、、、

通过引用链接，我尝试在spark中查询cassandra表 val spark = SparkSession .builder() .appName("CassandraSpark") .config("spark.cassandra.connection.host", "127.0.0.1") .config("spark.cassandra.connection.port", "9042") .master(&#

浏览 0提问于2018-05-18得票数 0

回答已采纳

2回答

关于使用apache Solr和apache Nutch配置Drupal7

、、、、

我已经安装了Drupal7和apache solr搜索模块，并配置了Apache Solr(solr版本:4.10.4)。我需要配置Nutch(Apache Nutch Version:1.12)网络爬虫到apache solr和Drupal7，并从特定的网址(例如：)获取详细信息，并需要在drupal中搜索内容。我的问题是如何配置所有这三个solr nutch和Drupal7。有谁能提供解决方案吗？

浏览 1提问于2016-11-07得票数 0

2回答

星星之火:写入数据时“请求的数组大小超过VM限制”

、、、、

在运行我的Scala作业时，我遇到了一个"OutOfMemoryError: Requested数组大小超过VM限制“的错误。我在AWS EMR集群上运行此作业，其组成如下：主内存:1m4.4xLarge32 vCore，64 GiB内存核心:1 r3.4×32 vCore，122个GiB内存在EMR发布标签5.11.0上，我使用的Spark版本是2.2.1。我在火花外壳中运行我的工作，配置如下： spark-shell --conf spark.driver.memory=40G --conf spark.driver.maxResultSize=25G --c

浏览 0提问于2018-03-30得票数 0

1回答

添加执行器时触发OutOfMemoryError

、

我尝试在大型数据集(~100 to )上运行MLlib：的LBFGS示例，使用DISK_ONLY持久性。驱动程序使用16 and，每个执行器使用16 and。当我使用几个执行者时，一切都很顺利。但是，当我尝试使用更多的执行器时，我在驱动程序上得到了OutOfMemoryError: Java heap space (40)。我认为这可能与所使用的并行级别有关(如中所示)。我试图将spark.default.parallelism设置为大型(从5000到15000)，但我仍然存在相同的问题，而且似乎没有考虑到它(每个作业大约有500个任务)，即使它是在环境选项卡中设置的。我在Yarn集群上

浏览 4提问于2014-10-20得票数 1

回答已采纳

1回答

如何在spark中计算执行人员的指标

、、

我有一个与许多执行者一起运行的spark工作。我希望能够使用executors上的计数器来计算事件发生的次数。例如，计算列" column“为10的次数。 df.map(df => if(df.get("column")==10){ counter.inc } ; df) 我最终希望总数是所有执行器上计数器的总和。这个是可能的吗？当我们从spark驱动程序报告指标时，我们扩展org.apache.spark.metrics.source.Source并将其注册到spark环境中。这些指标可以用于执行者吗？

浏览 1提问于2020-01-16得票数 1

1回答

java.lang.RuntimeException: org.apache.spark.SparkException:任务在solr.DefaultSource.createRelation不可序列化

我见过很多这样的关于序列化错误的帖子。但我对此还不熟悉。这里有一个dataframe-modProductsData和一个地图L2L3Map地图。我想用map-L2L3Map的值替换column-PRIMARY_CATEGORY中的值。 val L2L3Map = L2.collect.map(row => (row.get(0).toString, row.get(1).toString)).toMap val L2L3MapUDF = udf { s: String => L2L3Map.get(s) } val productsData = spark.read.forma

浏览 2提问于2018-12-21得票数 0

2回答

无法使用火花连续流处理数据

、、、

我正在开发一个实时流应用程序，该应用程序可以从Kafka broker中轮询数据，并且我正在调整以前默认使用Spark结构化流的代码(带有微批处理)。但是，我不知道如何使用连续流而不是微批量流来获得类似的行为。这是一段可以工作的代码： query = df.writeStream \ .foreachBatch(foreach_batch_func) \ .start() 这就是我到目前为止对连续流的尝试： query = df \ .writeStream \ .foreach(example_func) \ .

浏览 1提问于2020-09-29得票数 5

2回答

如何在Solr中处理负载均衡？

、、

我的问题是，如何在solr云中默认地实现这种容错，这样每当我发起查询时，它就会返回一些有保证的结果，而不是异常？ ERROR - 2014-09-02 12:01:45.610; org.apache.solr.common.SolrException; org.apache.solr.common.SolrException: no servers hosting shard: at org.apache.solr.handler.component.HttpShardHandler$1.call(HttpShardHandler.java:149) at org.apa

浏览 0提问于2014-09-02得票数 0

2回答

Apache Spark :查询成功率

、、、

我刚刚开始学习SQL和Apache Spark。我已经在Spark中导入了一个SQL表。现在我需要找到一个基于字段的成功率，该字段需要为“yes”。所以我需要找出总行数除以行数，其中有一个特定的字段为'yes‘ 我能够找到单独的结果，但不知道如何组合这两个查询。 sqlContext.sql("select count(*) from customers") res51: org.apache.spark.sql.DataFrame = [_c0: bigint] sqlContext.sql("select count(*) from custom

浏览 1提问于2017-12-26得票数 0

2回答

星星之火:使用groupByKey创建索引以生成排序的、不同的值列表？

、

我正在使用Spark创建一个“倒排索引”，该索引将将一个英语令牌映射回找到令牌的documentIds。鉴于该表格的现有数据： documentId1, token documentId2, token 我想要创建一个倒排索引的键，值形式： token, List(documentId1, documentId2, documentId3, ...) 其中的值是一个documentIds列表，它是排序的和distinct (唯一的)。到目前为止，我的情况如下： // List of (documentId, token) pairs var data = Array((100, "s

浏览 0提问于2016-02-18得票数 0

1回答

如何编写用户定义的聚合函数？

、、

我正在努力理解Java文档。有一个叫做非类型化用户定义聚合函数的部分，它有一些我无法理解的示例代码。以下是代码： package org.apache.spark.examples.sql; // $example on:untyped_custom_aggregation$ import java.util.ArrayList; import java.util.List; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSessi

浏览 8提问于2017-07-05得票数 1

回答已采纳

1回答

关于aggegateByKey的任务不可序列化

、

环境: spark 1.60。我使用scala。我可以用sbt编译程序，但是当我提交程序时，它遇到了错误。我的完整错误如下： 238 17/01/21 18:32:24 INFO net.NetworkTopology: Adding a new node: /YH11070029/10.39.0.213:50010 17/01/21 18:32:24 INFO storage.BlockManagerMasterEndpoint: Registering block manager 10.39.0.44:41961 with 2.7 GB RAM, BlockManagerId(349,

浏览 0提问于2017-01-21得票数 0

1回答

在Dataproc上运行自定义spark构建？

、

是否可以在Google Cloud Dataproc上编译和构建自定义Apache Spark？假设我们想要调整Apace Spark，然后想要在dataproc上构建自定义Spark。

浏览 3提问于2017-02-08得票数 0

1回答

通过HTTP将Spark数据作为JSON主体发送的最佳方法

、、、

我有一个Spark dataframe，需要作为HTTP POST请求体发送。存储系统为Apache Solr。我们正在通过读取Spark dataframe集合来创建Solr。我可以使用Jackson库创建JSON并通过HTTP POST发送它。此外，dataframe可能有数百万条记录，所以首选的方式是通过batches通过HTTP发送它们。下面是我能想到的两种方法。我们可以使用foreach/foreachPartition操作的Spark dataframe和调用HTTP POST，这意味着HTTP调用将发生在每个执行器(如果我没有错)。这个方法对吗？而且，这意味着如果我有3个

浏览 2提问于2019-05-24得票数 1

1回答

用于生产的Apache Solr

、、、、

我选择了带有Solr的Apache Lucene来了解我的web应用程序的高级搜索索引，但Solr 4和Solr 5版本之间的配置似乎存在差距。大多数在线材料和书籍都会让您设置Apache Tomcat来运行版本4的Solr服务，而版本5告诉您使用它的内置服务。我的web应用程序是在LAMP堆栈上构建的，我希望将来在生产中使用Solr，我想知道什么版本/配置是最佳实践？

浏览 2提问于2015-12-30得票数 0

1回答

试图编译gensort.scala时，获取：[错误]不可能在未加载数据时获得工件。IvyNode =net.java.dev.jets3t#jets3t;0.6.1

、

对于scala和sbt来说，不知道如何继续。我是不是缺少了更多的依赖关系？复制步骤：将gensort.scala代码保存在~/spark 1.3.0/project/中开始构建：$~/Smark-1.3.0/project/sbt 跑 gensort.scala：在~/spark 1.3.0/project/build.sbt中构建定义文件： lazy val root = (project in file(".")). settings( name := "gensort",

浏览 1提问于2015-04-08得票数 0

回答已采纳

2回答

简单sparksql联接查询中丢失的执行器

、、

我正在运行一个简单的sparkSQL查询，它在两个数据集上进行匹配，每个数据集大约是500 is。所以整个数据都在1TB左右。 val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ") adreqPerDeviceid.cache() adreqPerDeviceid.show() 作业工作良好，直到数据加载(10k任务分配

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

如何在Scala Dataframe中显示分组数据

、、、

浏览 31提问于2019-09-19得票数 0

回答已采纳

2回答

使用HadoopSplk1.6数据帧计算平均值，但未能启动数据库“metastore_db”

、、、、

软件包com.databricks:spark csv_2.11:1.2.0.使用SQLContext 1.导入org.apache.spark.sql.SQLContext 2. val sqlctx =新的SQLContext(sc) 3.导入sqlctx._ sqlctx.read.format("com.databricks.spark.csv").option("inferScheme"，df =.option(“定界符”，“；”).option(“头”，“真”).load(“/user/cloudera/data.csv”) df.selec

浏览 15提问于2018-01-10得票数 0

1回答

Spark应用程序无法使用spark-core jar 2.0.1构建

、

我是spark的新手。我正在尝试使用gradle构建spark，我使用的代码如下：编译组：'org.apache.spark'，名称：'spark-core_2.10'，版本：'2.0.1‘编译器组：'org.apache.spark'，名称：'spark-sql_2.10'，版本：'2.0.1’ 我收到以下错误:错误: object UserDefinedFunction不是package org.apache.spark.sql的成员 [ant:scalac] import org.apache.spark.

浏览 0提问于2016-11-14得票数 0

1回答

Apache :我如何理解和控制我的查询是在Hive引擎上还是在Spark引擎上执行的？

、

我正在运行本地的spark 2.4.0实例我想要执行SQL查询和Hive。以前，在Spark1.x.x.中，我使用了HiveContext： import org.apache.spark.sql.hive.HiveContext val hc = new org.apache.spark.sql.hive.HiveContext(sc) val hivequery = hc.sql(“show databases”) 但是现在我看到HiveContext被废弃了：。在HiveContext.sql()代码中，我看到它现在只是SparkSession.sql()上的一个包装器。建议是在en

浏览 1提问于2021-03-18得票数 0

1回答

Apache Spark和Apache Apex有什么不同？

、、、、

-是一个开源的企业级统一流和批处理平台。它用于GE Predix平台的物联网。这两个平台之间的主要区别是什么？问题从数据科学的角度来看，它与Spark有什么不同？提供像Spark MLlib一样的功能吗？如果我们必须在Apache to上构建可伸缩的ML模型，该如何做&使用哪种语言？数据科学家将不得不学习Java来构建可伸缩的ML模型吗？它有像pyspark那样的python API吗？ Apache Apex可以与Spark集成吗?我们可以在Apex之上使用Spark MLlib来构建ML模型吗？

浏览 109提问于2016-02-23得票数 16

1回答

通过spark-solr执行分布式搜索

、、

我使用来执行Solr查询。然而，我的搜索并没有像预期的那样工作，因为由于某些原因，spark生成的请求阻止了搜索的分发。我通过查看Solr日志发现了它，其中我看到一个distrib=false参数被添加到发送的请求中。当使用distrib=true手动(不使用spark)执行查询时，结果很好。我试图通过更改options字典中的"solr.params"值(我使用的是)来设置spark发送的参数： options = { "collection": "collection_name", "zkhost":

浏览 18提问于2017-02-23得票数 0

回答已采纳

4回答

如何将Apache Spark日志从驱动程序和从机重定向到使用log4j启动Spark作业的机器的控制台？

、、、、

我正在尝试构建一个Apache Spark应用程序，它可以从HDFS规范化csv文件(更改分隔符，修复断行)。我使用log4j来记录日志，但是所有的日志都会在执行器中打印出来，所以我检查它们的唯一方法就是使用yarn logs -applicationId命令。有没有办法将所有日志(从驱动程序和执行器)重定向到我的网关节点(启动spark作业的节点)，以便我可以在执行期间检查它们？

浏览 4提问于2018-12-04得票数 0

1回答

Spark executor日志在纱线上

、、、

我在Cloudera集群上以YARN客户端模式启动一个分布式Spark应用程序。一段时间后，我在Cloudera Manager上看到一些错误。一些执行器会断开连接，这会有系统地发生。我想调试这个问题，但是YARN没有报告内部异常。 Exception from container-launch with container ID: container_1417503665765_0193_01_000003 and exit code: 1 ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runComman

浏览 1提问于2014-12-07得票数 14

回答已采纳

1回答

星火结构流w/文件源和文件库中的错误

、、

我的团队现在正在进入结构化流的领域。我对结构化流媒体相对来说是个新手。我有个要求来源- CSV 接收器- JSON 环境规划署详情：组群: Spark 2.2.1 编程语言: Scala 构建工具:分级范围：我已经实现了这个简单的代码 val schema = StructType( Array(StructField("customer_id", StringType), StructField("name", StringType), StructField("pid", StringType

浏览 0提问于2018-06-11得票数 1

1回答

NoSuchMethodError与SparkContext

、、

当我的Spark应用程序执行NoSuchMethodError时，我会得到一个val sc = new SparkContext("spark://spark01:7077", "Request Executor")。我正在用版本1.3.1和ScalaVersion2.10.4编译我的Spark应用程序。Spark集群是用1.3.1和相同的Scala版本编译的。从星火源来看，getTimeAsSeconds在Utils.scala中直到Spark1.4才存在。为什么它试图调用我使用的版本中不存在的方法？下面是我的pom.xml中的依赖项 <depend

浏览 2提问于2015-08-21得票数 1

回答已采纳

1回答

k8s上的JupyterHub笔记本上的Apache Spark远程集群

、、、

我有： Apache Spark : 2.4.4 JupyterHub : 1.1.0 舵图版本: 0.9.0 K8S : 1.15 我用官方文档https://zero-to-jupyterhub.readthedocs.io/在k8s上构建了Jupyterhub 我使用官方的Spark镜像来做一些本地工作:jupyter/all-spark-notebook:最新 Spark在本地模式下工作得很好。但是我想使用Apache在远程(自制)Apache Spark集群(使用K8s作为orchestrator)上做一些工作。我已经尝试过Apache Zeppelin了，它工作得很好！但是我

浏览 44提问于2020-12-01得票数 1

1回答

无法使用javac编译自定义solr筛选器类

、、、

我正在尝试在Solr4.6中为我的自定义过滤器构建一个jar。我在运行编译时遇到以下错误： CustomFilter.java:19: error: package org.apache.lucene.analysis does not exist import org.apache.lucene.analysis.TokenFilter; ^ CustomFilter.java:20: error: package org.apache.lucene.analysis does not exist import org.apa

浏览 8提问于2014-06-17得票数 0

1回答

Spark 3.0.1是否支持窗口函数上的自定义聚合器？

、、

我编写了一个自定义Aggregator (org.apache.spark.sql.expressions.Aggregator的扩展)，并在group by语句下将其作为聚合函数正确调用： sparkSession .createDataFrame(...) .groupBy(col("id")) .agg( new MyCustomAggregator().toColumn().name("aggregation_result")) .show(); 我想在窗口函数中使用它，因为排序对我很重要。我试过这样调用

浏览 27提问于2020-12-01得票数 0

回答已采纳