将Spark 3数据帧索引到Apache Solr 8中

、、、、

我设置了一个运行Apache Spark的小型Hadoop Yarn集群。我有一些数据(JSON，CSV)，我上传到Spark (数据帧)进行一些分析。稍后，我必须将所有数据帧数据索引到Apache SOlr中。我使用的是Spark 3和Solr 8.8版本。在我的探索中，我找到了一个解决方案here但它是针对不同版本的Spark</e

浏览 46提问于2021-02-22得票数 0

回答已采纳

2回答

REST用于处理存储在hbase中的数据

、、、、

现在我想提供一些rest来聚合这些数据。例如，“为请求的用户查找所有值的和”或“查找它们的最大值”等等。所以我在找最好的练习。简单的java应用程序不能满足我对性能的期望。我目前的方法--通过apache星火应用程序聚合数据，看起来很不错，但是在java rest api中使用它存在一些问题，因为星星之火不支持请求响应模型(此外，我还考虑了火花作业服务器，似乎是原始的和不稳定的

浏览 4提问于2016-10-05得票数 2

回答已采纳

1回答

我有一个Spark dataframe，需要作为HTTP POST请求体发送。存储系统为Apache Solr。我们正在通过读取Spark dataframe集合来创建Solr。我们可以使用foreach/foreachPartition操作的Spark dataframe和调用HTTP POST，这意味着HTTP调用将发生在每个执行器(如果我没有错)。这个方法对吗？而且，这意味着如果我有3个executors，那么就会有3

浏览 2提问于2019-05-24得票数 1

1回答

无法将数据帧转换为标注点

、、

我的程序使用Spark.ML，我对数据帧使用逻辑回归。然而，我也想使用LogisticRegressionWithLBFGS，所以我想把我的数据帧转换成LabeledPoint。下面的代码显示了一个错误 val model = new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs[Double]("label"),org.apache.<em

浏览 6提问于2017-08-25得票数 0

回答已采纳

1回答

如何使用Scala聚合Spark数据帧以获得稀疏向量？

、、

我有一个类似下面Spark中的数据框，我想按id列对它进行分组，然后对于分组数据中的每一行，我需要创建一个稀疏向量，其中包含weight列中由index列指定的索引处的元素。数据帧df| id|weight|index||11830| 1| 8|| 659

浏览 4提问于2017-07-25得票数 3

回答已采纳

4回答

在Apache* Solr中索引MySQL数据库中的内容时出错*

、、

当我将MySQL数据库中的数据索引到在端口8180上的Tomcat6下运行的Apache Solr服务器时，我收到了一条400Bad Request错误消息。在调查tomcat6的服务器日志时，出现以下异常消息：Jan 25, 2012 3:37:46 AM org.apache.solr.common.SolrExceptionorg.apache.sol

浏览 0提问于2012-01-25得票数 0

回答已采纳

1回答

java.lang.IllegalStateException:在提交响应后无法调用sendError()

、

我正在将大约3TB的数据索引到apache solr中。当数据大小达到14 GB时，我的tomcat日志中出现以下错误。是否可以排除故障？我计划稍后将我的索引转移到solr cloud。> SEVERE: Servlet.service() for servlet [default] in context with path > [/solr] threw exception java.lang.IllegalS

浏览 1提问于2014-02-16得票数 7

2回答

将dataframe中的字符串数据转换为双精度

、、

我有一个包含双type.When的csv文件，我加载到一个数据帧中，我收到这个消息，告诉我类型字符串是java.lang.String，不能转换为java.lang.Double，尽管我的数据是numeric.How，我是否应该修改代码，从这个包含双type.how的csv文件中获得数据帧？import org.apache.spark.sql._imp

浏览 2提问于2017-01-02得票数 4

1回答

将solr与任何数据源集成的最佳方式

、、

我正在将我的旧索引工具迁移到solr(版本7)。但我不是很确定，我如何将我的文件索引到solr。我可以想出两种方法。使用apache Storm

浏览 33提问于2018-06-02得票数 0

1回答

使用kafka的sbt项目spark* streaming*

、、、、

"% "hadoop-client" % "2.7.0","org.apache.spark" %, "org.apache.spark" %% "spark-mllib" % sparkVersion

浏览 0提问于2018-07-14得票数 1

1回答

无法将spark* json数据帧加载到配置单元表中*

、、、

我希望将数据帧转换为json对象，并将其加载到json表中。:string>stored as orc """) 初始数据帧 val jsonColumns =

浏览 1提问于2018-02-17得票数 0

回答已采纳

1回答

从MongoDB到Elasticsearch的多语言文本搜索

、、

我有MongoDB格式的多语言数据，格式如下 "en" : "dog",},"description" :{ 我关心的是文本搜索，即用户应该能够找到与文本搜索相同的对象我正在研究几个全文搜索引擎，比如elasticsearch，solr和sphinxsearch，乍一看elasticsearch看起来很有前途。上面的结构是不是很糟糕，其他引擎有没有明显的优势？

浏览 2提问于2013-10-23得票数 1

4回答

解析行并从Spark* Dataframe中隔离学生记录*

、

我的学生数据库在表Student中有每个学生的多条记录。from pyspark.sql import SparkSession .builder \ .appName("app"

浏览 48提问于2019-10-23得票数 0

2回答

如何使用html..etc应用程序索引不同类型的文件(pdf、word、SolrJ )

、

根据输出，很明显solrj没有索引我正在尝试的.xml文件，请任何人评论我做错了什么…… String urlString = "http://localhost:8983/solr/tests"; File file = ne

浏览 1提问于2019-01-28得票数 1

1回答

Spark版本2中的HiveContext

、

我正在开发一个spark程序，该程序将数据帧插入到Hive Table中，如下所示。import org.apache.spark.sql.SaveModeval hiveCont = val hiveCont = neworg.apache.spark.sql.hive.HiveContext(sc) val partfile = sc.textFil

浏览 0提问于2017-07-03得票数 1

回答已采纳

3回答

将大型Spark* Dataframe保存为S3中的单个json文件*

、、、

我试图在亚马逊S3中将一个Spark DataFrame (超过20G)保存到一个json文件中，我保存数据帧的代码如下所示：但是我从S3得到了一个错误“你建议的上传超过了最大允许的大小”，我知道亚马逊允许的最大文件大小是5 5GB。可以和Spark一起使

浏览 0提问于2015-04-28得票数 19

回答已采纳

2回答

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

、、、

给定Spark 2.4和scala 2.11中的代码 val df = spark.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式，我会看到spark自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: string (containsNull = false) 我想知道是否有一种方

浏览 30提问于2020-01-21得票数 3

2回答

我们能访问Apache中的HDFS文件系统和纱线调度器吗？

、

我们可以在Apache中访问HDFS文件系统和纱线调度程序.但是星火有一个更高的编码水平。是否有可能访问HDFS和纱线在Apache？谢谢

浏览 0提问于2015-01-30得票数 4

回答已采纳

1回答

如何在PySpark中将字典转换为数据帧？

、、

我正在尝试将字典：data_dict = {'t1': '1', 't2': '2', 't3': '3'}转换为数据帧： key | value|t1Traceback (most recent call last):

浏览 8提问于2020-04-21得票数 5

回答已采纳

1回答

将向量转换为数据帧时出错

、、、

将矢量转换为数据帧时出错我想用我所知道的东西来解决这个问题，即第二部分中提到的代码。你能帮帮我吗 Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))), Vectors.dense(6.0, 7.0, 0

浏览 0提问于2018-04-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

REST用于处理存储在hbase中的数据

通过HTTP将Spark数据作为JSON主体发送的最佳方法

无法将数据帧转换为标注点

如何使用Scala聚合Spark数据帧以获得稀疏向量？

在Apache* Solr中索引MySQL数据库中的内容时出错*

java.lang.IllegalStateException:在提交响应后无法调用sendError()

将dataframe中的字符串数据转换为双精度

将solr与任何数据源集成的最佳方式

使用kafka的sbt项目spark* streaming*

无法将spark* json数据帧加载到配置单元表中*

从MongoDB到Elasticsearch的多语言文本搜索

解析行并从Spark* Dataframe中隔离学生记录*

如何使用html..etc应用程序索引不同类型的文件(pdf、word、SolrJ )

Spark版本2中的HiveContext

将大型Spark* Dataframe保存为S3中的单个json文件*

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

我们能访问Apache中的HDFS文件系统和纱线调度器吗？

如何在PySpark中将字典转换为数据帧？

将向量转换为数据帧时出错

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐