如何使用Spark Cassandra连接器保存Java bean？

Spark Cassandra连接器是一个用于将Spark和Cassandra集成的工具。它允许开发人员使用Java bean对象将数据保存到Cassandra数据库中。

要使用Spark Cassandra连接器保存Java bean，可以按照以下步骤进行操作：

首先，确保已经正确安装和配置了Spark和Cassandra。可以参考相关文档进行安装和配置。
在Java项目中添加Spark Cassandra连接器的依赖。可以使用Maven或Gradle等构建工具，在项目的配置文件中添加以下依赖：

<dependency>
    <groupId>com.datastax.spark</groupId>
    <artifactId>spark-cassandra-connector_2.11</artifactId>
    <version>2.5.1</version>
</dependency>

创建一个Java bean类，用于表示要保存到Cassandra的数据。该类应该包含与Cassandra表中的列对应的属性。

import java.io.Serializable;

public class MyData implements Serializable {
    private String id;
    private String name;
    // 其他属性

    // 构造函数、getter和setter方法

    // toString方法
}

在Spark应用程序中，创建一个SparkSession对象，并配置连接到Cassandra的相关参数。

import org.apache.spark.sql.SparkSession;

public class SparkCassandraExample {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("Spark Cassandra Example")
                .config("spark.cassandra.connection.host", "localhost")
                .config("spark.cassandra.connection.port", "9042")
                .getOrCreate();

        // 其他Spark相关操作
    }
}

使用SparkSession对象创建一个DataFrame，将Java bean对象转换为DataFrame。

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.Encoders;

Dataset<MyData> myData = spark.createDataset(Arrays.asList(
        new MyData("1", "John"),
        new MyData("2", "Jane")), Encoders.bean(MyData.class));

Dataset<Row> myDataFrame = spark.createDataFrame(myData, MyData.class);

使用Spark Cassandra连接器将DataFrame保存到Cassandra中。

myDataFrame.write()
    .format("org.apache.spark.sql.cassandra")
    .option("keyspace", "mykeyspace")
    .option("table", "mytable")
    .mode("append")
    .save();

在上述代码中，需要将"mykeyspace"替换为实际的Cassandra keyspace名称，将"mytable"替换为实际的表名称。

以上就是使用Spark Cassandra连接器保存Java bean的步骤。通过这种方式，可以方便地将Java bean对象保存到Cassandra数据库中，并且可以利用Spark的分布式计算能力进行数据处理和分析。

腾讯云提供了一系列与Spark和Cassandra相关的产品和服务，例如TencentDB for Cassandra、TencentDB for Tendis等。您可以访问腾讯云官方网站了解更多详情和产品介绍：

请注意，以上答案仅供参考，具体的实现方式可能因环境和需求而异。

java.lang.AbstractMethodError在Java火花和卡桑德拉连接中的应用

、、

使用spark1.6.0和cassandra-3.1.1，我尝试使用Java连接到cassandra数据库。生成时没有错误，但在运行应用程序时得到以下错误 vException in thread "main" java.lang.AbstractMethodError at org.apache.spark.Logging$class.log(Logging.scala:51) at com.datastax.spark.connector.cql.CassandraConnector$.log(CassandraConnector.scala:144) at org.apa

浏览 3提问于2016-02-01得票数 0

回答已采纳

1回答

使用Apache Spark Java connector for Cassandra删除Cassandra DB中的行

、、、

我正在使用Apache Spark 2.0、Apache Cassandra 3.7和Apache Spark Java Connector for Cassandra 2.11 (2.0.0-M3) 我想根据键列的值从Cassandra的表中删除几行。如何使用Dataset和Apache Spark Java Connector for Cassandra实现这一点？我在代码中使用了SparkSession。请提个建议。如果有其他方法可以做到这一点，请让我知道。我想用Java来实现。谢谢。

浏览 1提问于2017-01-04得票数 0

1回答

无法初始化类com.datastax.oss.driver.internal.core.config.typesafe.TypesafeDriverConfig

、、、、

我使用Azure Databricks解决方案连接到Cassandra。我的Cassandra实例在某个特定端口公开，并可从cqlsh访问。Cassandra显示版本返回： [cqlsh 6.0.0 | Cassandra 3.11.10 | CQL spec 3.4.4 | Native protocol v4] 我创建了运行在运行时上的Cluster： 7.3 LTS (includes Apache Spark 3.0.1, Scala 2.12) 我安装了以下库：com.datastax.oss:java-driver-core:4.12.0和com.datastax.spark:sp

浏览 13提问于2022-04-25得票数 1

回答已采纳

1回答

从Kafka主题失败将数据写入Cassandra表

、、、

我写了简单的工作，它消耗了卡夫卡主题的数据，并将其写入卡桑德拉表。我可以看到数据被打印到控制台，但是当它写到Cassandra作业失败时- java.lang.NoSuchMethodError: scala.collection.JavaConverters$.mapAsScalaMapConverter 我使用的是Kafka 3.2.1，Cassandra 3.11.13，pyspark 3.3.0。我的火花-服从命令- spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.13:3.3.0,com.datas

浏览 6提问于2022-08-25得票数 1

回答已采纳

1回答

如何在不同的数据中心连接多个Cassandra

、、、、

我正在设置一个应用程序，在该应用程序中我使用spark会话从Cassandra读取数据。如果我从dc经过一个Cassandra节点，我就能够从Cassandra读取数据。但是我如何在spark会话中连接到属于3个不同dc的3个不同的Cassandra节点。下面是我使用的代码： spark会话 spark = SparkSession.builder().appName("SparkCassandraApp") .config("spark.cassandra.connection.host", cassandraContact

浏览 16提问于2019-04-24得票数 1

回答已采纳

2回答

无法在PySpark应用程序中从Cassandra表加载数据

、、、

无法从cassandra加载数据；据我了解，问题在于番石榴jar；尝试了不同版本的番石榴；无法识别预期的jar版本。(也替换为datastax共享jar ) 版本- Scala 2.11.12，星火2.3.2.3.1.4.41-3罐，使用火花-卡桑德拉-连接器_2.11-2.3.2.jar，卡桑德拉-驱动-核心-3.0.jar，共用-配置-1.7.jar，java-驱动器阴影-番石榴-25.1-jre.jar或一个从番石榴罐版本19/24/31在火花提交。电火花脚本&在以下内容之后提交： Error: File "cass.py", line 6, in <

浏览 15提问于2022-08-29得票数 0

2回答

火花+卡桑德拉连接器在LocalNodeFirstLoadBalancingPolicy.close()中失败

、、、

我一直试图连接卡桑德拉与斯派克在斯卡拉，但我一直面临一些问题。以下是所使用的版本： Spark 1.5.0 Cassandra 2.1.9 Scala 2.11.1 下面是我遵循的步骤：-下载带有默认配置的Cassandra，并通过bin/cassandra -f启动它。Cassandra开局很好，并在127.0.0.1上收听--我在spark的try表中添加了一些模拟数据。-下载星火并通过sbin/start- master . the启动主程序。我可以在localhost:8888上看到主程序运行良好-我编写了以下build.sbt： val sparkVersio

浏览 0提问于2015-09-17得票数 1

回答已采纳

1回答

saveToCassandra与火花-卡桑德拉连接器抛出java.lang.ClassCastException

、、、

当试图将数据保存到Cassandra(在Scala中)时，我得到以下异常： com.datastax.driver.core.DefaultResultSetFuture :不能将com.google.common.util.concurrent.ListenableFuture转换为java.lang.ClassCastException 请注意，我并不是每次都会收到这个错误，但是它偶尔会随机出现，这使得它在生产中更加危险。我正在使用纱线，我已经在com.google.**阴影，以避免番石榴符号冲突。下面是代码片段： rdd.saveToCassandra(keyspace,&#

浏览 2提问于2016-05-18得票数 7

2回答

Pyspark :将数据帧写入Cassandra表不起作用

、、

当我尝试通过pyspark从Cassandra表中读取数据时，它工作得很好。但是当我尝试将数据帧写入Cassandra表时，却给出了与java.lang.NoClassDefFoundError相同的Spark-Cassandra连接包。版本详细信息：卡桑德拉： Connected to Test Cluster at 127.0.0.1:9042. [cqlsh 5.0.1 | Cassandra 3.0.18 | CQL spec 3.4.0 | Native protocol v4] Use HELP for help. 火花： Welcome to ____

浏览 4提问于2019-09-27得票数 0

1回答

从Pyspark读取Cassandra表时的NoSuchMethod异常

、、、

我正在试图读取数据，从卡桑德拉键空间，在皮斯喀斯特。这是我的代码： from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SQLContext conf = SparkConf() conf.setMaster("local[4]") conf.setAppName("Spark Cassandra") conf.set("spark.cassandra.connection.host&#

浏览 1提问于2016-05-02得票数 0

2回答

如何使用吡火花将一行附加到cassandra表中？

、、

我想在已经存在的Cassandra表中插入一个新行。我在用pyspark_cassandra。火花版本- 1.4.1 scala版本- 2.10.6 cassandra版本- 2.2.3 python版本- 2.7.6 Python脚本- from pyspark.conf import SparkConf from pyspark_cassandra import CassandraSparkContext,Row import pyspark_cassandra conf = SparkConf().setAppName("PySpark Cassandra Test"

浏览 1提问于2017-04-06得票数 0

2回答

Datastax火花卡桑德拉连接器-向cassandra表写入DF

、、、

我们最近启动了使用Scala、Spark和Cassandra的大数据项目，而我对所有这些技术都是新手。我试图做一个简单的任务，写和读卡桑德拉表。如果我将属性名和列名都保留在小写或蛇形大小写(unserscores)中，我就能够做到这一点，但我希望在scala代码中使用camel大小写。是否有更好的方法来实现这一点，使用camel case格式在Scala和蛇案例在cassandra。我们正在使用 Scala-2.10.5火花- 1.6.2 datastax火花- cassandra -连接器- 1.6.0 cassandra- 3.0.9.1346 datastax企业- 5.0.3

浏览 3提问于2016-10-22得票数 2

回答已采纳

1回答

PySpark和Python >=3.6的Cassandra

、、、、

我是Cassandra和Pyspark的新手，最初我安装了cassandra版本3.11.1、openjdk 1.8、pyspark 3.x和scala 1.12。在运行我的python服务器后，我得到了很多错误，如下所示。 raise Py4JJavaError( py4j.protocol.Py4JJavaError: An error occurred while calling o33.load. : java.lang.NoClassDefFoundError: scala/Product$class at com.datastax.spark.connector.u

浏览 0提问于2021-09-21得票数 1

回答已采纳

3回答

火花-卡桑德拉-连接器火花误差

、、、

我试图与卡桑德拉-梅索斯-火花一起工作，我想问一下是否有人能帮我解决这个错误，我用了火花2.2试连接器1.6.11和其他，但我不知道为什么我要得到这个。环境： spark-2.3.0-bin-hadoop2.7.tgz datastax:spark-cassandra-connector:2.0.7-s_2.11 scala 11 Mesos簇 Python应用程序代码： import sys from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext sp_c

浏览 2提问于2018-04-07得票数 0

1回答

Python中的Spark cassandra连接器

、、、

我需要用python将我的独立Spark连接到我的Cassandra实例。我已经从下载了Apache spark，解压并构建如下： tar -xvf spark-1.4.1.tgz sbt/sbt assembly 我添加了更新的./bashrc文件，可以运行Spark了。我还设置了Cassandra，可以从我的python程序中提取数据。如何将Spark连接到Cassandra实例以访问作为Spark RDDs的Cassandra表？

浏览 2提问于2016-04-12得票数 1

1回答

从表中提取记录所需的电火花连接器问题

、、、、

例如，是我的代码: spark = SparkSession.builder.appName('SparkCassandraApp')\ .config('spark.cassandra.connection.host', 'xx.xx.xx.xx') \ .config('spark.cassandra.connection.port', '9042') \ .config("spark.cassandra.auth.username","username"

浏览 3提问于2020-07-02得票数 0

1回答

DSE Cassandra存在与CDH spark的guava-16.0.1.jar冲突问题

、、、

我们使用DSE4.8.3 Cassandra在oozie中运行CDH5.5.0 Spark，发现DSE Cassandra存在如下的guava-16.0.1.jar冲突问题。 com.google.common.reflect.TypeToken.isPrimitive()Z启动失败，主类org.apache.oozie.action.hadoop.SparkMain，com.google.common.reflect.TypeToken.isPrimitive()Z ()抛出异常，Oozie java.lang.NoSuchMethodError: Oozie DSE 4.8.3中的Cass

浏览 1提问于2016-02-25得票数 1

2回答

通过Java + Spark + SparkSession在Cassandra表中插入/更新行的最佳方法是什么？

、、、

这就是如何通过Java + Spark + SparkSession从cassandra表中获取数据的方法 SparkSession spark = SparkSession .builder() .appName("JavaDemoDataSet") .config("spark.sql.warehouse.dir", "/file:C:/temp") .config("spark.cassandra.connection.host", "1

浏览 3提问于2016-10-29得票数 2

回答已采纳

1回答

在spark-shell中读取Cassandra中的数据

、、

我想从我的客户端节点上的cassandra节点读取数据：这是我尝试过的： spark-shell --jars /my-dir/spark-cassandra-connector_2.11-2.3.2.jar. val df = spark.read.format("org.apache.spark.sql.cassandra")\ .option("keyspace","my_keyspace")\ .option("table","my_table")\ .option("spark.ca

浏览 0提问于2020-09-04得票数 1

1回答

无法解析导入的com.datastax.spark.connector.CassandraJavaUtil

、、、

我正在尝试使用spark-sql java API来连接cassandra。下面是我正在使用的jar <dependency> <groupId>com.datastax.cassandra</groupId> <artifactId>spark-cassandra-connector_2.11</artifactId> <version>2.3.1</version> </dependency> 正在尝试将rdd保存到Cassandra表。当我尝试导入静态com.dat

浏览 24提问于2019-04-22得票数 0

3回答

无法初始化类com.datastax.spark.connector.types.TypeConverter$

、、、

我试图使用Apache查询本地Cassandra表，但是在运行任何select显示语句时遇到了这个错误无法初始化类com.datastax.spark.connector.types.TypeConverter$ 版本： Cassandra:版本3.11.2 \ cqlsh版本5.0.1 Apache-Spark:版本2.3.1 Scala版本2.12.6 卡桑德拉键空间->表 CREATE KEYSPACE test_users ... WITH REPLICATION = { ... 'class' : 'Simple

浏览 0提问于2018-07-29得票数 0

回答已采纳

1回答

无法使用火花(java)从Cassandra获取数据

、、、、

我是卡桑德拉和斯派克的新手，我试着用火花从DB中获取数据。我正为此目的使用Java。问题是没有异常抛出或错误发生，但我仍然无法获得数据。在下面找到我的密码 SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("Spark-Cassandra Integration"); sparkConf.setMaster("local[4]"); sparkConf.set("spark.cassandra.connection.host", "sta

浏览 3提问于2017-01-30得票数 1

1回答

无法用Spark连接器3.1.0和Spark3.1.2连接卡桑德拉

、、

我试图用火花-卡桑德拉连接器连接卡桑德拉，但出现以下消息： spark.version: 3.1.2 cassandra.connector.version: 3.1.0 Caused by: java.io.IOException: Failed to open native connection to Cassandra at {10.99.249.84:9042} :: org/apache/tinkerpop/gremlin/structure/io/BufferFactory at com.datastax.spark.connector.cql.CassandraConnector

浏览 6提问于2022-02-24得票数 0

1回答

com.datastax.driver.core.ResultSet.fetchMoreResults()：java.lang.NoSuchMethodError

、、、、

这个问题类似于：每当我试图查询cassandra表时，总是会出现以下错误： java.lang.NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults()Lshade/com/datastax/spark/connector/google/common/util/concurrent/ListenableFuture; at com.datastax.spark.connector.rdd.reader.PrefetchingResultSetIterator.maybePrefetch(Pref

浏览 0提问于2018-06-29得票数 0

1回答

火花卡桑德拉连接器问题

、、

我正试图把卡桑德拉和斯派克结合起来，面对下面的问题。发行： com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException:无效的Config变量只允许使用火花卡桑德拉连接器。*变量。spark.cassandra.keyspace不是有效的Spark连接器变量。可能的匹配: com.datastax.spark.connector.util.ConfigCheck$.checkConfig(ConfigCheck.scala:50)，com.datastax.spark.connector.cql.

浏览 2提问于2017-11-20得票数 0

1回答

为什么从Cassandra加载数据集的NullPointerException失败？

、、、

我试图从Spark读取/写入Cassandra，并使用以下依赖项： "com.datastax.spark" % "spark-cassandra-connector-unshaded_2.11" % "2.0.0-M3", "com.datastax.cassandra" % "cassandra-driver-core" % "3.0.0" 这是密码： import com.datastax.spark.connector._ val sparkConf: SparkConf = new Spa

浏览 6提问于2017-06-09得票数 0

回答已采纳

2回答

将数据保存回Cassandra作为RDD

、、、、

我试图读取来自Kafka的信息，处理数据，然后将数据添加到cassandra，就好像它是一个RDD。我的麻烦是把数据保存回卡桑德拉。 from __future__ import print_function from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils from pyspark import SparkConf, SparkContext appName = 'Kafka_Cassandra_Test' kafkaBrokers

浏览 7提问于2016-02-15得票数 2

回答已采纳

1回答

为什么cassandra在执行时使用“允许过滤”来计数查询，而没有在我的代码中提到它？

、、

我正在使用火花-sql-2.4.1，火花-卡桑德拉-连接器_2.11-2.4.1与java8. 我正在执行下面的简单查询，以获得C*表行计数。 JavaSparkContext sc = new JavaSparkContext(spark.sparkContext()); long recCount = javaFunctions(sc).cassandraTable(keyspace, columnFamilyName).cassandraCount(); 但是，它是通过以下错误超时的。 java.io.IOException: Exception during execution

浏览 0提问于2019-08-28得票数 0

1回答

错误:值cassandraFormat不是org.apache.spark.sql.DataFrameWriter的成员

、、、、

查看github上的回购我看到了cassandraFormat 。我的导入语句没有抛出异常： import org.apache.spark.sql.cassandra._ df.write .cassandraFormat("keyspace", "table") .save() <console>:34: error: value cassandraFormat is not a member of org.apache.spark.sql.DataFrameWriter[org.apache.spark.sql.Row] c

浏览 9提问于2017-05-23得票数 1

回答已采纳

1回答

用星火连接卡桑德拉

、、

首先，我买了新的O‘’Reilly星火书，并尝试了那些卡桑德拉设置说明。我还在网上找到了其他的堆叠溢出帖子和各种帖子和指南。他们都不像以前那样工作了。下面是我所能得到的。这是一个只有少数虚拟测试数据记录的测试。我正在运行最新的Cassandra2.0.7VirtualBox VM，该虚拟机由plasetcassandra.org提供，链接自主Cassandra项目页面。我下载了Spark1.2.1源代码，并从github获得了最新的Connector代码，并在Scala2.11上构建了这两种代码。我在MacOS10.10.2上安装了JDK 1.8.0_40和Scala2.11.6。我在安

浏览 1提问于2015-03-16得票数 4

回答已采纳

1回答

Spark Streaming保存到Cassandra表

、、、

我已经创建了一个JavaPairInputDStream，并尝试将消耗的数据保存到Cassandra表中。但是面临着问题，并且不确定如何从代码开始：这是我为SparkStreaming编写的代码： package com.test.anna.KafkaSpark; import static com.datastax.spark.connector.japi.CassandraJavaUtil.mapColumnTo; import static com.datastax.spark.connector.japi.CassandraStreamingJavaUtil.*; import j

浏览 0提问于2017-10-05得票数 0

1回答

使用SBT构建scala应用程序- java.lang.ClassNotFoundException:未能找到数据源: org.apache.spark.sql.cassandra

、、、、

我正在尝试建立我的第一个火花&卡桑德拉应用程序使用sbt。这是.scala文件中的代码。 /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import com.datastax.spark.connector._,org.apache.spark.SparkContext,org.apache.spark.SparkContext._, org.apache.spark.

浏览 2提问于2017-04-12得票数 2

回答已采纳

1回答

DataStax企业:星火卡桑德拉批量

、、

我在我的spark.cassandra.output.batch.size.rows中将参数SparkConf设置为： val conf = new SparkConf(true) .set("spark.cassandra.connection.host", "host") .set("spark.cassandra.auth.username", "cassandra") .set("spark.cassandra.auth.password

浏览 1提问于2014-11-20得票数 2

回答已采纳

1回答

星星之火-卡桑德拉(java.lang.NoClassDefFoundError: org/apache/sql/sql/cassandra/package)

、、、、

我试图使用Scala2.12.5和SBT1.6.2从Cassandra4.0.3中读取SPAR3.2.1中的DataFrame，但我遇到了一个问题。这是我的sbt文件： name := "StreamHandler" version := "1.6.2" scalaVersion := "2.12.15" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "3.2.1" % "provided&

浏览 4提问于2022-05-10得票数 1

3回答

Spark Cassandra Java集成问题

、、、

我对spark和Cassandra都是新手。我正在尝试使用spark+java在Cassandra Data上实现聚合功能。我无法在我的代码中获取Cassandra数据。我读了很多讨论，发现spark和spark-Cassandra连接器有一些兼容性问题。我试了很多来解决我的问题，但还是没能解决。找到下面的pom.xml (请不要介意额外的依赖关系。我需要确定是哪个库导致了这个问题)- <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mav

浏览 2提问于2017-01-31得票数 2

1回答

NoSuchElementException:键找不到：'int‘与星火卡桑德拉

、

在使用Cassandra 3.0.5和Scala 2.10时，我得到了以下错误： Exception in thread "main" java.util.NoSuchElementException: key not found: 'int' at scala.collection.MapLike$class.default(MapLike.scala:228) at scala.collection.AbstractMap.default(Map.scala:58) at scala.collection.Ma

浏览 0提问于2016-06-05得票数 1

1回答

com.datastax.oss.driver.internal.core.util.collection.QueryPlan :运行火花卡桑德拉连接器时的java.lang.InstantiationError

、、

我试图通过使用spark-cassandra-connector从cassandra获取数据，但在异常下获取数据。注意:连接成功到cassandra。火花版本: 2.4.1 火花-卡桑德拉-连接器版本: 2.5.1 Error starting ApplicationContext. To display the conditions report re-run your application with 'debug' enabled. 2021-10-01 11:32:01.649 ERROR 17404 --- [ main] o.s.boot.S

浏览 5提问于2021-10-01得票数 2

回答已采纳

2回答

spark streaming + cassandra

、、

想要将cassandra添加到spark streaming libraryDependencies ++= Seq( "org.apache.spark" %% "spark-streaming" % sparkVersion, "org.apache.spark" %% "spark-streaming-kafka" % sparkVersion, "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.8"

浏览 2提问于2015-11-07得票数 2

1回答

com.google.common.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError:未能初始化类com.datastax.driver.core.Cluster

、

当我试图从Spark向Cassandra表中插入一些数据时，我得到了下面的错误。 com.google.common.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: Could not initialize class com.datastax.driver.core.Cluster at com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2261) at com.google.common.cache.Lo

浏览 11提问于2017-08-04得票数 0

1回答

Spark worker抛出错误SendingConnection:将SendingConnection读取到ConnectionManagerId时出现异常

、、

我正在尝试使用spark执行一个简单的应用程序示例代码。使用spark submit执行作业。spark-submit --class "SimpleJob“--master spark://:7077 target/scala-2.10/simple-project_2.10-1.0.jar 15/03/08 23:21:53 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 15/03

浏览 2提问于2015-03-09得票数 0

1回答

shell不导入指定的jar文件。

、、、

我是一个完全初学者对所有这些东西，所以请原谅，如果我错过了一些完全明显的步骤。我安装了spark 3.1.2和Cassandra3.11.11，我试图通过这个将它们连接起来，我在这里找到了一个用来执行的胖罐子。在我发布的链接中，当他们使用jar文件执行星火壳命令时，有一行在开始时出现。 INFO SparkContext: Added JAR file:/home/chbatey/dev/tmp/spark-cassandra-connector/spark-cassandra-connector-java/target/scala-2.10/spark-cassandra-connector

浏览 2提问于2021-11-29得票数 1

回答已采纳

1回答

卡桑德拉/火花显示大表中不正确的条目

、、、

我试图使用spark来处理一个大型cassandra表(大约4.02亿个条目和84个列)，但是我得到的结果不一致。最初的要求是将一些列从这个表复制到另一个表中。在复制数据之后，我注意到新表中的一些条目丢失了。为了验证我是否计算了大型源表，但每次都得到不同的值。我在一个较小的表(大约700万条记录)上尝试了查询，结果很好。一开始，我尝试使用pyspark进行计数。这是我的火种脚本： spark = SparkSession.builder.appName("Datacopy App").getOrCreate() df = spark.read.format("org

浏览 0提问于2018-03-03得票数 3

回答已采纳

1回答

连接/集成卡桑德拉与火花(火星雨)

、、

我拼命想把卡桑德拉和火星雨联系起来，但我无法让它发挥作用。我对火花和卡桑德拉很陌生，所以我可能会错过一些很简单的东西。我对网上所有不同的解释有点困惑，但据我所知，最简单的方法是使用“星火包”？() 因此，使用以下命令： ./bin/spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:1.5.0-M2 ../Main/Code/myPysparkFile.py 我是否正确的理解，我不需要下载任何软件包，如果我使用火花软件包，如上所述？在myPysparkFile.py中，我尝试了以下两种版本，但这

浏览 7提问于2015-10-29得票数 7

回答已采纳

1回答

星火卡桑德拉加入ClassCastException

、、、

我试图用：t1.join(t2, Seq("some column"), "left")连接两个Cassandra表，我得到了以下错误消息： Exception in thread "main" java.lang.ClassCastException: scala.Tuple8 cannot be cast to scala.Tuple7 at org.apache.spark.sql.cassandra.execution.CassandraDirectJoinStrategy.apply(CassandraDirectJoinStrateg

浏览 8提问于2022-09-11得票数 0

回答已采纳

1回答

使用datastax连接器在Cassandra中插入火花时间

、、

我使用以下方法将数据从Pyspark插入到Cassandra： com.datastax.spark:spark-cassandra-connector_2.11:2.4.0 在我插入的变量中，还有时间，连接器不喜欢它。如果我试图发送：'16:51:35.634652‘而我收到了以下错误： com.datastax.spark.connector.types.TypeConversionException:不能将类型为java.lang.String的对象16:51:35.634652转换为java.lang.Long.。基本上，转换器不喜欢字符串，它希望将其转换为java.lang

浏览 3提问于2020-06-11得票数 1

回答已采纳

1回答

星火KryoException:找不到类: CassandraSQLRow

、、、

我使用卡桑德拉2.1.5 (dsc)，星火1.2.1与火花卡桑德拉-连接器1.2.1。当我运行Spark作业(scala脚本)时，我得到以下错误： 16/03/08 10:22:03 INFO DAGScheduler:作业0失败:在JsonRDD.scala:57接受了15.051150 s的异常:在线程"main“org.apache.spark.SparkException:由于阶段失败而中止的作业:阶段1.0中的任务1失败1次，最近的失败:在阶段1.0中丢失任务1.0 (TID 4，localhost)：com.esotericsoftware.kryo.KryoExcep

浏览 1提问于2016-03-08得票数 1

回答已采纳

1回答

com.datastax.driver.core.DefaultResultSetFuture不能转换为shade.com.datastax

、、

当我试图运行上面的代码时，我会得到这个错误。错误: Exception: Caused by: java.lang.ClassCastException: com.datastax.driver.core.DefaultResultSetFuture cannot be cast to shade.com.datastax.spark.connector.google.common.util.concurrent.ListenableFuture at com.datastax.spark.connector.writer.AsyncExecutor.com$da

浏览 1提问于2019-06-26得票数 0

回答已采纳

2回答

使用JDBC (例如松鼠SQL)使用Spark查询Cassandra

、、、

我有一个Cassandra集群，它有一个位于同一位置的星火集群，我可以通过编译它们、复制它们并使用./ Spark submit脚本来运行通常的星火作业。我编写了一个小作业，它接受SQL作为命令行参数，将它作为Spark提交给Spark，Spark针对Cassandra运行该SQL，并将输出写入csv文件。现在，我觉得我在兜圈子，试图找出是否可以在JDBC连接中通过Spark直接查询Cassandra (例如来自松鼠SQL)。Spark文档说 Connect through JDBC or ODBC. A server mode provides industry standard JDB

浏览 4提问于2015-12-10得票数 1

回答已采纳

1回答

有没有办法把Spark-cassandra与SpringBoot 2集成？

、、

我使用JHipster来生成应用程序。我正在尝试将spark集成到spring boot中。但不知何故，它并不起作用。我刚接触spring boot and spark。我没有得到任何异常或错误，但也没有得到输出。如果我使用Java-Spark-Cassandra，它工作得很好。有人能告诉我我的代码出了什么问题吗？ //SparkService.java import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; import org.springframewo

浏览 12提问于2019-02-20得票数 1

1回答

使用火花流连接cassandra数据库时出错

、、、、

我正在做一个使用星火流，Apache和Cassandra的项目。我使用流媒体-卡夫卡集成。在kafka中，我有一个使用此配置发送数据的生产者： props.put("metadata.broker.list", KafkaProperties.ZOOKEEPER); props.put("bootstrap.servers", KafkaProperties.SERVER); props.put("client.id", "DemoProducer"); 其中有ZOOKEEPER = localhost:2181和SERVER =

浏览 0提问于2016-05-25得票数 0

回答已采纳