如何运行多个Spark Cassandra查询

、

我正在尝试使用Datasax Cassandra Connector执行select where，但收到以下错误：spark.cassandraTable(keySpace,table).select(column).where(whereColumn + " = ?"

浏览 0提问于2016-05-03得票数 1

1回答

、、

我需要在下面运行这样一个任务。不知何故，我漏掉了一点。我知道，我不能像这样使用javasparkcontext并传递javafunctions，因为有序列化问题。我需要运行多个大小为cartesian.size()的cassandra查询。有什么建议吗？

浏览 30提问于2019-07-03得票数 1

回答已采纳

1回答

com.datastax.oss.driver.internal.core.util.collection.QueryPlan :运行火花卡桑德拉连接器时的java.lang.InstantiationError

、、

我试图通过使用spark-cassandra-connector从cassandra获取数据，但在异常下获取数据。 at com.datastax.spark.connector.rdd.CassandraTableScanRDD.tokenFactory[spark-cassandra</em

浏览 5提问于2021-10-01得票数 2

回答已采纳

1回答

无法初始化类com.datastax.oss.driver.internal.core.config.typesafe.TypesafeDriverConfig

、、、、

Cassandra显示版本返回：我创建了运行在运行时上的4.12.0和com.datastax.spark:spark-cassandra-connector_2.12:3.0.1spark.read.format(&quo

浏览 13提问于2022-04-25得票数 1

回答已采纳

2回答

Cassandra +实时分析星火

、、、

在星火流+星火SQL + WebSocket的帮助下，我能够在仪表板上呈现预定义的查询。但是我想用交互式查询和临时查询来获取数据。火花流->过滤( Spark ) -&

浏览 8提问于2016-04-13得票数 5

回答已采纳

1回答

运行中的Spark* Cassandra连接器:如果Cassandra托管在不同的服务器上，它是如何工作的*

、、、

场景: Cassandra托管在服务器a.b.c.d上，而spark运行在服务器上，比如w.x.y.z。(true) .set("spark.cassandra.auth.username我不确定在这种情况下Spark cassandra连接器在内部是<

浏览 26提问于2019-07-09得票数 1

回答已采纳

1回答

我们在与Cassandra不同的一组节点上运行Spark/Hadoop。我们有10个Cassandra节点和多个spark内核，但Cassandra没有在Hadoop上运行。通过spark(在yarn客户端模式下)从Cassandra获取数据的性能不是很好，从HDFS读取批量数据的速度更快(在Cassandra中为6分钟，在HDFS中为2分钟)。更改Spark-C

浏览 18提问于2018-07-27得票数 0

3回答

将Cassandra用于OLAP

、、

我们正在使用Cassandra for OLTP DB，存储数据库事务，并评估报告解决方案的要求。我们正在评估使用Cassandra来报告具有扁平化模式的数据库。使用Cassandra作为报告数据库有什么优点/缺点？

浏览 37提问于2018-01-09得票数 8

回答已采纳

2回答

为什么我的spark流媒体作业变慢了

、、、、

我有一个作业，每10秒接收一次Kafka的数据，然后格式化数据并插入到cassandra中，但我的作业变得越来越慢，这非常令人困惑。代码如下： conf = SparkConf().setAppName("Kafka_To_Cassandra").set("spark.streaming.kafka.maxRatePerPartition", "1000") sc = SparkContext

浏览 1提问于2015-09-23得票数 3

1回答

在cassandra上处理数据的批处理作业

、、、

原因是我将有很多写入，但读取较少(只有在批处理作业中，当我们需要拉出报告时)，因此我选择了Cassandra。现在你可以看到我的数据格式了。我将得到多个逗号分隔的项目，由一个人在特定会话中查看。正如您在存储在Cassandra中的数据部分中看到的那样。所以，现在我的问题是，假设我想要提取filter Category=10或filter city=200的所有记录的报告。那么，如果我选择了这个表模式，或者我需要以不同的形式存储它，或者我需要将此数据存储在可以轻松提取报告的其他NoSql数据库中，那么我将如何应用ca

浏览 0提问于2015-06-25得票数 0

1回答

将Cassandra查询的数据合并/更新为从Kafka接收的结构化流

、、、

为了能够进行一些计算，我需要在Cassandra数据库中查找一些关于传感器和位置的信息val cassandraSensorDf = spark .cassandraFormatcassandraSe

浏览 1提问于2018-04-17得票数 8

2回答

触发本地rdd写入到本地Cassandra* DB*

、、、

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要

浏览 3提问于2020-10-20得票数 1

1回答

使用spark使用datastax驱动程序连接cassandra时设置端口和主机名

、

我目前正在尝试使用Apache Spark (2.3.0,shell)连接Apache数据库，使用Datastax驱动程序(datastax:spark-cassandra-connector:2.3.0我在命令行中使用--conf选项，当我尝试运行数据库查询时，它会出错，指出它不能打开到127.0.0.1:9042的本机连接。 # ./bin/spark-shell --conf spar

浏览 0提问于2018-07-04得票数 0

2回答

星星之火: Cassandra如何使用查询从cassandra获取数据

、

我想把查询作为参数传递，但是它给出了以下错误。url = 'jdbc:cassandra://localhost:9042/tutorialspoint‘ df = spark_sql_context.read.format('jdbc')\

浏览 0提问于2018-04-23得票数 1

回答已采纳

1回答

DSE:如何加密system.log文件中的密码

、

我们在cassandra中启用了密码身份验证。但是，我们用来登录到dse spark shell的所有登录密码都记录在system.log文件中，我们的用户名密码采用纯文本格式。

浏览 2提问于2016-02-27得票数 0

2回答

使用JDBC (例如松鼠SQL)使用Spark查询Cassandra

、、、

我有一个Cassandra集群，它有一个位于同一位置的星火集群，我可以通过编译它们、复制它们并使用./ Spark submit脚本来运行通常的星火作业。我编写了一个小作业，它接受SQL作为命令行参数，将它作为Spark提交给Spark，Spark针对Cassandra运行该SQL，并将输出写入csv文件。现在，我觉得我在兜圈子，试图找出是否可以在JDBC连接中通过Spark直接查询Cassandr

浏览 4提问于2015-12-10得票数 1

回答已采纳

1回答

在spark* cassandra中使用数据帧创建密钥空间时出错*

、、、

我尝试将spark连接到cassandra，然后从flask对keyspace和table进行查询。问题是，当我运行web应用程序时，我得到一个错误，告诉我没有创建键空间。not exist" 在spark中，我运行以下命令： val flightRecommendations = finalPredictions.writeStream.foreachBatch {我认为这也可能是连接的问题，因为我在docker中工作，我的设置是这样的：spark.set

浏览 30提问于2020-11-29得票数 1

2回答

Spark- Cassandra -connector如何确定在Cassandra上查询的范围？

、、

我有一个三节点的Cassandra集群，每个节点上都运行着Spark executor。据我所知，为了扫描Cassandra数据库，SCC(Spark-Cassandra-Connector)在where子句中使用范围查询that标记。在不同节点上运行的SCC实例如何能够选择与其他节点上运行的其他SCC实例不同的范围。例如，node1上的SCC实例A选择一个范围RangeA，那么SCC实例B和C如何

浏览 7提问于2021-07-19得票数 2

3回答

卡桑德拉+火花执行器超收敛

、、

由于Apache是为Cassandra建议的分布式处理引擎，我知道有可能与Cassandra节点一起运行Spark执行器。简单地说，执行者是否读取存储在运行执行器的节点上的分区中的数据，这样就不会像Spark在HDFS上运行时那样通过网络传输不必要的数据了吗？

浏览 11提问于2020-01-25得票数 1

回答已采纳

1回答

使用目录的spark* cassandra连接器问题*

、、

我按照found here的说明连接我的spark程序，从Cassandra读取数据。下面是我如何配置spark的： val configBuilder = SparkSession.builder .config("spark.

浏览 42提问于2020-06-14得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Cassandra连接器- where子句