无法从pyspark从cassandra数据库加载信息

文章/答案/技术大牛

发布

2回答

、、、

我有这样的代码： import osfrom pyspark.sqlimport SQLContext, SparkSession .config('spark.cassandra.aut

浏览 12提问于2020-08-27得票数 1

1回答

从火花放电执行CQL

、、

我正试图从火花放电中执行CQL。目前，我可以读和写表。$ pyspark --packages anguenot/pyspark-cassandra:0.7.0 --conf spark.cassandra.connection.host=12.34.56.78---+| 31| 898|20180429|+-----+-----+--------+ 我希望从我的pys

浏览 4提问于2018-05-03得票数 1

回答已采纳

2回答

在ScyllaDB中减少由sstableloader插入的行数

、、、

我试图使用sstableloader将数据从Cassandra迁移到ScyllaDB，并且一些表中的数据被加载时没有任何错误，但是当使用PySpark验证计数时，ScyllaDB中的行数比Cassandra

浏览 13提问于2022-01-08得票数 0

回答已采纳

2回答

当我尝试通过pyspark从Cassandra表中读取数据时，它工作得很好。但是当我尝试将数据帧写入Cassandra表时，却给出了与java.lang.NoClassDefFoundError相同的Spark-Cassandra连接包。版本详细信息：Connected to Test Cluster at 127.0.0.1:9042.连接器： bin/pyspark --packages datastax:spark-cassandr

浏览 4提问于2019-09-27得票数 0

1回答

将cassandra数据读入pyspark中

、

我发射火星雨的方式如下：Python 2.7.11当我尝试做一些简单的事情时，我会得到一堆错误框架，这些错误是没有帮助的： /home/idf/anaconda2/lib/py

浏览 2提问于2016-05-18得票数 0

回答已采纳

1回答

从本地连接到客户端cassandra

、、、

我正在尝试从cassandra获取已安装在AWS ec2中的数据。当我通过pyspark运行以下命令时，我能够从AWS读取，但是当我通过spark-submit提交相同的python文件时，我从本地获取rdd。你能给我推荐一下我缺少配置的地方吗？from pyspark import SparkConf, SparkContext conf = SparkConf().setAp

浏览 0提问于2017-04-14得票数 2

1回答

火花-卡桑德拉-连接器不工作的火花-提交

、、、

我使用火花-卡桑德拉-连接器连接卡桑德拉从火花。还可以使用下面的命令交互地通过pyspark进行连接然而，无法通过火花提交连接。import os os

浏览 1提问于2019-05-20得票数 1

1回答

火花放电未与当地卡桑德拉连接

、、、、

我试着用电火花从卡桑德拉的桌子上读出来。_2.12:3.0.0 --conf spark.cassandra.connection.host=127.0.0.1 pyspark-shell'Cassandra也在本地主机上运行:9042 所以两者都在本地机器上。尽管如此，我仍然无法连接和运行代码。我的cassandra</e

浏览 0提问于2021-06-30得票数 1

回答已采纳

1回答

spark、cassandra、流、python、错误、数据库、kafka

、、、、

我正在尝试将我的流数据从spark保存到cassandra，spark连接到kafka，它工作正常，但保存到cassandra会让我发疯。spark-submit --verbose --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0 --jars /tmp/pyspark-cassandra-0.3.5.jar --driver-class-path /tmp/pyspark</

浏览 2提问于2017-06-04得票数 0

1回答

如何将Pyspark连接到运行在docker上的datastax Cassandra？

、、、、

我在Docker上运行Datastax Cassandra，我在Datastax Cassandra上创建了我的表，但是我想用docker-compose.yml安装Pyspark容器，但是我不知道如何设置docker-compose.yml文件的网络来连接Datastax Cassandra和Pyspark容器。这是docker-compose.yml，用于运行pyspark： image: jupyter/pyspark-note

浏览 3提问于2020-10-20得票数 2

1回答

如何将火花与卡桑德拉连接起来

、、、

因此，我正在尝试将PySpark与Cassandra连接起来，但我可以理解如何连接，而且我已经尝试了很多我在Stack溢出和其他页面中发现的东西。我从下面的命令开始我用的是： .option("spark.cassandra.auth.passwo

浏览 4提问于2021-02-25得票数 1

回答已采纳

2回答

pyspark rdd/dataframe未在cassandra中自动创建表

、、、、

在检查了所有找到的源之后，datastax-spark-cassandra连接器支持在cassandra中使用scala和java中的rdd自动创建表。特别是对于pyspark，有另一个包可以完成这项工作-- 。但是即使有了这个包也不能自动创建表格。对于dataframe，我根本找不到任何选项。我刚接触pyspark和cassandra，任何帮助都是非常感谢的。尝试仅使用anguenot包作为依赖项。Spark版本: 2.4.7 Cassandra :最新docker镜像 Pys

浏览 8提问于2021-03-03得票数 2

1回答

只能将1M条记录中的3900条从Cassandra加载到Tableau

、

我无法将所有数据从Cassandra数据库拉到tableau。该表有一百万条记录。我尝试了自定义SQL，并检查了前3900行，它正在加载到Tableau中。但是，并不是所有记录都在加载。当我点击load When Tableau: Datastax (10) Error When executing query in Cassandra33559296 : Operation failed我们已经安装了Datastax Cassandra ODBC连接

浏览 10提问于2021-12-01得票数 0

2回答

如何使用pyspark在cassandra数据上创建RDD对象

、、、、

我正在使用cassandra 2.0.3，我想使用pyspark (Apache Spark Python API)从cassandra数据创建一个RDD对象。请注意:我不想做导入CQL，然后从pyspark API查询CQL，而是我想创建一个RDD，我想在上面做一些转换。我知道在Scala中可以做到这一点，但我不知道如何在pyspark中做到这一点。

浏览 10提问于2013-12-30得票数 9

3回答

启动Cassandra* python设置*

、、、、

我正试着跟随：./bin/pyspark \但我不知道从这里开始该怎么安排

浏览 6提问于2017-03-05得票数 1

回答已采纳

3回答

将数据大容量加载到cassandra

让我说我有大量的数据在excel中。我想载入卡桑德拉列家族？

浏览 5提问于2013-05-14得票数 1

1回答

如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra数据传输到火花源？

、、、、

我只是使用querycassandra处理器查询cassandra表，但我不理解的是如何将Json输出文件作为输入文件传递给ExecutePyspark处理器，然后我需要将我的Spark数据传递给Hive我的查询Cassandra属性：火花特性：

浏览 1提问于2018-03-14得票数 3

回答已采纳

1回答

Spark阅读Cassandra

、、

您好，我正在尝试从卡桑德拉提取数据使用AWS胶水和编写PySpark代码。下面是代码，给了我错误。请建议我如何导入类/驱动程序。我想从Cassandra中提取并创建文件到S3存储桶中。#from awsglue.transforms import sysfrom pyspark.sql import SQLContextfrom pyspark.context import Sp

浏览 28提问于2020-08-28得票数 0

2回答

当我尝试使用Pyspark从Amazon Keyspace中获取数据时，我得到了不支持的分区: com.amazonaws.cassandra.DefaultPartitioner错误

、、、、

我配置了我的Spark集群，通过使用Datastax中的spark-cassandra-connector连接到Amazon Keyspace。我正在使用Pyspark从Cassandra获取数据。我可以成功连接到Keyspace/Cassandra集群。但是，当我试图从它获取数据时。cass.tutorialkeyspace.tutorialtable")print (df.count()

浏览 62提问于2021-07-08得票数 1

1回答

将表加载到有限制的PySpark数据中

、、、、

在PySpark中，是否可以在从数据库读取数据时将一定数量的数据加载到数据中？对于某些数字，我的意思是，如果在从数据库读取sqlContext时可以给它一个限制，那么整个表就不必被读取(因为遍历750 K行是非常昂贵的)。def connect_cassandra(): spark = SparkSession.builder \我想知道在将表<em

浏览 4提问于2019-07-26得票数 0

点击加载更多