spark sql写入mysql_spark写入mysql_spark rdd写入mysql - 腾讯云开发者社区

、、

我正在从spark应用程序连接到一个MySql DB (星火-2.0.0-bin-hadoop2.7)。当连接时，我得到以下错误。这是我的代码： def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark = Sp

浏览 1提问于2018-09-25得票数 0

2回答

使用Apache编写错误

、、

我是一个使用Spark的新手。我遵循了DataBricks：的在线指南我可以成功地获得到MySQL实例的连接并从中读取。但是，我一直从Spark中获得NoTableFound或NoDatabaseFound错误的变体。下面是我的整个测试类的样子： import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SQLContext; import org.a

浏览 4提问于2017-05-01得票数 0

回答已采纳

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

、

当我为表同步运行spark应用程序时，错误消息如下所示： 19/10/16 01:37:40 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 51) com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packet

浏览 3提问于2019-10-16得票数 0

回答已采纳

4回答

java.sql.SQLException:在将DataFrame加载到Spark中时找不到合适的驱动程序

、、、

当试图将JDBC加载到Spark中时，我遇到了非常奇怪的问题。我尝试了几个星团-纱线，独立的集群和伪分布式模式在我的笔记本电脑。它在星火1.3.0和1.3.1上都是可复制的。这个问题既发生在spark-shell中，也发生在用spark-submit执行代码时。我尝试过MySQL &MySQL驱动程序，但没有成功。考虑以下样本： val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://localhost:3306/test" val t1 = { sqlContext.load(

浏览 2提问于2015-04-28得票数 13

回答已采纳

1回答

用Scala中的MySQL ()火花流存储数据到foreachRDD

、、

在Scala中用MySQL将数据火花流存储到foreachRDD()中请有人给我一个函数示例，说明如何使用Scala中的MySQL foreachRDD()来保存流到foreachRDD()的Spark。我有下面的代码，但它不起作用。我只需要一个简单的例子，而不是正法或理论。谢谢! package examples import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark._ import org.apache.spark.storage.StorageLevel import org.apache.

浏览 1提问于2017-05-20得票数 4

回答已采纳

1回答

将转换的DataFrame保存/导出回JDBC / MySQL

、、

我试图弄清楚如何使用新的DataFrameWriter将数据写回JDBC数据库。我似乎找不到这方面的任何文档，尽管看一下源代码，它似乎是可能的。下面是我正在尝试的一个简单的例子： sqlContext.read.format("jdbc").options(Map( "url" -> "jdbc:mysql://localhost/foo", "dbtable" -> "foo.bar") ).select("some_column", "another_column

浏览 0提问于2015-09-16得票数 7

1回答

如何加入来自mysql和Oracle的SparkSQL数据？

、

在SparkSQL中可以加入mysql和Oracle数据库中的数据吗？我试图加入他们，但在SPARK_CLASSPATH中设置多个jars (用于mysql和Oracle的jdbc驱动程序)时遇到了一些问题。这是我的代码： import os import sys os.environ['SPARK_HOME']="/home/x/spark-1.5.2" sys.path.append("/home/x/spark-1.5.2/python/") try: from pyspark import SparkContext, Spar

浏览 2提问于2015-12-30得票数 1

2回答

通过对现有行执行GROUP by来更新表SPARK - SQL？

、、

我使用MySQL作为我的存储引擎来保存Spark SQL中的表。我的桌子看起来像 +-------------+----------+ | count| date| +-------------+----------+ | 72|2017-09-08| | 84|2017-09-08| +-------------+----------+ 我希望通过使用GROUP by添加计数并删除单个行来更新表。所以我的输出应该是这样的 +-------------+----------+ | count| date

浏览 3提问于2017-09-10得票数 2

1回答

每次在python中迭代函数时，分别获取该函数的日志

、、、

我有一个类似下面的pyspark脚本。在这个脚本中，我遍历表名的input文件并执行代码。现在，我想在每次迭代函数mysql_spark时分别收集日志。例如： input file table1 table2 table3 现在，当我执行pyspark脚本时，我将所有三个表的日志保存在一个文件中。 What I want is 3 separate log files 1 for each table Pyspark脚本： #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from py

浏览 1提问于2017-07-29得票数 0

回答已采纳

1回答

通过Spark SQL进行批量数据迁移

、、

我目前正在尝试通过Spark SQL将一个非常大的MySQL表的内容批量迁移到一个parquet文件中。但是当我这样做的时候，我很快就会耗尽内存，即使是在驱动程序的内存限制设置得更高的时候(我在本地模式下使用spark )。示例代码： Dataset<Row> ds = spark.read() .format("jdbc") .option("url", url) .option("driver", "com.mysql.jdbc.Driver") .option("dbtab

浏览 12提问于2016-08-20得票数 7

回答已采纳

1回答

如何将火花流数据流存储到Mysql表中？

、、、

我试图从Azure事件中心读取数据，并以火花流模式将此数据存储到Mysql表中。下面是我的电火花代码 from pyspark.sql import SparkSession from pyspark.sql.functions import * from pyspark.sql.types import * import json from datetime import datetime as dt from pyspark.sql import DataFrameWriter try: session = SparkSession.builder.master("lo

浏览 10提问于2021-12-22得票数 1

回答已采纳

1回答

java.lang.IllegalArgumentException:无法为array<string>获取JDBC类型

我想把输出数据导入mysql数据库，但是发生以下错误，我不会将数组转换成所需的字符串类型，能帮我吗？ val Array(trainingData, testData) = msgDF.randomSplit(Array(0.9, 0.1)) val pipeline = new Pipeline().setStages(Array(labelIndexer, word2Vec, mlpc, labelConverter)) val model = pipeline.fit(trainingData) val predictionResultDF = model.tr

浏览 0提问于2018-05-06得票数 2

回答已采纳

2回答

如何使用foreach或foreachBatch在PySpark中对数据库进行写入？

、、、

我想用Python (PySpark)实现从Kafka源代码到MariaDB (PySpark)的Spark结构化流(Spark2.4.x)。我想使用流式星火数据，而不是静态或潘达斯的数据。似乎必须使用foreach或foreachBatch，因为根据，流数据没有可能的数据库接收器。以下是我的尝试： from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StructField, StructType, StringType, DoubleTy

浏览 3提问于2019-11-08得票数 7

回答已采纳

1回答

调用o898.save时出错。Azure Synapse Analytics连接器代码中遇到异常

、、

def synapsedump(targetmount,targetfolder,table,df): dbutils.fs.rm("/mnt/tmp", recurse=True) df.createOrReplaceTempView(table) spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy") schema = "Amazon" schematable = schema + "." + table df =

浏览 39提问于2021-08-03得票数 0

1回答

在GKE上部署时，Spark无法连接到mysql

、、、

我正在GKE上的Kubernetes上部署一个批处理spark作业。Job试图从MySQL (Google Cloud SQL)获取一些数据，但它给出了连接链接故障。我尝试通过从pod安装mysql客户端来手动连接到mysql，连接正常。我还需要配置什么吗？例外： Exception in thread "main" com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server

浏览 15提问于2019-10-21得票数 0

1回答

在后续运行之后，火花作业在本地运行时间更长--调整火花作业

、、、、

我有一个火花作业，它在第一次运行时在5分钟内运行，然后需要几分钟..more，而在随后的运行中需要20-30分钟。我正在读取一个拼花文件一次，然后创建数据格式并以.json格式编写。在代码中的任何地方，我都没有使用缓存()、持久化()或未持久化()。这是本地实例。有什么问题吗？配置参数 val spark = SparkSession .builder() .appName("example") .config("spark.sql.warehouse.dir", warehouseLocation) .config("spark

浏览 2提问于2017-07-28得票数 0

2回答

PySpark结构化流输出接收器，因为卡夫卡给出错误

、、、

使用Kafka 0.9.0和Spark 2.1.0 -我使用PySpark结构流来计算结果并将其输出到Kafka主题上。我引用的是同一个的Spark文档现在，当我运行以下命令时 (输出模式完成，因为它聚合了流数据。) (mydataframe.writeStream .outputMode("complete") .format("kafka") .option("kafka.bootstrap.servers", "x.x.x.x:9092") .option("topic",

浏览 3提问于2018-02-14得票数 0

1回答

无法在spark中的Zeppelin上将文件写入远程hdfs

、、、、

如何在spark中将文件保存在hdfs服务器上以下是我的代码 csv_file.write.mode('overwrite').parquet('hdfs:///data/ifckp/docs/csv_files/cs') 下面是我的错误： Py4JJavaError: An error occurred while calling o3621.parquet. : org.apache.hadoop.security.AccessControlException: Permission denied: user=zeppelin, access=WRITE

浏览 25提问于2020-02-01得票数 0

1回答

从dataframe‘java.lang.IllegalArgumentException创建一个Hive表时出错:错误FS: file:/tmp/火花预期:hdfs://namervice1’

、、、、

我是新来的火花。我正在尝试开发一个应用程序，使用Spark1.6将json数据保存到一个Hive表中。这是我的代码： val rdd = sc.parallelize(Seq(arr.toString)) //arr is the Json array val dataframe = hiveContext.read.json(rdd) dataframe.registerTempTable("RiskRecon_tmp") hiveContext.sql("DROP TABLE IF EXISTS RiskRecon_TOES") hiveConte

浏览 7提问于2017-07-12得票数 0

回答已采纳

1回答

Spark作业在写入aws s3存储桶时失败-

、、

Spark作业在写入aws s3存储桶时失败，我正在获取java.io.FileNotFoundException:没有这样的文件或目录堆栈跟踪： java.io.FileNotFoundException: No such file or directory: s3a://vishal/test/abc.parquet/_temporary/0/task_20190422091705_0001_m_000000 at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:993) at org.a

浏览 4提问于2020-06-03得票数 0

2回答

PySpark JDBC写入MySQL (TiDB)

、、

我正试图给TIDB (Spark2.3)写一条电火花数据(百万行)。 df.write.format('jdbc').options( url='jdbc:mysql://<host>:<port>/<table>', driver='com.mysql.jdbc.Driver', dbtable='<tablename>', user='<username>', password='<password>',

浏览 5提问于2019-12-29得票数 0

回答已采纳

4回答

Spark:写入DataFrame时出错

、、

我正在尝试将DataFrame编写为json格式，但是错误不断出现(我选择哪种格式并不重要)：我的代码： var finalDF = spark_session.createDataFrame(d, schema) finalDF.show(10, false) finalDF.write.mode("overwrite").json("test/df.json") show方法打印预期的结果，但是当它要写的时候抛出这个错误： ExitCodeException exitCode=-1073741515: at org.apache.hado

浏览 0提问于2018-05-17得票数 0

1回答

从mysql获取数据到Apache (scala)时出错

、、、

我想从mysql获得数据到Spark (scala)，但当数据发生时会出错 com.mysql.cj.jdbc.exceptions.CommunicationsException:通信链路故障这是我的密码： val sqlcontext = new org.apache.spark.sql.SQLContext(sc) val cataDF= sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://127.0.0.1:3360/crawldb").option("

浏览 1提问于2019-07-24得票数 0

回答已采纳

3回答

Spark structured streaming Elasticsearch集成问题。数据源es不支持流式写入

、

我正在编写一个Spark结构的流媒体应用程序，其中使用Spark处理的数据需要沉没到弹性搜索。这是我的开发环境，因此我有一个独立的Elastic search。我尝试了以下两种方法将DataSet中的数据汇聚到ES中。 1.ds.writeStream().format("org.elasticsearch.spark.sql").start("spark/orders"); 2.ds.writeStream().format("es").start("spark/orders"); 在这两种情况下，我都会得到以下错误：由以

浏览 1提问于2017-09-26得票数 3

2回答

从远程机器到MySql的JDBC连接

、、

我已经在Linux (在windows桌面)上安装了MySql，我正在尝试从运行在父windows操作系统上的Spark应用程序连接到MySql。在连接过程中，我遇到以下错误... 以下是示例代码 def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark

浏览 0提问于2018-09-26得票数 0

2回答

Apache :无法将分组数据保存为CSV

、、、

我想做一件简单的事。我想把所有的事件统计成2分钟的时间戳。效果很好。 df = df.groupBy(window(df["time_value"], "2 minutes")).count() df.show() +--------------------+-----+ | window|count| +--------------------+-----+ |[2018-04-10 15:00...| 770| |[2018-04-10 00:42...| 100| |[2018-04-10 04:14...| 54| |[2018-04-06 15:

浏览 1提问于2018-05-15得票数 1

回答已采纳

0回答

spark-sql表或视图未找到错误

、、

我正在尝试使用spark-sql和JDBC运行一个基本的java程序。我遇到了以下错误。不知道这里出了什么问题。我读过的大多数材料都没有讨论需要做些什么来解决这个问题。如果有人能给我推荐一些关于Spark-sql (Spark-2.1.1)的好材料，那就太好了。我计划使用spark来实现ETL，连接到MySQL和其他数据源。线程"main“org.apache.spark.sql.AnalysisException异常:未找到表或视图：myschema.mytable；第1行pos 21； String MYSQL_CONNECTION_URL = "jdbc:my

浏览 13提问于2017-06-09得票数 5

回答已采纳

2回答

从mysql读取火花外壳中的数据

、、

首先，我构建了scala应用程序，使用这一行代码从apache中的mysql表中读取数据。 val spark = SparkSession.builder().master("local").appName("Fuzzy Match Analysis").config("spark.sql.warehouse.dir","file:///tmp/spark-warehouse").getOrCreate() import spark.implicits._ var df = spark.read.format("jdbc

浏览 2提问于2017-10-02得票数 1

1回答

在Spark Structured Streaming中使用Kafka接收器时，检查点是强制的吗？

、、

我正在尝试使用Spark Structured Streaming将聚合数据写入Kafka。下面是我的代码： dataset .writeStream() .queryName(queryName) .outputMode(OutputMode.Append()) .format("kafka") .option("kafka.bootstrap.servers", kafkaBootstrapServers) .option("topic", "topic") .trigg

浏览 1提问于2018-04-10得票数 1

1回答

Dataframe.write.mode(“覆盖”)只删除S3中的旧文件

、、

我在电子病历笔记本上执行了以下PySpark代码： s3_path = "s3://bucket/key/file.csv" df = spark.read.csv(s3_path, header=True) df.repartition(1).write.mode("overwrite").csv(s3_path) 我得到了以下错误： An error occurred while calling o166.csv. : org.apache.spark.SparkException: Job aborted. at org.apache.spark

浏览 12提问于2022-05-09得票数 0

回答已采纳

1回答

java.lang.ClassNotFoundException: com.google.cloud.sql.mysql.SocketFactory

、、、

我需要在从dataproc连接到云sql时识别问题的帮助。我需要从spark.read.jdbc的云sql实例中读取表。我引用的是这个：。新增maven依赖： <dependency> <groupId>com.google.cloud.sql</groupId> <artifactId>mysql-socket-factory-connector-j-8</artifactId> <version>1.0.15</version> </depe

浏览 0提问于2020-01-30得票数 1

1回答

从Databricks笔记本向Azure Eventhubs发送火花数据帧时出错(java.lang.NoSuchMethodError)

、、、、

我需要从我的Databricks笔记本上发送一个到一个Eventhub。这个问题发生在代码的这一部分： ehWriteConf = { 'eventhubs.connectionString' : EVENT_HUB_CONNECTION_STRING } def send_to_eventhub(df:DataFrame): ds = df.select(struct(*[c for c in df.columns]).alias("body"))\ .select("body")\ .write.form

浏览 10提问于2022-10-05得票数 0

2回答

启用星火目录委员会

、

我正在尝试使用S3A分区(或者目录，因为我只需要确认提交者是否按预期工作)。我遵循这个，它应该非常简单，但是我在解决上一个问题时遇到了新的问题用于测试的代码(在spark-shell中)如下： val sourceDF = spark.range(0, 10000) val datasets = "s3a://bucket-name/test" sourceDF.write.format("orc").save(datasets + "orc") spark-defaults.conf是： spark.hadoop.fs.s3a.committ

浏览 0提问于2018-12-24得票数 5

1回答

将Spark DataFrame写入pyspark中的csv时出错

、、、

我正在尝试应用MLlib中提供的ALS矩阵分解。下面是我的代码 from pyspark.sql.types import StringType from pyspark import SQLContext sqlContext = SQLContext(sc) t1 = sqlContext.read.csv("/user/hadoop/personalization/test1.csv",header=False) from pyspark.mllib.recommendation\ import ALS,MatrixFactorizationMode

浏览 0提问于2017-04-13得票数 0

2回答

Spark : java.lang.ClassNotFoundException: com.mysql.jdbc.Driver线程中的异常

、、、

我用spark编写了一个简单的程序，以便在mySql中为表编写一个数据格式。该方案如下： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.sql.hive.HiveContext import org.apache.spark.SparkContext._ import org.apache.spark.rdd

浏览 2提问于2016-04-05得票数 1

回答已采纳

1回答

卡桑德拉:节点变得不可用，同时吞食星火

、、

在很少有人成功地把数据吞进卡桑德拉和斯帕克之后，每当我尝试使用Spark (几分钟或立即)摄取数据时，都会返回一个错误： Caused by: com.datastax.oss.driver.api.core.AllNodesFailedException: Could not reach any contact point, make sure you've provided valid addresses 我使用简单的CQLSH (不是火花)进行了检查，并且确实返回了类似的错误(4个节点中的2个节点)： Connection error: ('Unable to conn

浏览 1提问于2021-09-21得票数 2

回答已采纳

1回答

如何使用Pyspark for JDBC的MariaDB连接器/J？

、、、、

我在Ubuntu18.04上使用Pyspark Spark 3.0.1，并希望使用JDBC将数据导出到MariaDB服务器。我在pyspark命令行中指定Connector/J jar，如下所示：$ pyspark --jars /usr/share/java/mariadb-java-client.jar 但是，当我使用JDBC连接时，我得到以下错误： >>> df1 = sc.parallelize([[1,2,3], [2,3,4]]).toDF(("a", "b", "c")) >>> df1.wr

浏览 28提问于2021-02-24得票数 0

回答已采纳

1回答

为什么spark在sql查询的末尾附加“WHERE 1=0”

、、

我正在尝试使用Apache Spark执行一个简单的mysql查询并创建一个数据框架。但是由于某些原因，spark在我想要执行的查询的末尾附加了'WHERE 1=0'，并抛出了一个声明为'You have an error in your SQL syntax'的异常。 val spark = SparkSession.builder.master("local[*]").appName("rddjoin"). getOrCreate() val mhost = "jdbc:mysql://localhost:3306/

浏览 6提问于2018-02-16得票数 5

1回答

如何从jdbc连接创建spark数据库

我使用的是spark，我想创建查询来连接数据库中的不同表。 Apache和connection已经在使用示例： CREATE TEMPORARY VIEW jdbcTable USING org.apache.spark.sql.jdbc OPTIONS ( url "jdbc:mysql://XXX.XXX.XXX.XXX/mydatabase", driver "com.mysql.cj.jdbc.Driver", dbtable "mydatabase.mytable1", user "XXXX", pa

浏览 3提问于2022-03-24得票数 0

回答已采纳

1回答

将Dataframe写入RDS (MySQL)时的连接错误(PYSMAR3.x在EMR6.x上)

、、、

当我试图将Dataframe的结果写入RDS (MySQL)时，我会得到“连接拒绝错误”。我在EMR集群v6.x上使用PySpark 3(1个主节点，1个从节点)。这张表还不存在。但数据库是存在的。 spark-submit --jars s3://{some s3 folder}/mysql-connector-java-8.0.25.jar s3://{some s3 folder}/pyspark_script.py 写入mysql的脚本部分在这里(经过测试，它是脚本中唯一传递错误/不工作的部分)：*我在下面更改了我的db、用户和密码的名称 df.write\ .mode(

浏览 15提问于2021-12-19得票数 0

1回答

从Mysql中读取Spark

、、

我有一个spark作业，它从mysql读取一个表，但出于某种原因，spark将int列定义为布尔值。如何在表读取期间强制数据类型？火花会议： spark = (SparkSession.builder .config("spark.sql.autoBroadcastJoinThreshold", -1) .config("spark.sql.adaptive.enabled", "true") .config("spark.jars.packages", "mysql:mysql-connector-java:8.0.

浏览 10提问于2022-10-10得票数 1

回答已采纳

2回答

PySpark到MySQL插入错误？

、、、、

我正在学习PySpark，并编写了一个简单的脚本，该脚本从我的HDFS目录中加载一些JSON文件，将每个JSON文件作为python字典加载(使用json.loads() )，然后为每个对象提取一些字段。相关信息存储在中，我希望将这些数据插入到MySQL表中(我是在本地创建的)。但是，当我运行这个时，我的连接URL会出现一个错误。上面写着"java.lang.RuntimeException: 1.5失败：。“ 在这一点上： jdbc:mysql://localhost:3306/bigdata?user=root&password=pwd ^ 数据库名为"

浏览 3提问于2017-05-02得票数 0

回答已采纳

1回答

Spark SQL 2.1是否支持将临时表或hive表写入Mysql/Oracle？

我使用的是Spark SQL 2.1，我可以在Spark SQL中以临时视图的形式从mysql/oracle中读取数据： val url = "jdbc:mysql://localhost:3306/db1" val user = "root" val pass = "root" val sql = s""" CREATE OR REPLACE TEMPORARY VIEW foobar USING org.apache.spark.sql.jdbc OPTIONS (url &

浏览 9提问于2019-03-29得票数 0

1回答

部署到托管资源组中的Microsoft Azure Synapse在通过触发器调用时无法写入存储帐户

、

更新:我们将Synapse部署为托管应用程序的一部分，这意味着它在托管资源组中运行。这一机制似乎是造成问题的原因。问题陈述： ApplicationRunning 将Synapse工作区部署到托管资源组中，作为托管Azure 的一部分，Notebook通过UI (在编辑时使用Run按钮)工作，并通过管道+触发器运行相同的Notebook，对Synapse文件夹执行简单的读和写操作，同时在写入或删除时出现403 HTTP错误(READ工作很好，interestingly)Configuration按照如何为您的Synapse工作区设置访问控制- Azure Synapse Analytics

浏览 8提问于2022-01-30得票数 1

1回答

Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport()是必要的吗？

、、

我对Hive的理解是，它提供了一种使用SQL命令查询HDFS的方法。好吧，但是还有Spark。Spark拥有所有的RDD类方法，这些方法完全有能力，但我更喜欢使用SQL。输入Spark SQL。既然我可以使用Spark SQL通过SQL查询我的数据库，那么为什么Hive会进入这个画面呢？医生说： enableHiveSupport(): Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined fun

浏览 1提问于2018-08-16得票数 0

1回答

如何在火花上下文中指定多个jdbc驱动程序？

、、

我有一个应用程序，它从mysql和postgresql读取数据并进行数据处理。我有以下函数来初始化spark： def init_spark(): global sc, sqlContext, sqlCtx, sql, spark spark = SparkSession.builder.config( 'spark.driver.extraClassPath', 'path/to/mysql-connector-java.jar' ).getOrCreate() sc = spark.sparkConte

浏览 2提问于2020-08-13得票数 1

1回答

不保存到mysql db的kafka saving 2.4.5的火花结构化流

、、、

来自卡夫卡的消息是流的，但没有保存在数据库中。我正在使用mysql 8.0.20。我有遗漏什么吗？ import org.apache.spark.sql.SparkSession import org.apache.spark.sql import org.apache.spark.SparkConf import org.apache.spark.sql.functions.{col, from_json} import org.apache.spark.sql.types.{IntegerType, StringType, StructType} import java.time.{Zo

浏览 1提问于2021-10-02得票数 0

回答已采纳

2回答

使用Spark从Hive读取数据

、、、

问题我正在尝试从配置单元表中读取，但收到以下错误： [error] (run-main-0) org.apache.spark.sql.AnalysisException: Table or view not found: tags; line 1 pos 14 我在$SPARK_HOME/conf和$HIVE_HOME/conf中都放置了hive-site.xml。同样，我使用sqoop从mysql抓取数据并将其导入hive也没有问题。我的Scala代码有问题吗？或者这是一个配置错误？ Scala代码： package test1 import java.io.File import o

浏览 2提问于2017-04-08得票数 3

2回答

将增量湖写入AWS S3 (没有数据库)

、、、

# Creating PySpark Object from pyspark.sql import SparkSession spark = SparkSession.builder.appName("XMLParser").getOrCreate() sc=spark.sparkContext hadoop_conf=sc._jsc.hadoopConfiguration() hadoop_conf.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") ha

浏览 5提问于2020-05-13得票数 5

回答已采纳

1回答

Pyspark读取jdbc会产生错误。怎么修？

、、、、

我正在使用JDBC连接到RDS MySQL中。我已经尝试了几乎所有我在Stackoverflow上找到的调试，但我仍然无法使它工作。 spark = SparkSession.builder.config("spark.jars", mysql_jar) \ .master("local[*]").appName("PySpark_MySQL_test").getOrCreate() df= spark.read.format("jdbc").option("url", "jdbc:

浏览 0提问于2021-09-17得票数 0