spark数据写入mysql_spark将数据写入mysql_spark写入数据到mysql - 腾讯云开发者社区

mysql、apache-spark、jdbc

我正在从spark应用程序连接到一个MySql DB (星火-2.0.0-bin-hadoop2.7)。当连接时，我得到以下错误。这是我的代码： def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark = Sp

浏览 1提问于2018-09-25得票数 0

1回答

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

apache-spark、hadoop、hdfs

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？ Spark是用于计算海量数据的分布式数据处理引擎。假设我在mysql中存储了大量数据，我想对这些数据进行处理。Spark从mysql读取数据，并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行spark需要分布式文件存储？

浏览 3提问于2021-03-25得票数 0

1回答

使用spark streaming和spark redshift-connector将数据从kafka复制到红移

apache-spark、apache-kafka、spark-streaming

我正在尝试设置一条从mysql binlogs到redshift的数据管道。我正在从Mysql binlogs(使用一个工具- cannedbeer，来自mypipe的fork )向kafka写入数据，然后使用spark streaming将这些消息写入到使用spark redshift connector.The的Redshift中。我面临的问题是，由于Dstream .Can的foreachRDD方法(写入Redshift的副作用)中的作业失败，相同的消息被多次写入到redshift.Is这是因为这个问题以及如何提前解决it.Thanks。

浏览 1提问于2015-11-12得票数 1

1回答

如何加入来自mysql和Oracle的SparkSQL数据？

apache-spark-sql、pyspark-sql

在SparkSQL中可以加入mysql和Oracle数据库中的数据吗？我试图加入他们，但在SPARK_CLASSPATH中设置多个jars (用于mysql和Oracle的jdbc驱动程序)时遇到了一些问题。这是我的代码： import os import sys os.environ['SPARK_HOME']="/home/x/spark-1.5.2" sys.path.append("/home/x/spark-1.5.2/python/") try: from pyspark import SparkContext, Spar

浏览 2提问于2015-12-30得票数 1

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

apache-spark、spark-jdbc

当我为表同步运行spark应用程序时，错误消息如下所示： 19/10/16 01:37:40 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 51) com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packet

浏览 3提问于2019-10-16得票数 0

回答已采纳

2回答

在spark中使用JDBC驱动程序限制连接到MySQL数据库的次数

mysql、apache-spark、jdbc、pyspark、pyspark-sql

目前，我正在使用JDBC驱动程序将数据从MySQL数据库导入到spark中，使用以下命令： dataframe_mysql = sqlctx .read .format("jdbc") .option("url", "jdbc:mysql://<IP-ADDRESS>:3306/<DATABASE>") .option("driver", "com.mysql.jdbc.Driver") .option("dbtable", "

浏览 4提问于2017-08-11得票数 3

1回答

使用Spark写入memsql的最佳实践

apache-spark、scalability、singlestore

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。有没有使用Spark写入memsql的最佳实践？也就是说，在使用数据帧进行大规模(并行)写入时，确保写入性能和可伸缩性的最佳方法是什么？首选的解决方案是:使用memsql/Spark连接器()还是DataFrame的“写”方法(与MySQL JDBC驱动程序结合使用)。长话短说: Spark scale如何写入memsql？

浏览 4提问于2016-01-15得票数 1

1回答

将转换的DataFrame保存/导出回JDBC / MySQL

apache-spark、apache-spark-sql、apache-spark-1.5

我试图弄清楚如何使用新的DataFrameWriter将数据写回JDBC数据库。我似乎找不到这方面的任何文档，尽管看一下源代码，它似乎是可能的。下面是我正在尝试的一个简单的例子： sqlContext.read.format("jdbc").options(Map( "url" -> "jdbc:mysql://localhost/foo", "dbtable" -> "foo.bar") ).select("some_column", "another_column

浏览 0提问于2015-09-16得票数 7

2回答

使用Apache编写错误

java、mysql、apache-spark

我是一个使用Spark的新手。我遵循了DataBricks：的在线指南我可以成功地获得到MySQL实例的连接并从中读取。但是，我一直从Spark中获得NoTableFound或NoDatabaseFound错误的变体。下面是我的整个测试类的样子： import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SQLContext; import org.a

浏览 4提问于2017-05-01得票数 0

回答已采纳

1回答

如何将火花流数据流存储到Mysql表中？

python、mysql、apache-spark、pyspark

我试图从Azure事件中心读取数据，并以火花流模式将此数据存储到Mysql表中。下面是我的电火花代码 from pyspark.sql import SparkSession from pyspark.sql.functions import * from pyspark.sql.types import * import json from datetime import datetime as dt from pyspark.sql import DataFrameWriter try: session = SparkSession.builder.master("lo

浏览 10提问于2021-12-22得票数 1

回答已采纳

1回答

用Scala中的MySQL ()火花流存储数据到foreachRDD

mysql、scala、spark-streaming

在Scala中用MySQL将数据火花流存储到foreachRDD()中请有人给我一个函数示例，说明如何使用Scala中的MySQL foreachRDD()来保存流到foreachRDD()的Spark。我有下面的代码，但它不起作用。我只需要一个简单的例子，而不是正法或理论。谢谢! package examples import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark._ import org.apache.spark.storage.StorageLevel import org.apache.

浏览 1提问于2017-05-20得票数 4

回答已采纳

4回答

java.sql.SQLException:在将DataFrame加载到Spark中时找不到合适的驱动程序

scala、jdbc、apache-spark、apache-spark-sql

当试图将JDBC加载到Spark中时，我遇到了非常奇怪的问题。我尝试了几个星团-纱线，独立的集群和伪分布式模式在我的笔记本电脑。它在星火1.3.0和1.3.1上都是可复制的。这个问题既发生在spark-shell中，也发生在用spark-submit执行代码时。我尝试过MySQL &MySQL驱动程序，但没有成功。考虑以下样本： val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://localhost:3306/test" val t1 = { sqlContext.load(

浏览 2提问于2015-04-28得票数 13

回答已采纳

1回答

通过Spark SQL进行批量数据迁移

apache-spark、apache-spark-sql、spark-dataframe

我目前正在尝试通过Spark SQL将一个非常大的MySQL表的内容批量迁移到一个parquet文件中。但是当我这样做的时候，我很快就会耗尽内存，即使是在驱动程序的内存限制设置得更高的时候(我在本地模式下使用spark )。示例代码： Dataset<Row> ds = spark.read() .format("jdbc") .option("url", url) .option("driver", "com.mysql.jdbc.Driver") .option("dbtab

浏览 12提问于2016-08-20得票数 7

回答已采纳

1回答

java.lang.IllegalArgumentException:无法为array<string>获取JDBC类型

spark-dataframe

我想把输出数据导入mysql数据库，但是发生以下错误，我不会将数组转换成所需的字符串类型，能帮我吗？ val Array(trainingData, testData) = msgDF.randomSplit(Array(0.9, 0.1)) val pipeline = new Pipeline().setStages(Array(labelIndexer, word2Vec, mlpc, labelConverter)) val model = pipeline.fit(trainingData) val predictionResultDF = model.tr

浏览 0提问于2018-05-06得票数 2

回答已采纳

2回答

如何使用foreach或foreachBatch在PySpark中对数据库进行写入？

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我想用Python (PySpark)实现从Kafka源代码到MariaDB (PySpark)的Spark结构化流(Spark2.4.x)。我想使用流式星火数据，而不是静态或潘达斯的数据。似乎必须使用foreach或foreachBatch，因为根据，流数据没有可能的数据库接收器。以下是我的尝试： from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StructField, StructType, StringType, DoubleTy

浏览 3提问于2019-11-08得票数 7

回答已采纳

1回答

每次在python中迭代函数时，分别获取该函数的日志

python、linux、bash、pyspark

我有一个类似下面的pyspark脚本。在这个脚本中，我遍历表名的input文件并执行代码。现在，我想在每次迭代函数mysql_spark时分别收集日志。例如： input file table1 table2 table3 现在，当我执行pyspark脚本时，我将所有三个表的日志保存在一个文件中。 What I want is 3 separate log files 1 for each table Pyspark脚本： #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from py

浏览 1提问于2017-07-29得票数 0

回答已采纳

1回答

在后续运行之后，火花作业在本地运行时间更长--调整火花作业

scala、apache-spark、apache-spark-sql、spark-streaming、spark-dataframe

我有一个火花作业，它在第一次运行时在5分钟内运行，然后需要几分钟..more，而在随后的运行中需要20-30分钟。我正在读取一个拼花文件一次，然后创建数据格式并以.json格式编写。在代码中的任何地方，我都没有使用缓存()、持久化()或未持久化()。这是本地实例。有什么问题吗？配置参数 val spark = SparkSession .builder() .appName("example") .config("spark.sql.warehouse.dir", warehouseLocation) .config("spark

浏览 2提问于2017-07-28得票数 0

1回答

S3前缀中的回滚写入失败-通过Spark进行分区

apache-spark、amazon-s3、amazon-emr

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的{bucket}/{prefix}。我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。spark/EMR/S3中的任何/所有这些都支持它吗？

浏览 11提问于2020-10-02得票数 0

1回答

将Spark保存到Elasticsearch -无法处理类型异常

elasticsearch、apache-spark、elasticsearch-hadoop、apache-spark-1.5

我设计了一个简单的工作，可以从MySQL读取数据，并将其保存在使用Spark的Elasticsearch中。以下是代码： JavaSparkContext sc = new JavaSparkContext( new SparkConf().setAppName("MySQLtoEs") .set("es.index.auto.create", "true") .set("es.nodes", "127.0.0.1:9200")

浏览 0提问于2015-09-19得票数 7

回答已采纳

6回答

SPARK使用MySql和JDBC更新DataFrames表

jdbc、apache-spark、apache-spark-sql

我试图使用Spark、DataFrames和JDBC连接在MySql上插入和更新一些数据。我已经成功地使用SaveMode.Append插入了新数据。是否有方法从Spark更新MySql表中已经存在的数据？我要插入的代码是： myDataFrame.write.mode(SaveMode.Append).jdbc(JDBCurl,mySqlTable,connectionProperties) 如果我更改为SaveMode.Overwrite，它将删除完整的表并创建一个新的表，我正在寻找类似于MySql中可用的“关于重复键更新”的内容

浏览 11提问于2016-02-25得票数 32

回答已采纳

1回答

将PySpark DataFrames写入MySQL时的最佳实践

python、mysql、pyspark、apache-spark-sql、airflow

我试图开发几个数据管道使用Apache气流与预定的火花作业。对于这些管道之一，我试图将数据从PySpark DataFrame写入MySQL，并且一直遇到一些问题。这只是我的代码现在看起来的样子，但是我确实想在将来添加更多的转换， df_tsv = spark.read.csv(tsv_file, sep=r'\t', header=True) df_tsv.write.jdbc(url=mysql_url, table=mysql_table, mode="append", properties={"user":mysql_user,

浏览 2提问于2021-10-28得票数 1

回答已采纳

3回答

Spark SQL和MySQL- SaveMode.Overwrite不插入修改的数据

mysql、apache-spark、dataframe、apache-spark-sql

我在MySQL中有一个test表，其id和名称如下： +----+-------+ | id | name | +----+-------+ | 1 | Name1 | +----+-------+ | 2 | Name2 | +----+-------+ | 3 | Name3 | +----+-------+ 我使用Spark读取这些数据(使用JDBC)并修改数据，如下所示 Dataset<Row> modified = sparkSession.sql("select id, concat(name,' - new') as name from

浏览 0提问于2017-01-26得票数 8

回答已采纳

1回答

在包含join的Sparkjob中超出了GC开销限制

scala、apache-spark、apache-spark-2.0

我正在写一份spark工作，根据学生日期过滤最新的学生记录。但当我尝试使用数十万条记录时，它工作得很好。但是，当我使用大量记录运行它时，我的sparkjob返回下面的错误。我猜这个错误是因为我从表中加载了所有数据并将int放入了RDD中。因为我的表包含大约420万条记录。如果是这样的话，有没有更好的方法来有效地加载这些数据并成功地继续我的操作？请任何人帮我解决这个问题 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 1, 10.10.10.10): java.lang.OutOfMemoryError: GC overhead li

浏览 22提问于2017-03-10得票数 1

1回答

如何在过滤前将数据从数据库加载到Spark

apache-spark、pyspark

我正在尝试运行这样一个PySpark应用程序： with SparkSession.builder.appName(f"Spark App").getOrCreate() as spark: dataframe_mysql = spark.read.format('jdbc').options( url="jdbc:mysql://.../...", driver='com.mysql.cj.jdbc.Driver', dbtable='my_table',

浏览 3提问于2022-08-12得票数 0

回答已采纳

2回答

PySpark JDBC写入MySQL (TiDB)

pyspark、pyspark-dataframes、tidb

我正试图给TIDB (Spark2.3)写一条电火花数据(百万行)。 df.write.format('jdbc').options( url='jdbc:mysql://<host>:<port>/<table>', driver='com.mysql.jdbc.Driver', dbtable='<tablename>', user='<username>', password='<password>',

浏览 5提问于2019-12-29得票数 0

回答已采纳

1回答

将熊猫保存到天蓝色数据库中的新表中

python、azure、apache-spark、databricks

上下文:我有一个使用SQl查询的数据文件。在这个查询中，我使用spark上的熊猫保存到一个数据文件中。现在，经过一些转换后，我想将这个新的dataframe保存在给定数据库的新表上。示例： spark = SparkSession.builder.appName('transformation').getOrCreate() df_final = spark.sql("SELECT * FROM table") df_final = ps.DataFrame(df_final) ## Write Frame out as Table spark_df_fina

浏览 13提问于2022-11-18得票数 0

回答已采纳

1回答

在spark中将数据保存为MySQL后，MySQL变为空

mysql、scala、apache-spark

我希望将数据保存到MySQL中，覆盖某些字段中的重复行，并将挂起的数据不包含的数据保存在MySQL中。我试过的Mode.Overwrite/Mode.append仍然不能满足我的需求。因此，我尝试从MySQL加载现有数据并找到行。但是，当将数据保存到MySQL中时，获得的DataFrame变为空。在此过程中，我尝试了两种方法：查找挂起的数据中不存在的数据，然后使用UNION将这两个部分连接起来。最后，使用Mode.Overwrite进行保存。查找挂起的数据中不存在的数据。使用Mode.Overwrite保存挂起的DataFrame和Mode.append以保存获得的DF。

浏览 1提问于2017-11-07得票数 3

回答已采纳

2回答

从mysql读取火花外壳中的数据

mysql、apache-spark、integration

首先，我构建了scala应用程序，使用这一行代码从apache中的mysql表中读取数据。 val spark = SparkSession.builder().master("local").appName("Fuzzy Match Analysis").config("spark.sql.warehouse.dir","file:///tmp/spark-warehouse").getOrCreate() import spark.implicits._ var df = spark.read.format("jdbc

浏览 2提问于2017-10-02得票数 1

2回答

PySpark到MySQL插入错误？

python、mysql、hadoop、apache-spark、pyspark

我正在学习PySpark，并编写了一个简单的脚本，该脚本从我的HDFS目录中加载一些JSON文件，将每个JSON文件作为python字典加载(使用json.loads() )，然后为每个对象提取一些字段。相关信息存储在中，我希望将这些数据插入到MySQL表中(我是在本地创建的)。但是，当我运行这个时，我的连接URL会出现一个错误。上面写着"java.lang.RuntimeException: 1.5失败：。“ 在这一点上： jdbc:mysql://localhost:3306/bigdata?user=root&password=pwd ^ 数据库名为"

浏览 3提问于2017-05-02得票数 0

回答已采纳

1回答

火花结构化流与Neo4j

neo4j、spark-structured-streaming

我的目标是使用Spark结构化流将转换后的数据从MongoDB集合写入Neo4j。根据Neo4j文档，这在"“版本4.1.2中是可能的。到目前为止，批处理查询工作正常。但是，通过下面的示例，我遇到了一条错误消息： spark-shell --packages org.mongodb.spark:mongo-spark-connector:10.0.2,org.neo4j:neo4j-connector-apache-spark_2.12:4.1.2_for_spark_3 val dfTxn = spark.readStream.format("mongodb") .

浏览 17提问于2022-06-27得票数 0

1回答

如何在火花上下文中指定多个jdbc驱动程序？

python-3.x、apache-spark、pyspark

我有一个应用程序，它从mysql和postgresql读取数据并进行数据处理。我有以下函数来初始化spark： def init_spark(): global sc, sqlContext, sqlCtx, sql, spark spark = SparkSession.builder.config( 'spark.driver.extraClassPath', 'path/to/mysql-connector-java.jar' ).getOrCreate() sc = spark.sparkConte

浏览 2提问于2020-08-13得票数 1

1回答

Azure数据湖中将拼花写入特定容器的错误

pyspark、azure-databricks、azure-data-lake、pyspark-pandas

我正在从container1中检索两个文件，转换它们，并在写入到Azure相同存储帐户中的container2之前进行合并。我正在安装container1，在编写之前打开和安装countainer2。我写拼花的代码 spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic") df_spark.coalesce(1).write.option("header",True) \ .partitionBy('ZMTART') \

浏览 8提问于2022-11-22得票数 0

1回答

Pyspark:使用JDBC将数据写入Postgres

postgresql、jdbc、pyspark

1)我正在阅读Postgres的表格，如下所示，并创建了一个dataframe df = spark.read.format("jdbc").option("url", url). \ option("query", "SELECT * FROM test_spark"). \ load() 2)更新dataframe df中的一个值。 newDf = df.withColumn('id',F.when(df[&

浏览 4提问于2020-06-19得票数 0

1回答

是否可以在Spark写入SQL数据库时使用它？

database、postgresql、jdbc、apache-spark、amazon-rds

首先，我在Amazon上使用Spark1.5.2，在postgres数据库中使用Amazon。我目前正致力于让Spark将其结果写入postgres数据库，我正在使用Spark的jdbc进行此操作。当它正常工作时，我担心的是，如果我试图在Spark运行时使用psql连接到db，然后尝试从Spark正在写入的表中读取，它就会告诉我还没有写行。这种情况一直持续到火花结束，然后所有的行突然出现在数据库中。这让我很担心，因为最终的设置应该是定期运行Spark脚本，并将更多的数据写入数据库，而网站应该使用该数据库。这是否意味着我无法在Spark运行时查询数据库？你猜这里的问题是什么？我认为这可能是

浏览 1提问于2016-01-21得票数 0

回答已采纳

1回答

从Mysql中读取Spark

apache-spark、pyspark、apache-spark-sql

我有一个spark作业，它从mysql读取一个表，但出于某种原因，spark将int列定义为布尔值。如何在表读取期间强制数据类型？火花会议： spark = (SparkSession.builder .config("spark.sql.autoBroadcastJoinThreshold", -1) .config("spark.sql.adaptive.enabled", "true") .config("spark.jars.packages", "mysql:mysql-connector-java:8.0.

浏览 10提问于2022-10-10得票数 1

回答已采纳

1回答

更快地为S3编写Pyspark

amazon-s3、pyspark

我正在使用Pyspark从mysql中提取数据，并试图使用pyspark上传相同的数据。虽然这样做，它需要5-7分钟来上传一块100 K的记录。这一过程将需要几个月的数据拉出，因为源中大约有3,108,700,000 recs。是否有更好的方法可以改善S3上传过程。注意:数据拉取一次100 K只需20-30秒，这仅仅是S3上传造成的问题。下面是我如何为S3编写DF。 df = spark.read.format("jdbc"). option('url', jdbcURL). option('driver', drive

浏览 3提问于2022-06-24得票数 0

回答已采纳

1回答

从mysql获取数据到Apache (scala)时出错

mysql、dataframe、apache-spark、bigdata

我想从mysql获得数据到Spark (scala)，但当数据发生时会出错 com.mysql.cj.jdbc.exceptions.CommunicationsException:通信链路故障这是我的密码： val sqlcontext = new org.apache.spark.sql.SQLContext(sc) val cataDF= sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://127.0.0.1:3360/crawldb").option("

浏览 1提问于2019-07-24得票数 0

回答已采纳

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

apache-spark、apache-spark-sql、pyspark、spark-dataframe、pyspark-sql

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中)。我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。我的问题是，我们如何像在mysql中使用ON DUPLICATE K

浏览 4提问于2015-09-16得票数 12

1回答

卡桑德拉:节点变得不可用，同时吞食星火

cassandra、datastax、datastax-enterprise

在很少有人成功地把数据吞进卡桑德拉和斯帕克之后，每当我尝试使用Spark (几分钟或立即)摄取数据时，都会返回一个错误： Caused by: com.datastax.oss.driver.api.core.AllNodesFailedException: Could not reach any contact point, make sure you've provided valid addresses 我使用简单的CQLSH (不是火花)进行了检查，并且确实返回了类似的错误(4个节点中的2个节点)： Connection error: ('Unable to conn

浏览 1提问于2021-09-21得票数 2

回答已采纳

1回答

如何在读取JDBC连接时使用谓词？

r、apache-spark、jdbc、sparklyr

默认情况下，spark_read_jdbc()将整个数据库表读入Spark。我使用了以下语法来创建这些连接。 library(sparklyr) library(dplyr) config <- spark_config() config$`sparklyr.shell.driver-class-path` <- "mysql-connector-java-5.1.43/mysql-connector-java-5.1.43-bin.jar" sc <- spark_connect(master = "local",

浏览 2提问于2017-08-01得票数 5

回答已采纳

1回答

星火集群环境下并行作业运行时星火数据集错误值

java、apache-spark、apache-spark-sql、spark-streaming

我正在使用下面的设置 SparkConf conf = new SparkConf().setAppName("Network Utilization Data") .setMaster ("spark://10.126.228.139:7077") .set("spark.submit.deployMode","cluster") .set

浏览 2提问于2018-06-14得票数 0

1回答

无法查看通过Spark SQL创建的新数据

java、apache-spark、hive、apache-spark-sql

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

1回答

如何从jdbc连接创建spark数据库

apache-spark

我使用的是spark，我想创建查询来连接数据库中的不同表。 Apache和connection已经在使用示例： CREATE TEMPORARY VIEW jdbcTable USING org.apache.spark.sql.jdbc OPTIONS ( url "jdbc:mysql://XXX.XXX.XXX.XXX/mydatabase", driver "com.mysql.cj.jdbc.Driver", dbtable "mydatabase.mytable1", user "XXXX", pa

浏览 3提问于2022-03-24得票数 0

回答已采纳

1回答

是否可以将es.batch.write.retry.count设置为零值

apache-spark、elasticsearch、pyspark、apache-spark-sql

我只想停止spark作业，如果在向ES写入数据时发生任何异常。有一个配置es.batch.write.retry.count的默认值是3。我们可以设置es.batch.write.retry.count =0，这样如果按照我的要求发生故障，spark数据帧写入ES就会停止吗？

浏览 16提问于2019-11-29得票数 1

0回答

spark-sql表或视图未找到错误

apache-spark、apache-spark-sql、spark-dataframe

我正在尝试使用spark-sql和JDBC运行一个基本的java程序。我遇到了以下错误。不知道这里出了什么问题。我读过的大多数材料都没有讨论需要做些什么来解决这个问题。如果有人能给我推荐一些关于Spark-sql (Spark-2.1.1)的好材料，那就太好了。我计划使用spark来实现ETL，连接到MySQL和其他数据源。线程"main“org.apache.spark.sql.AnalysisException异常:未找到表或视图：myschema.mytable；第1行pos 21； String MYSQL_CONNECTION_URL = "jdbc:my

浏览 13提问于2017-06-09得票数 5

回答已采纳

3回答

Spark structured streaming Elasticsearch集成问题。数据源es不支持流式写入

apache-spark-sql、spark-streaming

我正在编写一个Spark结构的流媒体应用程序，其中使用Spark处理的数据需要沉没到弹性搜索。这是我的开发环境，因此我有一个独立的Elastic search。我尝试了以下两种方法将DataSet中的数据汇聚到ES中。 1.ds.writeStream().format("org.elasticsearch.spark.sql").start("spark/orders"); 2.ds.writeStream().format("es").start("spark/orders"); 在这两种情况下，我都会得到以下错误：由以

浏览 1提问于2017-09-26得票数 3

1回答

用于向Cassandra插入数据的Spark作业

apache-spark、cassandra、apache-spark-sql、spark-dataframe、spark-cassandra-connector

我正在尝试使用Scala上的Spark将数据写入Cassandra表。有时，spark任务会在两者之间失败，并且会有部分写入。当新任务从第一个开始时，Spark会回滚部分写入吗？

浏览 3提问于2017-02-22得票数 1

回答已采纳

1回答

Dataproc:使用BigQuery读写数据时使用PySpark时的错误

python、pyspark、google-bigquery、google-cloud-dataproc

我正在尝试从用户管理的朱庇特笔记本实例中读取一些BigQuery数据(ID：my-project.mydatabase.mytable原始名称受保护)，在工作台中。我尝试的是中的灵感，更具体地说，代码是(请阅读一些关于代码本身的附加注释)： from pyspark.sql import SparkSession from pyspark.sql.functions import udf, col from pyspark.sql.types import IntegerType, ArrayType, StringType from google.cloud import bigquery

浏览 15提问于2022-08-09得票数 1

回答已采纳

1回答

为什么从Spark到Vertica DB的写作要比从Spark编写到MySQL的时间更长？

python、mysql、apache-spark、vertica

最终，我想从Vertica DB获取数据到Spark，训练机器学习模型，进行预测，并将这些预测存储到另一个Vertica DB中。当前的问题是识别流的最后一部分中的瓶颈:从Spark存储Vertica DB中的值。在Vertica DB中存储63k行数据大约需要38分钟。相比之下，当我将相同的数据从Spark传输到MySQL数据库时，需要10秒。我不知道为什么有这么大的差别。我有名为VerticaContext和MySQLContext的类，分别用于Vertica和MySQL连接。两个类都使用来使用jdbc格式读取条目。 df = self._sqlContext.read.format

浏览 3提问于2016-04-19得票数 0