spark 加载mysql数据_spark 加载mysql_spark 加载mysql数据分析 - 腾讯云开发者社区

、

我正在尝试运行这样一个PySpark应用程序： dataframe_mysql= spark.read.format('jdbc').options( url="jdbc:mysql://= dataframe_mysql.filter("da

浏览 3提问于2022-08-12得票数 0

回答已采纳

1回答

表或视图未被插入到mysql中，而该表或视图存在于Pyspark中。

、、、

我试图使用Pyspark连接插入到现有的Mysql表中，但是我得到了以下错误 File "/usr/hdp/current/spark2-client/python/pyspark/sql/context.py", line 384, in sql

浏览 0提问于2020-07-17得票数 0

回答已采纳

1回答

星星之火:将大型MySQL表读入DataFrame失败

、

我试图编写一个作业，将数据(每天一次)从MySQL表移动到存储在Amazon S3上的Parquet / ORC文件的Hive表中。目前，我们正在为此使用sqoop，但出于以下原因，我们希望迁移到Spark：我们已经为组织中其他地方使用的Scala但是，如果我尝试一次获取超过1.520万条记录( Spark作业)(从MySQL读取数据到DataFrame)，则会失败。下面我

浏览 1提问于2018-03-07得票数 7

1回答

我知道我们可以使用spark从现有的mysql表中读取和写入数据。但是，我们甚至可以创建mysql表并使用dataframes将数据插入其中吗？当我试图将文件加载到dataframe并试图写入不存在的表时，我面临的是空指针，exception.Following是一个错误： org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationPr

浏览 1提问于2018-03-12得票数 2

1回答

与JDBC一起使用SparkSession.sql()

、、、

问题: .master("local") .getOrCreate() 配置:driver=com.mysql.jdbc.Driverpassword=xxxxxxxxxx[inf

浏览 2提问于2018-04-20得票数 0

回答已采纳

2回答

如何从主机接入MySQL Docker镜像？

、

我正在运行MySQL Docker镜像并创建数据库和表。使用以下命令加载容器：Spark在我的主机上运行，所以我想将Spark中的数据写入容器中运行的数据库中。但是连接没有成功，我得到了

浏览 1提问于2019-12-11得票数 1

2回答

在DataFrame脚本中使用' JDBC‘为Spark Python 'write’加载jdbc驱动程序

、、

我正在尝试从MySQL应用程序加载python JDBC驱动程序。我没有调用'bin/pyspark‘或'spark-submit’程序；相反，我有一个Python脚本，我在其中初始化了'SparkContext‘和'SparkSession’对象。我知道我们可以在调用'pyspark‘时传递'--jars’选项，但我如何在我的python应用程序中加载和指定jdbc驱动程序？

浏览 21提问于2019-06-04得票数 0

回答已采纳

1回答

将非规范化表导出到包含map和list列的cassandra表

、、

我在mysql中有一个非规范化的表，其结构如下：我想我的问题是，用映射和列表将关系数据库系统中的非规范化表转换到cassandra中的最佳方法是

浏览 2提问于2015-08-12得票数 0

3回答

如何使用火花提交的包指定多个依赖项？

、、

spark-submit --class com.biz.test \ org.apache.spark:spark-streaming-kafka/test-spark_2.10-1.0.8.jar \作业无法从以下错误开始： Exception in thread "main" java.lang.Il

浏览 9提问于2015-11-25得票数 27

回答已采纳

1回答

如何检索从Spark中编写的输出大小和记录之类的度量？

、、、、

我们使用Spark将数据从Mysql加载到Cassandra，这是相当大的(例如:200 GB和600 m行)。当任务完成时，我们要验证到底有多少行触发了进程？我们可以从Spark中获得号码，但是我们如何从火花外壳或火花提交作业中检索这个数字(“输出记录编写的”)。示例命令从Mysql加载到Cassandra。val pt = sqlcontext.read.format("jdbc").option("url", "

浏览 0提问于2016-04-27得票数 11

回答已采纳

1回答

关闭Spark中的MYSQL JDBC连接

、、、、

我正在通过JDBC将数据从MYSQL服务器加载到Spark，但我需要在加载数据后关闭该连接。关闭连接的确切语法是什么？df_mysql = sqlContext.read.format("jdbc").options( driver="com.mysql.jdbc.Driver

浏览 13提问于2016-09-17得票数 1

4回答

火花无法从SBT中找到JDBC驱动程序

、、、

但是，当我添加行Class.forName("com.mysql.jdbc.Driver")时，它会抛出一个ClassNotFoundException。" %% "spark-core" % "2.1.0"libraryDependencies+= "

浏览 8提问于2017-03-01得票数 2

回答已采纳

2回答

使用Apache编写错误

、、

我是一个使用Spark的新手。我遵循了DataBricks：的在线指南import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.Dataset;

浏览 4提问于2017-05-01得票数 0

回答已采纳

1回答

使用Spark写入memsql的最佳实践

、、

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。长话短说: Spark scale如何写入memsql？

浏览 4提问于2016-01-15得票数 1

1回答

火花源三角洲-湖泊次生砂岩

、、

在相同的jupyter会话中使用"spark.sql.warehouse.dir“(无数据库)可以工作。但是在jupyter中重新启动内核后，目录数据库和表不再被识别。谢谢，克里斯蒂安 SparkSession.builder .config("spark.jars.packages"") "spark<

浏览 1提问于2021-09-17得票数 3

1回答

Spark DataFrame不在JDBC数据源内执行group-by语句

、、

我已经注册了一个MySQL数据源，如下所示：val url = "jdbc:mysql://address=(protocol" -> url, "dbtable" -> "videos")) jdbcDF.registerTempTable("vide

浏览 1提问于2015-10-01得票数 1

3回答

我们可以在spark* sql中执行传统的连接查询吗*

、

形成的查询类似于：select * from table1 inner join table2 on table1.id = table2.id;spark.read().format("jdbc").option("url", "jdbc:mysql://localhost:3306/databasename") .option(

浏览 3提问于2018-09-11得票数 0

1回答

将PySpark数据复制到MySQL

、、

我正在尝试将用PySpark在DataBricks中创建的数据文件加载到MySql，但它告诉我： .write \ .option("url", "jdbc:mysql</em

浏览 6提问于2022-11-04得票数 0

回答已采纳

1回答

MemSQL中的列名字符限制

我有一个到MemSQL的数据加载作业(火花连接器)，由于列名的长度超过了允许的限制，它失败了。有办法解决这个问题吗？我不能更改列名，因为它们是编程生成的，我对此没有控制权。(Util.java:377) at com.mysql.jdbc.SQLError.createSQLException$.org$apache$spark$deploy$SparkSubmit$$runMain(Spa

浏览 4提问于2015-10-22得票数 0

回答已采纳

1回答

如何使用PySpark向MySQL数据库流式传输数据？

、、、、

我目前正在开发一个单页面web应用程序，它允许用户将大型CSV文件(目前正在测试一个~7 7GB的文件)上传到flask服务器，然后将该数据集流式传输到数据库。现在，我需要能够流式传输此文件并将其存储到数据库中。我做了一些研究，发现PySpark非常适合流式传输数据，我选择MySQL作为流式传输数据的数据库(但我对其他dbs和流式传输方法持开放态度)。Spark 说数据必须通过Kafka、Flume、TCP socets等源获取，所以

浏览 1提问于2018-11-13得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在过滤前将数据从数据库加载到Spark

表或视图未被插入到mysql中，而该表或视图存在于Pyspark中。

星星之火:将大型MySQL表读入DataFrame失败

使用spark创建新的MySQL表

与JDBC一起使用SparkSession.sql()

如何从主机接入MySQL Docker镜像？

在DataFrame脚本中使用' JDBC‘为Spark Python 'write’加载jdbc驱动程序

将非规范化表导出到包含map和list列的cassandra表

如何使用火花提交的包指定多个依赖项？

如何检索从Spark中编写的输出大小和记录之类的度量？

关闭Spark中的MYSQL JDBC连接

火花无法从SBT中找到JDBC驱动程序

使用Apache编写错误

使用Spark写入memsql的最佳实践

火花源三角洲-湖泊次生砂岩

Spark DataFrame不在JDBC数据源内执行group-by语句

我们可以在spark* sql中执行传统的连接查询吗*

将PySpark数据复制到MySQL

MemSQL中的列名字符限制

如何使用PySpark向MySQL数据库流式传输数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐