spark 加载mysql数据分析_spark 加载mysql数据_spark 加载mysql - 腾讯云开发者社区

database-design、one-to-many、apache-kudu

总之，Apache Kudu没有：我如何建立这种关系的模型？

浏览 0提问于2019-03-06得票数 0

回答已采纳

1回答

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

hadoop、jasper-reports、apache-spark、spark-streaming

我们想使用apache spark进行实时分析吗？我们目前使用hive/MR进行数据处理，使用mysqlsql存储聚合结果，并使用jasper报告进行分析？这种方法并不理想，因为mysql存在可伸缩性问题。我们正在探索在hdfs或cassandra上运行apache spark的过程中，唯一的问题是spark是否有办法与jasper服务器集成？如果不是，还有什么UI选项可以与spark一起使用？

浏览 1提问于2015-02-21得票数 2

1回答

在不同数据库上使用SparkSQL处理查询

apache-spark、apache-spark-sql

我希望将Spark (安装在机器1上)与连接器一起用于不同的数据存储，如HBase、Hive、Cassandra和MySQL (安装在机器2上以执行Min/Max、averaging等简单的分析)。我的问题是:这些查询是在Machine1或Spark上处理的，只是作为一个接口来执行不同的分析，而是在数据存储端(即。机器2)？

浏览 1提问于2021-08-25得票数 1

回答已采纳

1回答

如何在过滤前将数据从数据库加载到Spark

apache-spark、pyspark

我正在尝试运行这样一个PySpark应用程序： dataframe_mysql= spark.read.format('jdbc').options( url="jdbc:mysql://= dataframe_mysql.filter("da

浏览 3提问于2022-08-12得票数 0

回答已采纳

1回答

在查询优化和总体效率方面，MySQL是否比Apache spark更高效

apache-spark、apache-spark-sql

我发现在spark数据帧上进行相同的查询和相同的表查询时，Apache spark要比MySQL服务器慢得多。使用独立的pyspark笔记本电脑，配备至强16核和64 on内存，位于同一服务器MySql上一般来说，我想知道在目标数据大小方面何时使用SPARK与SQL server的指导原则，以便从分析查询中获得真正快速的结果。

浏览 0提问于2016-06-19得票数 0

1回答

表或视图未被插入到mysql中，而该表或视图存在于Pyspark中。

python、mysql、apache-spark、pyspark

我试图使用Pyspark连接插入到现有的Mysql表中，但是我得到了以下错误 File "/usr/hdp/current/spark2-client/python/pyspark/sql/context.py", line 384, in sql

浏览 0提问于2020-07-17得票数 0

回答已采纳

1回答

将在SparkCLR中创建的DataFrames与zeppelin查询结合使用

apache-spark、apache-spark-sql、mobius

我是Java和Spark的新手，我发现了一个令人印象深刻的库，它为Spark提供了，它允许我们使用C#与SparkSQL一起工作。我在一个具有ODBC和OPC接口的自定义数据存储中有一些大量的过程数据。我们希望将此数据公开给Apache Spark，以便我们可以使用Apache Zeppelin等工具对此数据运行分析查询因为我的自定义存储上没有jdbc接口，所以我正在考虑创建c#代码，以便使用可用的ODBC接口从自定义数据存储中提取

浏览 5提问于2016-01-05得票数 2

2回答

使用python或hadoop进行数据分析？

anaconda、data-science、data-analysis

哪种技术可以有效地分析数据hadoop或python？速度介于上述两者之间的是哪种技术？

浏览 61提问于2018-07-30得票数 -1

回答已采纳

1回答

电力BI服务无网关接入mysql

powerbi

我想将数据发布到power bi服务。在与桌面版进行power bi连接时，在发布到服务时，需要打开网关刷新数据。因为我没有本地源，所以我使用的数据只有远程MySQL。那么为什么我在使用外部数据源的同时还需要网关来刷新数据呢？然后，我的外部来源的凭证需要什么。有没有办法消除这种网关需求，让它不需要它(通过专线)？

浏览 16提问于2018-08-08得票数 2

1回答

如何从Apache Spark on Analytics Engine读取和写入配置单元表

ibm-cloud、watson-studio、analytics-engine

我想在Watson Studio中的Jupyter笔记本上使用Spark on analytics engine，以便能够读取和写入Hive表，但我不清楚如何通过读取Spark 来做到这一点。不清楚的原因是IBM Analytics Engine预配置了Spark，并且不提供root访问权限。

浏览 27提问于2018-06-02得票数 0

回答已采纳

1回答

使用spark和HDFS作为文件存储系统，使用YARN作为资源管理器的优势是什么？

apache-spark、hadoop、hdfs

我正在尝试理解spark是否是分析BigData的普通MapReduce方法的替代方法。既然spark在使用HDFS作为spark的存储系统时，将对数据的操作保存在内存中，那么它是否利用了HDFS的分布式存储？例如，假设我在HDFS中存储了100 it的CSV文件，现在我想对其进行分析。如果我将其从HDFS加载到spark，它将触发将完整数据加载到内存中进行转换，或者它将使用分布式环境来完成其作业，该作业是由在had

浏览 17提问于2019-01-27得票数 0

回答已采纳

1回答

对CloudSql执行十亿行插入的吞吐量提高

google-cloud-sql、google-cloud-dataproc

即30m- 40m recs/小时将1小时的数据插入CloudSql大约需要35分钟的平均时间。我能做些什么来改善这个性能，配置，数据库设计和/或其他我们可能会错过的东西？数据从项目1插入到项目2，从GCS读取拼图文件，使用DataProc集群将其转换为CloudSql可接受的格式，然后插入到CloudSql中，这是考虑到mysql (又称CloudSql)对大容量插入的自然限制我的目标MySql实例是一个52 GB、8 vCPU的CloudSql实例，具有600 GB固态硬盘存储，

浏览 1提问于2021-03-17得票数 1

1回答

星星之火:将大型MySQL表读入DataFrame失败

mysql、apache-spark

我试图编写一个作业，将数据(每天一次)从MySQL表移动到存储在Amazon S3上的Parquet / ORC文件的Hive表中。目前，我们正在为此使用sqoop，但出于以下原因，我们希望迁移到Spark：我们已经为组织中其他地方使用的Scala但是，如果我尝试一次获取超过1.520万条记录( Spark作业)(从MySQL读取数据到DataFrame)，则会失败。下面我

浏览 1提问于2018-03-07得票数 7

1回答

当使用Hive作为数据仓库时，对我的情况有什么好处？

apache-spark、hive、bigdata

目前，我正在尝试采用大数据来取代我目前的数据分析平台。我目前的平台非常简单，我的系统从不同的上游系统获得了许多结构化的csv提要文件，然后，我们将它们加载为java对象(即在内存中)进行聚合。我正在寻找使用Spark来取代我的java对象层的聚合过程。我知道Spark支持从hdfs / filesystem加载文件。因此，Hive作为数据仓库似乎不是必须的。但是，我仍然可以先将csv文件加载到Hive，然后使用Sp

浏览 3提问于2017-04-17得票数 0

1回答

使用spark创建新的MySQL表

mysql、apache-spark、jdbc、apache-spark-sql、spark-dataframe

我知道我们可以使用spark从现有的mysql表中读取和写入数据。但是，我们甚至可以创建mysql表并使用dataframes将数据插入其中吗？当我试图将文件加载到dataframe并试图写入不存在的表时，我面临的是空指针，exception.Following是一个错误： org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationPr

浏览 1提问于2018-03-12得票数 2

1回答

我们能用卡桑德拉代替哈多普和星火吗？

database-design、cassandra、application-design、hadoop、apache-spark

考虑到我们有一个用NodeJS编写的后端，并且使用MySQL和Cassandra作为数据库，如果我们想在系统中添加Spark来做一些数据分析工作，比如推荐，我们是否可以使用Cassandra(我是说使用Spark + Cassandra)并达到与Hadoop( Spark + Hadoop)相同的结果？

浏览 0提问于2022-11-29得票数 2

1回答

如何分析spark应用程序以检查应用程序在每个阶段所花费的时间

apache-spark、apache-spark-sql、spark-streaming

我正在尝试对我的一个spark作业运行性能测试，该作业将数据加载到内存中，然后对数据执行spark-sql操作，最后将结果返回给用户。我想知道作业在每个阶段需要多少时间:即spark作业将数据加载到内存所需的时间，以及作业完成其执行所需的时间。有没有什么好的分析工具可以用来做这个。如果没有，我是否可以使用已有的spark UI/日志来获取此类信息。或者，如果有任何其他方法来获得这些数据。

浏览 0提问于2016-05-09得票数 0

1回答

与JDBC一起使用SparkSession.sql()

mysql、scala、apache-spark、jdbc

问题: .master("local") .getOrCreate() 配置:driver=com.mysql.jdbc.Driverpassword=xxxxxxxxxx[inf

浏览 2提问于2018-04-20得票数 0

回答已采纳

1回答

存储用户数据并使用Spark/hadoop对其进行分析的常见做法是什么？

mongodb、postgresql、hadoop、apache-spark

我已经习惯了一个Web开发人员，不熟悉大数据。我如何用火花来分析它？也可以直接从任何数据库(postgres/mongoDB/mysql/.)获取数据。我是否应该将网站数据库中的全部数据导出到HBase中？我将所有的用户都存储在postgreSQL中，将数据</

浏览 1提问于2015-02-08得票数 3

2回答

如何从主机接入MySQL* Docker镜像？*

mysql、docker

我正在运行MySQL Docker镜像并创建数据库和表。使用以下命令加载容器：Spark在我的主机上运行，所以我想将Spark中的数据写入容器中运行的数据库中。但是连接没有成功，我得到了

浏览 1提问于2019-12-11得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Apache中建立一对多的关系？

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

在不同数据库上使用SparkSQL处理查询

如何在过滤前将数据从数据库加载到Spark

在查询优化和总体效率方面，MySQL是否比Apache spark更高效

表或视图未被插入到mysql中，而该表或视图存在于Pyspark中。

将在SparkCLR中创建的DataFrames与zeppelin查询结合使用

使用python或hadoop进行数据分析？

电力BI服务无网关接入mysql

如何从Apache Spark on Analytics Engine读取和写入配置单元表

使用spark和HDFS作为文件存储系统，使用YARN作为资源管理器的优势是什么？

对CloudSql执行十亿行插入的吞吐量提高

星星之火:将大型MySQL表读入DataFrame失败

当使用Hive作为数据仓库时，对我的情况有什么好处？

使用spark创建新的MySQL表

我们能用卡桑德拉代替哈多普和星火吗？

如何分析spark应用程序以检查应用程序在每个阶段所花费的时间

与JDBC一起使用SparkSession.sql()

存储用户数据并使用Spark/hadoop对其进行分析的常见做法是什么？

如何从主机接入MySQL* Docker镜像？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐