spark 并行抽取mysql_基于mask ArcGIS的python并行抽取_Spark并行操作 - 腾讯云开发者社区

、、

我想用下面的方式写到DB上 df.write.format("jdbc").option("url", jdbc_url).option("driver", "com.mysql.jdbc.Driver

浏览 2提问于2020-09-16得票数 1

回答已采纳

1回答

Apache使SQL查询更快？

、、

来自对于长时间运行(即报告或BI)查询，它可以更快一些，因为Spark是一个大规模并行系统。MySQL每个查询只能使用一个CPU核心，而Spark可以在所有集群节点上使用所有核心。在下面的示例中，MySQL查询在Spark中执行，运行速度是MySQL数据的5-10倍(在相同的MySQL数据之上)。

浏览 5提问于2017-06-09得票数 1

回答已采纳

1回答

我利用Spark的JDBC功能如下：在DataFrame的整个生命周期中，不对其执行**。由于Spark的懒惰评估，coalesce减少了读取操作的并行性。DataFrameReader.jdbc(..numPartitions..)读取numPartitions=42，然后在编写之前将其读到6partition，那么它读取DataFrame时的并发性仅为6(只向MySQL我想重复一遍，之前它使用了<e

浏览 2提问于2018-04-18得票数 2

回答已采纳

2回答

在PySpark SQL中并行执行读写API调用

、、、、

我需要以Parquet格式将增量记录从MySQL中的一组表加载到Amazon格式。这些表在AWS MySQL托管实例中的几个数据库/模式中很常见。代码应该并行地从每个模式(其中有一组公共表)复制数据。def load_data_to_s3(databases_df): db_query_properties = config[

浏览 4提问于2020-08-15得票数 0

回答已采纳

1回答

使用Spark写入memsql的最佳实践

、、

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。长话短说: Spark scale如何写入memsql？

浏览 4提问于2016-01-15得票数 1

2回答

使用Spark SQL从SQL Server读取数据

、、

是否可以从Microsoft Sql Server (以及oracle、mysql等)读取数据Spark应用程序中的rdd？或者我们需要在内存中创建一个集合并将其并行化到RDD中？

浏览 1提问于2014-10-07得票数 10

回答已采纳

2回答

与sqoop相比，在jdbc方面，为什么slower比sqoop慢？

、、、

可以理解的是，当从oracle db迁移/加载到hdfs/parquet时，它更倾向于使用SQOOP，而不是使用JDBC驱动程序。请建议我应该做什么，以使火花更快的时候，从甲骨文加载数据。

浏览 4提问于2019-05-24得票数 4

回答已采纳

1回答

错误:使用Spark写入TiDB时，GC生存期短于事务持续时间

我正在使用Apache Spark批量写入数据。批次为1天。在运行spark作业时，我得到了这个错误。我正在使用MySQL java连接器连接到TiDB集群。Spark为写入创建了144个并行任务。(SQLError.java:1055) at com.mysql.jdbc.MysqlIO.checkErrorPacket(M

浏览 7提问于2018-11-13得票数 0

2回答

对dataframe的200万次查询

、

你认为Spark能更快地处理查询吗？最好的策略是什么？以下是我的想法：谢谢,

浏览 4提问于2020-07-13得票数 1

2回答

spark并行读取mysql数据

、、、

我正在尝试从mysql中读取数据，并将其写回s3中具有特定分区的parquet文件，如下所示： .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?write.parquet(path='s3n://parquet

浏览 3提问于2016-01-28得票数 10

1回答

PySpark & JDBC:我什么时候应该在JDBC中使用should？

、、、

我有一个HDFS数据湖，可以通过Hive和Presto、Impala和Spark (集群中的)查询数据。谢谢!

浏览 3提问于2019-10-21得票数 1

回答已采纳

1回答

在spark中使用下推查询，如何在spark-HBASE (BIGSQL作为SQL引擎)中获得并行性？

、、、、

在Spark中，PushdownQuery由数据库的SQL引擎进行处理，并根据处理结果构造数据框架。因此，spark查询该查询的结果。- mysql中的另一个引用()中看到，下推查询中的并行性是通过基于参数numPartitions和partitionColumn触发多个查询来实现的。构建了4个查询；触发到DB，并根据这些查询的结果构造dataframe (在本例中，并行度为4)。(2.1版)+ hbase ( Query engine - BIGSQL)中使用这种方法实现并行性？它现在

浏览 6提问于2018-08-23得票数 0

回答已采纳

1回答

java.sql.SQLException:其他错误:在使用mysql-连接器-java5.1.6连接器连接到数据库时，请求过时

、、、、

在使用TIDB通过Spark连接到mysql-connector-java 5.1.6 connector时获取以下错误。请注意，我使用并行连接选项创建了jdbc连接，其中我们指定了列名、下限、上限和分区数。at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:956) at com.mysql.jdbc.MysqlIO.chec

浏览 2提问于2018-10-05得票数 0

回答已采纳

1回答

从单个数据源并行运行代码

、、

查看日志时，代码是按顺序执行的，而不是并行执行的。我在没有改变执行时间的情况下尝试了不同的#worker#core内存组合数量。在我看来，应该可以有n*m个并行执行，其中n是设备的数量，m是所有者的数量，因为数据在它们之间没有以任何方式连接。per device df_owner = df_analysis.where($"owner" === owner) spark.writeToMysql(df_owner) /&

浏览 18提问于2019-06-12得票数 0

2回答

Spark scheduler vs Spark Core？

、、、

我发现Apache Spark是为了教学目的，我对如何管理任务调度有点困惑。我发现Spark有3个调度选项: Spark Scheduler，YARN Scheduler和MESOS。但是我也读到Spark Core管理任务的调度。所以我想我没有明白这一点：如果Spark Core管理任务的调度，为什么我们还需要Spark Core下面的调度器？那么，这些任务并行执行意味着什么呢？这是指在多个工作者上并行，还是在同一个工作者上并行？

浏览 18提问于2020-12-19得票数 0

1回答

在Python中挖掘大型文件(1 GB+)文本的最佳方法是什么？

、

我想：分批？地图/缩减？哈杜奥普？使用数据库而不是Python？我不想要的是编写一个函数来找到一个模式，然后等待一个小时的处理(还有很多东西要写，更不用说等待响应了)。显然，常规的处理正常大小文件的方法在这里并不适用)。

浏览 1提问于2015-01-21得票数 0

1回答

如何使用PySpark向MySQL数据库流式传输数据？

、、、、

我做了一些研究，发现PySpark非常适合流式传输数据，我选择MySQL作为流式传输数据的数据库(但我对其他dbs和流式传输方法持开放态度)。Spark 说数据必须通过Kafka、Flume、TCP socets等源获取，所以我想知道是否必须使用这些方法中的任何一种来将我的CSV文件导入到Spark中。唯一让我对这个例子感到困惑的是，他们正在使用Spark Spark集群将数据流式传输到数据库中，而我不确定如何将所有这些都整合到flask服务器中。

浏览 1提问于2018-11-13得票数 1

3回答

独立模式下的火花并行

、、

基于，我计算火花配置如下：spark.executor.cores 3spark.executor.memory20g我在我的jupyter笔记本中创建了这样的spark上下文，并通过以下方法检查并行性级别默认的并行性是

浏览 8提问于2017-07-22得票数 7

回答已采纳

1回答

在spark-submit命令中设置default.parallelism

、、

在执行spark-submit作业时，更改默认并行度的语法是什么？在提交spark作业时，我可以通过以下命令指定executor、executor内核和executor内存的数量： spark-submit --num-executors 9 --executor-cores5 --executor-memory 48g 在conf文件中指定并行度为： spark.conf.set("spark.default.parallelism",90) 如果

浏览 41提问于2020-09-27得票数 0

回答已采纳

1回答