Apache Spark是否从目标数据库加载整个数据？

、、、

我想使用Apache Spark并通过JDBC连接到Vertica。似乎Spark从目标服务器加载了所有数据。这是我的代码： .option(&

浏览 5提问于2017-02-16得票数 1

1回答

运行中的Spark Cassandra连接器:如果Cassandra托管在不同的服务器上，它是如何工作的

、、、

假设我想转换来自cassandra表(比如表)的数据，并使用Spark将相同的数据重写到cassandra中的其他表(比如tableNew)，我编写的代码如下所示 val conf = new SparkConf("org.apache.spark.sql.cassandra").options(Map( "table" -> "<table>", "keyspace" -> "<Key

浏览 26提问于2019-07-09得票数 1

回答已采纳

1回答

三角洲湖:如何在内部工作？

、、

在我们的数据管道中，我们从数据源中摄取CDC事件，并将这些更改写入AVRO格式的“增量数据”文件夹中。然后定期运行Spark作业，将这些“增量数据”与当前版本的“快照表”(ORC格式)合并，以获得上游快照的最新版本。1)将“增量数据”加载为DataFrame df1。2)将当前的“快照表”加载为DataFrame df2 3)合并df1和df2，取消复制ids，并使用最新版本的行(使用update_timesta

浏览 1提问于2019-12-25得票数 4

回答已采纳

2回答

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

、

Spark Thrift服务器试图在通过JDBC传输之前将完整的数据集加载到内存中，在JDBC客户端上，我收到错误： org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serializedresults of 48 tasks (XX GB) is bigg

浏览 9提问于2018-11-01得票数 0

2回答

如何将数据从hortonworks hive导出到cassandra？

、、、、

我想将数据从hortonworks hive导出到Cassandra，有没有一种方法可以不使用ETL工具将数据从Horton works Hive导出到datastax Cassandra？

浏览 3提问于2016-03-23得票数 0

6回答

星火箱类-十进制型编码器错误“不能从十进制转换”。

、、

我从MySQL/MariaDB中提取数据，在创建Dataset期间，数据类型发生错误线程"main“org.apache.spark.sql.AnalysisException中的异常:不能从十进制(30，6)到十进制(38，18)，因为它可能截断目标对象的类型路径是：- AMOUNT (类："org.apache.spark.sql.types.Decimal"，名称：”org.apache</em

浏览 16提问于2016-12-03得票数 13

回答已采纳

1回答

Apache Spark:如何在spark应用程序中加载数据？

我是apache spark的新手。有没有人可以给我介绍一个例子，解释在集群模式下运行的spark应用程序是如何加载数据的。准确地说，当您启动负责从DB加载数据的应用程序(它有数百万条记录)时，是先在驱动程序中加载整个数据，还是将函数实际传递给executor，以便在每个executor中划分和加载数据？

浏览 19提问于2019-03-10得票数 1

回答已采纳

1回答

如何在数据库中不加载表数据的情况下获得模式？

、、、、

我正在开发Databricks，我使用spark来进行laod，并将数据发布到SQL数据库。我需要完成的任务之一是获取数据库表的架构，从而查看每一列的数据类型。到目前为止，我能够做到这一点的唯一方法是加载整个表，然后提取模式。df_tableA = spark.read.format("jdbc") \ .optio

浏览 3提问于2022-04-11得票数 0

回答已采纳

1回答

允许Cerner加载FHIR R4 (ukcore)的依赖项是什么？

、、、

有谁知道Cerner库()是否会加载FHIR R4包并将数据持久化以激发sql数据库？如果有人能给我指点或指点，那就太好了。目前，我只是尝试从加载一个捆绑的示例。最终目标是将传入的Bundles持久化到一个由Apache集群访问的蜂巢数据库中。-- Spark dependencies --> <groupId>org.<

浏览 3提问于2020-08-29得票数 1

回答已采纳

1回答

读取scala星星之火时如何从excel文件中的超链接中提取urls

、、、、

我有一个带有列A的文件，其中包含以下超链接：我可以使用com.crealytics.spark.excel库在scala中加载Excel文件，但只能使用不包含url的“视图链接”文本import org.apache.spark.sql.types.builder()

浏览 5提问于2022-04-26得票数 0

1回答

通过另一列的值初始化列表

出于迁移的目的，我需要将“数据”的值复制到一个新列：data_list (list<text>)。如何通过data_list列中的值初始化data列？

浏览 2提问于2021-06-13得票数 1

回答已采纳

1回答

是否有可能使用基础格式的数据库精确地实现一次语义？

、、、、

在流处理应用程序中(例如，基于Apache Flink或Apache Spark流)，有时必须只处理一次数据。在数据库世界中，可以通过使用遵循ACID标准的数据库来实现相同的目标(如果我错了，请纠正我)。然而，有很多(非关系型)数据库不遵循ACID，而遵循BASE。现在我的问题是:如果我要将这样一个基础数据库集成到流处理应用程序中(恰好一次)，我还能保证整个流水线只处理一次吗？如果这是可能的，在什么情况下？

浏览 28提问于2021-04-26得票数 0

1回答

当连接到Phoenix查询服务器时，Spark* dataframe仅返回结构*

、、

我通过phoenix (4.11) queryserver从Spark 2.2.0连接到hbase (1.2版)，但数据帧返回了唯一的表结构，其中包含空行，尽管表中存在数据。4.11.0-HBase-1.2-thin-client.jar<br>prop.setProperty("driver", "org.apache.phoenix.queryserver.client.Driver&q

浏览 0提问于2017-10-13得票数 1

1回答

如何使用Pyspark从mongodb中仅提取特定行？

、、、

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。下面是我的代码片段： .format("com.mongodb.spark.sql.DefaultSource")\df2 = df.f

浏览 1提问于2021-02-18得票数 0

1回答

如何将数据推送到phoenix is块

、、、

我正在尝试将数据从spark推送到phoenix。数据的大小超过100万。spark作业在10万条记录的情况下运行良好，但当记录数超过100万条时就会卡住。我正在从hive加载数据 val hive_data = spark.sql(query) 把它推向凤凰城 hive_data.write.format("org.apache.phoenix.sparkoptions(collection.immuta

浏览 26提问于2021-06-26得票数 0

1回答

如何将elasticsearch与apache火花流或风暴连接起来？

、、、

我们正在用开源工具构建一个实时的大数据工具。我们的主要目标是通过实时从kafka服务器获取日志来监控和分析网络。我们在教程中看到，我们必须将我们的工具分成两个部分:分析和监督，如下所示。尽管Apache是一个真正的实时数据处理工具，比Apache流更快，但它并不提供像Apache这样的机器学习库。这就是为什么我们正在考虑选择Apache火花。弹性网站表明，它存在一个连接器ES-Hadoop来连接Elasticsearch数据库</em

浏览 6提问于2016-07-08得票数 3

回答已采纳

1回答

跨集群分布分区

、、、、

在apache spark中，允许从许多不同的源加载数据集。根据我的理解，spark集群的计算节点可以不同于hadoop用来存储数据的节点(对吗？)更重要的是，我们甚至可以加载本地文件到spark作业中。主要问题来了:即使我们在hdfs和spark上使用相同的计算机，在创建RDD的过程中，spark是否总是会对所有数据进行混洗？或者spark只是

浏览 0提问于2018-05-08得票数 0

2回答

如何在Map[String，Dataframe]中存储多个dataframe，并使用map的key访问每个dataframe

、

我有多个数据帧需要将它们存储在MapString中，数据帧数据结构。下一步，我们的目标是访问它们以进行连接操作。Map.empty[String,DataFrame] map_DFs += ("Addresses" -> addresses_df) 我正在尝试加载这些数据帧[_],joinExprs: org.apache.spark

浏览 27提问于2019-08-27得票数 0

2回答

从AWS (MySQL)加载表时是否可以强制进行模式定义？

、、、

我使用Apache从MySQL数据库读取AWS 中的数据。是否可以在加载表时强制执行模式定义？

浏览 3提问于2017-02-27得票数 3

回答已采纳

1回答

java.sql.SQLException:从Apache连接到Oracle数据库时未识别的SQL类型-102

、、、、

我正在尝试将远程Oracle数据库表加载到上。./spark-shell --driver-class-path ../jars/ojdbc6.jar --jars ../jars/ojdbc6.jar --master local 我得到一个Scala提示符，在这里我尝试加载一个Oracle数据库表，如下所示。org.apache.spark.sql.execution.datasource

浏览 3提问于2019-06-16得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

运行中的Spark Cassandra连接器:如果Cassandra托管在不同的服务器上，它是如何工作的

三角洲湖:如何在内部工作？

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

如何将数据从hortonworks hive导出到cassandra？

星火箱类-十进制型编码器错误“不能从十进制转换”。

Apache Spark:如何在spark应用程序中加载数据？

如何在数据库中不加载表数据的情况下获得模式？

允许Cerner加载FHIR R4 (ukcore)的依赖项是什么？

读取scala星星之火时如何从excel文件中的超链接中提取urls

通过另一列的值初始化列表

是否有可能使用基础格式的数据库精确地实现一次语义？

当连接到Phoenix查询服务器时，Spark* dataframe仅返回结构*

如何使用Pyspark从mongodb中仅提取特定行？

如何将数据推送到phoenix is块

如何将elasticsearch与apache火花流或风暴连接起来？

跨集群分布分区

如何在Map[String，Dataframe]中存储多个dataframe，并使用map的key访问每个dataframe

从AWS (MySQL)加载表时是否可以强制进行模式定义？

java.sql.SQLException:从Apache连接到Oracle数据库时未识别的SQL类型-102

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐