如何在自定义Spark数据源中更新“写入的字节”计数？ - 腾讯云开发者社区

、

我是Spark Streaming和Azure Databricks的新手。我读了很多关于spark如何工作和处理数据等的文章，但是旧数据呢？如果spark在交互式数据上工作，那么我的2周或2个月前的数据Spark可以保存吗？或者假设我必须在转换后移动数据，我应该移动到哪里并清除spark内存？它将只存储在SSD中吗？

浏览 2提问于2018-03-30得票数 0

4回答

如何在Spark sql中访问HIVE ACID表？

、、、

如何在Spark sql中访问HIVE ACID表？

浏览 2提问于2018-11-08得票数 1

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

、、

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

2回答

我可以在表创建后立即读取它，但是如何在另一个spark会话中再次读取它呢？给定代码： spark = SparkSession \ .builder \ .getOrCreate() df = spark.read.parquet("examples/src/main/resources/users.parquet") (df .write .saveAsTable("people_partitioned_bucketed")) # retrieve rows from table as expected spark.sql("

浏览 0提问于2018-01-24得票数 5

2回答

更新cassandra行触发cassandra

、

我正在使用spark 1.2和spark cassandra连接器1.2.3，我正在尝试更新表的一些行：示例： CREATE TABLE myTable ( a text, b text, c text, date timestamp, d text, e text static, f text static, PRIMARY KEY ((a, b, c), date, d) ) WITH CLUSTERING ORDER BY (date ASC, d ASC) val interactions = sc.cassandraTable[(String, String,

浏览 0提问于2015-09-28得票数 0

1回答

显示Spark+Parquet程序中读取的字节数

、、

我正试图通过利用分区和下推来优化一些Spark查询和一个Parquet模式。我的理解是，这些技术允许跳过大部分的拼图文件。有没有办法显示Spark读取的字节数与Parquet文件的总大小之间的关系？另外，读操作的数量是多少？(我使用的是S3，因此我希望最小化由于S3应用程序接口调用的开销而导致的读取操作的数量。)

浏览 0提问于2019-03-14得票数 0

2回答

测量sql server索引对写入的影响

、

我有一个很大的表，它既是大量读取的，也是大量写入的(实际上只是追加)。我想了解一下索引是如何影响写速度的，理想情况下是更新它们所用的时间(vs.插入所用的时间)，但除此之外，我还想了解一下专门用于索引维护的资源。这是不是存在于sqlserver/profiler中的某个地方？谢谢。

浏览 0提问于2011-10-18得票数 1

回答已采纳

1回答

加载到拼板时将时间戳转换为UTC

、、、、

我正在通过火花加载数据到地板上。 dataFrame.write.parquet(path) 我的数据有一个时间戳列，当我写到拼图时，它实际上是将时间戳转换为UTC时区，然后存储。实际时间 UTC时间我看到火花conf被设置为UTC时区。spark.sql.session.timeZone有任何方法来关闭这个转换吗？我想按原样加载时间戳，而不将其转换为任何其他时区。我该怎么做？

浏览 4提问于2020-12-10得票数 2

1回答

当使用spark.read.format的数据直接jdbc驱动程序(greenplum.jar)读取格林梅表时，如何在greenplum.jar中指定数据源？

、、

我试着用火花从一张关于绿梅的桌子上读取数据。我编写的代码如下： val yearDF = spark.read.format("io.pivotal.greenplum.spark.GreenplumRelationProvider").option("url", connectionUrl) .option("server.port","5432") .option("dbtable", "tablename") .option("dbschema",&

浏览 1提问于2019-01-12得票数 0

1回答

在spark/scala中加载csv文件的有效方法

、、、

我正试图从spark加载scala中的csv文件。我看到我们可以使用以下两种不同的语法： sqlContext.read.format("csv").options(option).load(path) sqlContext.read.options(option).csv(path) 这两者之间有什么区别，哪一个能提供更好的性能？谢谢

浏览 2提问于2017-06-13得票数 1

回答已采纳

2回答

Spark中的快速镶木地板行数

、

拼图文件包含每个块的行计数字段。Spark似乎会在某个时候读到它()。我在spark-shell里试过了 sqlContext.read.load("x.parquet").count Spark运行了两个阶段，显示了DAG中的各种聚合步骤。我认为这意味着它正常地读取文件，而不是使用行数。(我可能错了。) 问题是:当我运行count时，Spark是否已经在使用行数字段了？是否有其他API可以使用这些字段？出于某种原因，依赖这些字段是不是一个坏主意？

浏览 1提问于2016-11-16得票数 13

4回答

如何创建自定义流数据源？

、

我有一个自定义的火花流读取器，它从WebSocket读取数据。我要试一试星火结构的流媒体。如何在Spark结构化流中创建流数据源？

浏览 13提问于2017-12-02得票数 14

回答已采纳

1回答

PySpark如何在SparkSql和Dataframes中使用泡菜

、、、

我试图了解PySpark是如何为RDDs使用泡菜的，并避免对SparkSql和Dataframes使用泡菜。这个问题的基础是slide#30 in link.I，我在下面引用它以供参考： "PySpark RDDs通常是腌制对象的RDDs。Spark (和DataFrames)可以避免其中的一些内容“。 Spark中如何使用泡菜？

浏览 6提问于2017-06-25得票数 1

回答已采纳

2回答

如何编写基于FileFormat的spark自定义数据源

、

我看到spark avro数据源是基于FileFormat接口实现的。有没有关于如何编写基于FileFormat的spark自定义数据源的文档？到目前为止，我找不到任何东西(除了spark avro的源代码)。谢谢!

浏览 0提问于2017-08-09得票数 7

1回答

将转换的DataFrame保存/导出回JDBC / MySQL

、、

我试图弄清楚如何使用新的DataFrameWriter将数据写回JDBC数据库。我似乎找不到这方面的任何文档，尽管看一下源代码，它似乎是可能的。下面是我正在尝试的一个简单的例子： sqlContext.read.format("jdbc").options(Map( "url" -> "jdbc:mysql://localhost/foo", "dbtable" -> "foo.bar") ).select("some_column", "another_column

浏览 0提问于2015-09-16得票数 7

1回答

利用Apache火花数据

、、、、

如果这个问题看起来有点天真的话，我很抱歉。目前，我正在阅读关于Kafka & Spark的教程，有些事情我无法理解:如何利用/公开收到的数据。以下是我想要理解的：许多事件<=>卡夫卡经纪人<=>火花接收器<=>地图/减少/转换/聚合/学习<=>存储?？<=>访问由最终用户？我了解工作流的左边部分，您有一些事件流，由代理分发，然后由星火接收者使用。我读过很多来自Spark的特性，它可以使用内存中的存储(也可以被持久化或缓存)将RDDs转换成其他RDD(基本上)。但是后来呢？我没有一个特定的用例，但想象一下我想：-保存

浏览 0提问于2017-02-16得票数 2

回答已采纳

3回答

为什么不单独使用spark-streaming

、、、

我没有太多使用Kafka/ Spark-Streaming的经验，但我读过很多关于组合在为分析/仪表板构建实时系统方面有多棒的文章。有人能给我解释一下为什么spark-streaming不能单独完成吗？换句话说，为什么Kafka在数据源和spark-streaming之间？谢谢

浏览 1提问于2016-01-11得票数 1

1回答

我们可以在除Hive表之外的任何其他数据库表上使用spark.sql吗？

、、、、

目前，我们的数据库托管在其他数据库中。我们正在考虑使用JDBC连接器在SPARK中执行流程。是否可以在连接数据源之后使用SPARK.SQL语句，还是必须加载数据才能使用spark.sql查询？

浏览 3提问于2022-08-11得票数 -1

1回答

运行中的Spark Cassandra连接器:如果Cassandra托管在不同的服务器上，它是如何工作的

、、、

场景: Cassandra托管在服务器a.b.c.d上，而spark运行在服务器上，比如w.x.y.z。假设我想转换来自cassandra表(比如表)的数据，并使用Spark将相同的数据重写到cassandra中的其他表(比如tableNew)，我编写的代码如下所示 val conf = new SparkConf(true) .set("spark.cassandra.connection.host", "a.b.c.d") .set("spark.cassandra.auth.username", "

浏览 26提问于2019-07-09得票数 1

回答已采纳

1回答

如何激发SQL access数据库？

、

假设您使用spark访问一个SQL数据库。使用RDD火花将数据划分为多个不同的部分，这些部分共同构成数据集。我的问题是Spark如何管理从N个节点到数据库的这种访问。我可以看到几种可能性： RDD的每个节点访问数据库并构建它们的部分。它的优点是节点不会被迫分配大量内存，但是数据库将不得不承受N个可能很大的连接。单个节点访问数据，并根据需要将数据发送到其他N1节点。问题是，这个单一节点需要拥有所有的数据，这在许多情况下是行不通的。可能可以通过按块获取数据来缓解这种情况。 JDBC包使用池连接来避免一次又一次的连接。但这并不能解决这个问题。将有什么参考来解释spark如何管理

浏览 2提问于2020-03-06得票数 1

回答已采纳

1回答

如何保存由星火-df-剖析生成的html报告？

、、、

我正在使用火花-df-分析包来生成蓝色数据库中的分析报告。但是，to_file函数在ProfileReport中生成一个html文件，我无法在蔚蓝blob上编写该文件。已试过：具有容器和存储帐户名称的wasb路径创建空html文件，上传到blob上，并使用url编写为上面创建的空文件生成sas令牌，并给出该url profile = spark_df_profiling.ProfileReport(df) profile.to_file(paths in already tried) 我想将输出保存在提供的路径上

浏览 0提问于2019-08-07得票数 1

回答已采纳

3回答

如何在pyspark中找到数据帧的大小

、

如何复制此代码以获取pyspark中的数据帧大小？ scala> val df = spark.range(10) scala> print(spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats) Statistics(sizeInBytes=80.0 B, hints=none) 我想要做的是将sizeInBytes值放入一个变量中。

浏览 0提问于2020-06-03得票数 2

1回答

Input和Shuffle Read的区别是什么

、、

我正在寻找一个优化spark.shuffle.partitions的公式，偶然发现了这个，它提到了spark.sql.shuffle.partitions = quotient (shuffle stage input size/target size)/total cores) * total cores 当我看着我工作的各个阶段时，我看到了input和Shuffle read (下面的屏幕截图)。它们之间的区别是什么？这里的shuffle stage输入大小实际上是指Input吗？

浏览 0提问于2021-01-30得票数 1

1回答

为什么斯派克应用程序以"ClassNotFoundException: FailtFindDataSource: jdbc“作为uber与sbt程序集一起失败？

、、、、

我试图使用sbt 1.0.4和sbt-程序集0.14.6来组装一个Spark应用程序。星火应用程序在IntelliJ IDEA或spark-submit中启动时运行良好，但如果我使用命令行(在Windows 10中运行cmd)运行组装的uber-jar： java -Xmx1024m -jar my-app.jar 我得到以下例外：线程“主”java.lang.ClassNotFoundException中的异常:未能找到数据源: jdbc。请在找到包裹星火应用程序如下所示。 package spark.main import java.util.Properties

浏览 1提问于2017-12-21得票数 4

回答已采纳

1回答

文件创建/打开对st_mtime和st_atime的影响

、

当我使用O_CREAT标志在UNIX中创建或打开文件时，文件的st_mtime、st_ctime和st_atime会发生更改。但是，当我使用O_TRUNC标志创建或打开文件时，只有st_mtime和st_ctime更改，而不是st_atime。据我理解，当文件被访问时，st_atime会发生变化。当我们使用O_TRUNC标志打开或创建一个文件时，我们不是在访问该文件吗？

浏览 2提问于2011-04-12得票数 4

1回答

流式传输是否适用于事务性数据用例？

、、、、

我使用spark-sql-2.4.1v，kafka和Cassandra。我有一个场景，我将获得不同的跨国数据，其中可能包括更新记录……我需要用添加的字段的值来更新之前已经收到的记录。这可以使用spark-streaming，kakfa和Cassandra来实现吗？如果是这样，我应该如何继续？有线索请告诉我。如果不是，我还需要在我的技术堆栈中添加什么？谢谢。

浏览 13提问于2019-09-09得票数 0

1回答

Spark中的惰性评估。Spark如何从DB加载数据

假设我们设置了100的限制，并且Spark应用程序连接到数据库与百万records.Does Spark加载所有百万记录或加载100 x 100？

浏览 0提问于2017-07-05得票数 2

2回答

星火如何处理涉及JDBC数据源的故障场景？

、、、

我正在编写一个与Spark的JDBC数据源实现有相似之处的数据源，我想问一下Spark是如何处理某些故障场景的。据我所知，如果执行者在运行任务时死亡，火花将激活执行者并尝试重新运行该任务。但是，这在数据完整性和Spark的JDBC (例如df.write.format("jdbc").option(...).save())的上下文中是如何实现的呢？在savePartition函数的中，我们看到Spark调用了从用户提供的数据库url/凭据生成的Java对象的提交和回滚函数(见下文)。但是，如果一个执行器在commit()完成后或rollback()调用之前就死了，那么Spar

浏览 1提问于2019-01-09得票数 5

回答已采纳

1回答

电子病历上的自定义数据源插件抛出java.lang.NoClassDefFoundError: scalaj/http/Http

、、、、

我正在使用位于此处的自定义数据源https://github.com/sourav-mazumder/Data-Science-Extensions/releases 当我在本地使用Dockerized Spark环境处理它时，它可以按预期工作。然而，当我在EMR上使用它时，我在这个问题标题中得到错误。以下是使用的EMR配置选项、Spark启动消息以及我运行它时的测试代码和结果。我不确定我还需要配置什么。 ? 配置为： [ { "configurations": [ { "classification":

浏览 24提问于2019-04-12得票数 2

回答已采纳

5回答

如何在spark-sql上运行更新查询

、、

我是spark.Is的新手，不管怎么说，我可以在spark-SQL中操作更新命令。我已经创建了一个hive表，我已经在其中操作了一些SQL语法查询，如insert、select、delete，但无法运行update命令。我已经在spark文档和网站上搜索过了。但是我没有在他们最近的Spark SQL列表中找到UPDATE Syntax。请帮帮我，我用的是spark 2.0 卡里安

浏览 27提问于2016-08-09得票数 2

1回答

如何在不加载数据的情况下使用Spark Scala创建与Oracle的连接？

、、、

有没有标准的Scala类/对象可以创建一个简单的与oracle数据库的连接(使用JDBC)，但不需要加载特定的表？我只想创建一个简单的连接，然后传递一些查询(创建/更新等)。最后关闭连接。我见过这样的代码： val jdbcDF = spark.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .option("dbtable", "schema.tablename") .option("user", &

浏览 0提问于2021-01-13得票数 3

2回答

使用Http连接上传文件并计算上传字节的百分比

、、

我想使用HttpConnection将文件上传到服务器。所以我想做一个GaugeField来表示上传作业的百分比。但我在OutputStream中能找到的只有.flush()，它会将整个输出流一次刷新到服务器上。因此，我无法计算在特定时间上传的字节数该怎么做呢？有什么想法吗？我使用了以下代码，但它在大多数情况下都会出错： while (position < length) { try { os.write(postDataBytes, position, length100);

浏览 0提问于2012-05-29得票数 3

1回答

如何将流DataFrame写入Spark结构化流中的多个接收器

、

我有一组SQL规则，需要在foreachBatch()内部的流数据中应用这些规则。应用这些规则之后，应该将结果/过滤后的数据写入多个目的地，如"delta“和"cosmos DB”。下面是我尝试过的:使用来自forEachBatch()方法的静态数据，我试图创建如下所示的临时视图。 df.writeStream .format("delta") .foreachBatch(writeToDelta _) .outputMode("update") .start() def upsertToDelta(microBatchOut

浏览 1提问于2020-12-18得票数 4

回答已采纳

1回答

Apache Spark SQL永远都在计算Cassandra中的数十亿行？

、、

我有以下代码我按如下方式调用spark-shell ./spark-shell --conf spark.cassandra.connection.host=170.99.99.134 --executor-memory 15G --executor-cores 12 --conf spark.cassandra.input.split.size_in_mb=67108864 代码 scala> val df = spark.sql("SELECT test from hello") // Billion rows in hello and test column is

浏览 0提问于2016-11-24得票数 1

1回答

在foreachPartition中执行Mysql查询spark运行缓慢

、

我想在spark中的foreachparition中执行mysql查询，并最终将所有查询结果放到一个数据帧中。看起来是这样的： var rowAccumulator: RowAccumulator = new RowAccumulator foreachPartition((p) => { val result = MysqlService.getData(query, p) rowAccumulator.add(result) }) 然后将rowAccumulator转换为数据帧。然而，它在加班时运行缓慢。例如，第一个查询花费130ms，第20个查询可能花费150000ms

浏览 52提问于2018-06-09得票数 0

1回答

使用http流估计上行比特率的方法

、

我正在写一个小的Java客户端应用程序，它使用http流将东西上传到远程服务器，我已经包含了一个进度条来为用户提供完成的估计。目前，该程序将一个小文件发送到远程服务器，并根据文件大小/总传输时间计算上行比特率。我想知道有没有更优雅的方法来做这件事？有什么想法/建议吗？谢谢

浏览 4提问于2010-10-18得票数 1

回答已采纳

1回答

Apache Spark Streaming :简单的接收器

、、、

有没有一种简单的方法可以将spark streaming连接到外部源，如Rest服务器、RSS流、RPC服务器等？

浏览 2提问于2015-07-03得票数 1

1回答

如何获取HTTP响应的大小？

、、

我想确定响应的大小。这是通过resp.ContentLength获取contentsize的简单方法。但是，Size是由服务器传递的响应头(通常是几百个字节)加上响应正文的组合大小。如何获取响应头的大小？或者有没有什么方法可以直接获得响应的大小？

浏览 0提问于2016-06-29得票数 4

1回答

Spark2.2.0版本中的OverWrite专用分区

、、

在Spark中，我希望覆盖特定的分区，而不是所有的分区。我正在尝试以下命令： spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic") df.write \ .mode("overwrite") \ .format("csv") \ .partitionBy("partition_date", "hour") \ .save("/user/test/test/output/") 这与2.4

浏览 15提问于2022-11-29得票数 0

1回答

使用Pyspark在s3中写入拼图文件时出错

、、、、

我正在尝试读取一些表(拼接文件)，做一些连接，并在S3中将它们写成拼接格式，但我得到了一个错误或花了几个多小时来写表。错误： An error was encountered: Invalid status code '400' from https://.... with error payload: {"msg":"requirement failed: session isn't active."} 除了那张桌子之外，我还能写出其他的表格作为拼花。这是我的示例代码： from pyspark.sql import

浏览 0提问于2020-07-10得票数 0

1回答

关于数据包追踪器中的Netflow收集器

Netflow收集器如何在数据包跟踪器中工作，分析计数器字节和计数器数据包等不同的参数

浏览 0提问于2016-01-10得票数 2

1回答

如何在单个spark作业中接收不同的spark数据帧

、、、、

我想用spark编写一个ETL管道来处理不同的输入源，但是使用尽可能少的计算资源，并且使用‘传统的’spark ETL方法会有问题。我有许多流数据源需要持久化到DeltaLake表中。每个数据源只是s3中的一个文件夹，里面有avro文件。每个数据源都有不同的模式。每个数据源都应该持久化到它自己的DeltaLake表中。除了avro ->增量之外，只需要很少的转换，只需要通过从filename派生的一些额外字段进行丰富。新文件的添加速度适中，从每分钟一次到一天一次不等，具体取决于数据源。当新数据登陆时，我有一个kafka通知，描述了什么类型的数据和s3文件路径。假设有两个数据源-A和B

浏览 11提问于2020-05-05得票数 1

回答已采纳

2回答

重复存储和更新字节，而不使用智能卡的EEPROM

我想管理一个单字节计数器，它在每次向智能卡发送特定命令时都会增加。此计数器将始终在达到255后重置为0。由于EEPROM写的太多，是否有其他方法来管理这个计数器，而不用最终戴上卡片？在不使用EEPROM的情况下，是否可以计算/存储这个计数器？

浏览 0提问于2014-12-29得票数 0

回答已采纳

2回答

详细阐述为什么洗牌写入数据要比在apache spark中输入数据多得多。

、、

谁能给我详细说明一下火花用户界面中的输入、输出、读和写的具体内容？另外，有人能解释一下，这份工作的输入是25%~30%的洗牌写作吗？根据我的理解，洗牌写入是不能保存在内存中的临时数据和在聚合或还原过程中需要发送到其他执行程序的数据的总和。代码如下： hiveContext.sql("SELECT * FROM TABLE_NAME PARTITION_KEY = 'PARTITION_VALUE'") .rdd .map{case (行:行) =>((row.getString(0)，row.getString(12))，(

浏览 3提问于2016-03-29得票数 10

1回答

火花流rawSocketStream

、、、

我正在尝试火花流和监听套接字，我正在使用rawSocketStream方法创建一个接收器和一个DStream。但是，当我打印DStream时，我会得到以下异常。创建DStream的代码： JavaSparkContext jsc = new JavaSparkContext("Master", "app"); JavaStreamingContext jssc = new JavaStreamingContext(jsc, new Seconds(3)); JavaReceiverInputDStream<Object> rawStream = j

浏览 4提问于2016-04-02得票数 2

回答已采纳

1回答

对于同一外部表，Count(*)在spark.sql()和配置单元中给出不同的值

、、

我正在使用hive和spark开发一个AWS集群。前一天，当我在hive中的外部表上运行一些ETL pyspark脚本时，我遇到了一个奇怪的情况。我们有一个控制表，它有一个提取日期列。我们正在根据提取日期过滤来自临时表( hive中的托管表，但位置是s3存储桶)的数据，并将其加载到目标表，该目标表是包含位于s3存储桶中的数据的外部表。我们正在装入如下表格 spark.sql("INSERT OVERWRITE target_table select * from DF_made_from_stage_table") 现在，当我通过spark和直接配置单元CLI检查了目标表的

浏览 20提问于2019-04-28得票数 0

1回答

在纱线中运行时，Pyspark错误计数

、

我正在使用以下sparkContext设置执行jupyter笔记本：会话 spark = SparkSession.builder \ .master("yarn") \ .config("spark.executor.memory", "1g") \ .config("spark.executor.cores", "1") \ .config("spark.executor.instances", "1") \ .config("spark.sql.execution.a

浏览 2提问于2020-06-30得票数 0

2回答

星星之火:从http响应的结果读取sparkSession

、

有关火花的小问题，以及如何从http响应的结果中阅读。众所周知，星火库可以作为数据库的数据源，如CSV等。 sparkSession.read().format("csv").load("path/to/people.csv"); sparkSession.read().format("org.apache.spark.sql.cassandra").options(properties).load() 请问如何直接从http呼叫的结果中读出？而不必将数据转储回另一个中间csv /中间数据库表中。例如，csv和数据库将包含数百万行，一旦读

浏览 8提问于2021-09-10得票数 2

回答已采纳

1回答