如何在Spark SQL中拆分一串数字并取其平均值？

、

我想使用Sqark SQL对其进行拆分并计算其平均值 "[0.0895298943, 0.0794019, 0.07463462, 0.0538841, 0.0266057681, 0.03875145, 0.0308785159]" 我知道如何拆分它，但我想将值更改为数字(浮点数)，并计算此序列的平均值。

浏览 50提问于2021-11-05得票数 2

2回答

R-创建一串引号

、、、

我有一个数字的向量，a <- 1:5，我想得到一个字符串，如：(一串字符串) 我想不出如何在R中简洁地做到这一点。我需要将其作为SQL语句的一部分传递；DB (Oracle)将这些“数字”存储为字符，从而实现这种转换。

浏览 0提问于2018-10-02得票数 0

回答已采纳

2回答

如何使用Python创建一个循环，计算每个timeseries子示例序列的平均值？

、、、、

如果拆分=3，则函数会将时间序列数据拆分为三分之二，并计算每个拆分的平均值。下面我创建的代码累计计算平均值。mn_range.append(result2) 假数据上的函数提供了以下结果列表：[5.4,3.0,5.4] 第一个数字用于I =1的拆分，这是整个示例。第二个数字是i= 2的第一个平均值，这是前5个

浏览 6提问于2019-11-12得票数 0

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrameO: pyspark.rdd.PipelinedRDD万分感谢

浏览 0提问于2016-06-22得票数 0

1回答

PySpark LSH approxSimilarityJoin花了太多时间

、、、、

db_matches.write.parquet(file_location)我有250 executors，这是我的星火配置：spark_config["spark.executor.memory"] = "32G" spark_config["spark.executor.memoryOverhead&q

浏览 11提问于2022-10-11得票数 0

5回答

带有分隔符的子字符串与Scala

、、

具体来说，我想从“)”这个数字的最后一个字符开始，忽略它并提取整数，直到我找到一个空格。那就休息吧。

浏览 1提问于2018-12-23得票数 0

回答已采纳

2回答

Spark SQL sql("<some aggregate query>").first().getDouble(0)得到的结果不一致

、、、

我有下面的查询，它应该找到列值的平均值，并返回给我一个单一数字的结果。05-09' and '2018-05-09'").first().getDouble(0)java.lang.NullPointerException: Value at index 0 in null at org.apache.spark.sql.Row$class.getAny

浏览 8提问于2018-05-10得票数 2

2回答

从VCF文件的信息字段获取所有密钥

这个问题与先前回答的- 按分隔符拆分Awk并接受第一个条目 -chr1 28374C T 0.0 PASS AFDPAOALLELEIDAOawk '{split($6,a,/;/); split(a[1],b,/=/); print b[1]}' file将获得所有AF条目(如预期的那样)，但我不确定如何提取其余的键。如何在</em

浏览 0提问于2023-02-20得票数 1

回答已采纳

1回答

如何使用Pyspark从mongodb中仅提取特定行？

、、、

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。下面是我的代码片段： .format("com.mongodb.spark.sql.DefaultSource")\ .option("uri","mongodb_url但我只想提取满足条件的文档(如sql查询中的where条件)。我发现的一种方法是读取d

浏览 1提问于2021-02-18得票数 0

3回答

R:将字符串拆分为数字，并将平均值作为数据帧中的新列返回。

、、、

我有一个大的数据框架，列是一个数字字符串，如"1，2，3，4“。我想增加一个新的栏，这是这些数字的平均数。4", "2, 4, 6, 8", "3, 6, 9, 12") df$a <- as.character(df$a) 现在，我可以使用str拆分来拆分字符串，并返回给定行的平均值，其中[1]指定了第一行。mean(as.numeric(s

浏览 3提问于2015-06-16得票数 4

回答已采纳

1回答

写入和读回时火花缺失列

、、

我正在创建一个数据集，并将其以目录结构( s3 )的形式写入${BasePath}/y=2107/m=11/d=16/中，${BasePath}/y=2107/m=11/d=16/格式为parquet格式我能做到这有两种方法，dataset.write.mode(SaveMode.Overwrite)", "false") sp

浏览 1提问于2017-11-16得票数 0

1回答

将Sparklyr的<dbl [2]>结果拆分为spark对象

、、

我在拆分Sparklyr生成的随机森林的结果时遇到了问题。生成的预测对象如下所示：Database: spark10019161 <dbl [2]> 1# ... with 3.744

浏览 0提问于2017-03-30得票数 2

1回答

如何在Spark中表示十六进制文字？

、

我是Spark的新手。我搜索了并搜索了答案，但没有找到明显的答案。|1 row in set (0.00 sec)1 row selected (0.047 seconds)> select 0+0xffff; Error: org.apache.spark.sql</em

浏览 5提问于2017-05-24得票数 3

回答已采纳

1回答

在Spark中聚合大型数据集

、、、、

实际上，people是由$"personId"划分并缓存的-- people.repartition($"personId").cache()。有什么办法优化这个计算吗？

浏览 0提问于2018-04-20得票数 5

回答已采纳

3回答

斯卡拉星火中的Encoder[Row]

、、

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。

浏览 5提问于2016-09-30得票数 2

3回答

将文件(Txt)拆分为C中的双数组

、

如何在C中将文件拆分成两个双数组。我有X和Y位置，保存在文件txt中，如：3 7 Y 4 实际上，我有找到"Y“行位置的代码，但我不知道如何在"Y”之后保存数字。} printf("dont find");我的第二个问题是如何将X和保存数字留给"Y“，我有tabX和tabY来

浏览 4提问于2014-11-12得票数 0

回答已采纳

1回答

如何使用pom.xml和Hive为maven创建SparkSql？

、、、、

我为SparkSql和Hive连接创建了一个Maven项目，并编写了以下示例代码： .builder()", "thrift://localhost:9083") .getOrCreate(); spark.sql但是，当我移动到更大的集群，如AWS，我需要运

浏览 2提问于2017-03-04得票数 1

回答已采纳

1回答

写入HDFS时Apache spark中的任务数

、

val c1c8 = spark.read.option("header",true).csv("/user/DEEPAK_TEST/C1C6_NEW/") val c1c8new = { c1c8.

浏览 5提问于2021-07-21得票数 0

回答已采纳

4回答

如何在逗号(，)处拆分字符串，但忽略双引号(“，")中的逗号

、、、、

Miss Elisabeth Walton",29.0000,"Southampton","St Louis, MO","B-5","24160 L221","2","female" at scala.collection.Iterator$$anon$11.next(Iterator.scala:409) a

浏览 0提问于2017-05-22得票数 0

2回答

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

我使用的是Spark SQL 2.2.0。在执行查询时，如： from TB1 group by COL1").explain() Spark要好得多(在我的例子中快了两倍)。然而，与仅仅比较两个值相比，收集一组不同的值、对其进行排序并最终获取第一个值需要更多的内存和更多的CPU资源(正如MIN应该做的那样)。如何在</

浏览 32提问于2017-12-11得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R-创建一串引号

如何使用Python创建一个循环，计算每个timeseries子示例序列的平均值？

使用map函数将Spark Dataframe转换为RDD

PySpark LSH approxSimilarityJoin花了太多时间

带有分隔符的子字符串与Scala

Spark SQL sql("<some aggregate query>").first().getDouble(0)得到的结果不一致

从VCF文件的信息字段获取所有密钥

如何使用Pyspark从mongodb中仅提取特定行？

R:将字符串拆分为数字，并将平均值作为数据帧中的新列返回。

写入和读回时火花缺失列

将Sparklyr的<dbl [2]>结果拆分为spark对象

如何在Spark中表示十六进制文字？

在Spark中聚合大型数据集

斯卡拉星火中的Encoder[Row]

将文件(Txt)拆分为C中的双数组

如何使用pom.xml和Hive为maven创建SparkSql？

写入HDFS时Apache spark中的任务数

如何在逗号(，)处拆分字符串，但忽略双引号(“，")中的逗号

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐