Spark dataframe筛选器最小值(列)失败

文章/答案/技术大牛

发布

1回答

、、

我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列，AAA是日期YYMMDD的字符串列。| groupBy("BAQ").agg("AAA"->"min");d

浏览 34提问于2021-04-08得票数 0

回答已采纳

2回答

从csv文件加载单列

、

我有一个包含大量列的csv文件。我只想使用spark从该文件中加载一列。我知道我们可以使用SELECT语句来筛选列。但我想要的是，在执行read操作本身时，它应该只加载一列。通过这种方式，我应该能够避免额外的内存被其他列使用。有没有办法做到这一点？

浏览 2提问于2020-09-05得票数 0

1回答

我正在dataframe1中读取CSV文件，然后在dataframe2中筛选一些列，在从dataframe1中选择dataframe2列时，我想将我的函数应用到列值上。5: error: overloaded method value select with alternatives: (col: String,cols: String*)org.apache.spark.sql.DataFrame<and

浏览 0提问于2018-11-04得票数 0

回答已采纳

1回答

Pyspark :检查日期列中的值是否有效

、、、

我有一个从CSV文件导入的spark。在应用了一些操作(主要是删除列/行)之后，我尝试将新的DataFrame保存到Hadoop，这将显示一个错误消息：有什么想法吗？PS:据我理解，

浏览 1提问于2018-08-27得票数 1

回答已采纳

1回答

minBy等价于Spark

、、

我正在寻找minBy聚合在Spark中的等效功能，或者可能需要手动聚合。有什么想法吗？谢谢。

浏览 2提问于2018-07-25得票数 2

1回答

在星火中，RDD和Dataframe有什么区别？

、、

我想了解RDD、dataframe和数据集之间的区别。在这种情况下，当我从s3加载数据时，什么是RDD？感谢有人能解释RDD、dataframe和数据集之间的区别。

浏览 1提问于2019-08-20得票数 2

1回答

基于Dask的拼图谓词下推过滤

、

在读取DataFrame时，如何应用基于Parquet min/max值的谓词下推筛选器？假设您有一个包含4个Parquet文件的数据池，每个文件都有nickname和age列。此表显示每个文件的Parquet文件名、年龄最小值和年龄最大值。您知道在执行此分析时可以跳过pets1.parquet、pets2.parquet和pets3.parquet，因为这些文件中的最大年龄小于筛选器查询中的最小值。跳过文件可以使一些分析运行得更快。下面是

浏览 7提问于2020-08-24得票数 2

回答已采纳

1回答

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

、、

按照官方的，我们不能向DataFrame添加特定的单元分区DataFrame df = hiveContext.read如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read().format("orc").load("path/

浏览 3提问于2016-01-07得票数 7

回答已采纳

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet("s3a://path").filter("action =0") spark是否必须列出并扫描位于"path“中的所有文件？或者spark仅在过滤器中存在分区列的情况下应用下推过滤器

浏览 2提问于2020-08-02得票数 0

1回答

交叉连接的结果是“设备上没有空间”

、、

实例类型: r4.2xlarge (8核，61 EBS，128 EBS) "<

浏览 14提问于2022-08-02得票数 0

1回答

根据Spark* DataFrame列的95%和5%值对其进行裁剪*

、、、

我正在尝试使用PySpark &Spark2.2为我的模型制作一个自定义的变压器。我想获取一个DataFrame，并基于列top 95%和5%创建一个饱和值(最大值和最小值)。(与中位数类似，但为0.95 & 0.05) 例如，我想要这个DataFrame： col_0 col_11 2 1295 96 10697

浏览 48提问于2019-03-20得票数 0

3回答

从sqoop导入为拼图的表在spark中不起作用

、、

我用Sqoop 1.4.5以拼图格式从mssql服务器导入了一个表。但是当我试图从Spark shell加载它时，它抛出了错误，如下所示：scala.collection.parallel.CompositeThrowableParquetMetadataConverter.java:520) parquet.hadoop.ParquetFileReader.readFooter(Par

浏览 2提问于2015-04-15得票数 0

1回答

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？

、

我在spark.It中读取了一个json文件并将其转换为dataframe，其中有一个列skills，其中包含值的列表。现在，我想要过滤数据帧，以便列skills具有另一个列表的任何值。：skill= ["E", "B", "C", "D&

浏览 3提问于2018-12-13得票数 0

3回答

如何过滤火花数据中的布尔字段？

、、

我的数据框架中有三列。在这第二和第三是布尔字段。我想过滤掉那些是真的值。我尝试过这个nn.filter(col("col3")===true).show，但是它说无效的列名"true“。at org.apache.spark.rdd.RDD.iterator(RDD.scala:288) at org.apache.spark.rdd.RDD.iterator(R

浏览 1提问于2019-05-26得票数 2

回答已采纳

1回答

如何获得集群的最小和最大值

、、

我创建了一个scala程序，将k--方法应用于dataframe的特定列。Dataframe名称为df_items，列名为price。import org.apache.spark._import org.apache.spark.ml.clustering._import org.apache.spark.ml.feature.VectorAssembler val df_items =

浏览 1提问于2019-01-31得票数 0

回答已采纳

1回答

如何在spark* 2.3中减少存储内存？*

、、

8 --executor-memory 32G ${dll_app_spark_options} --conf spark.kryoserializer.buffer.max=2047 --confspark.driver.maxResultSize=4g --conf spark.shuffle.memoryFraction=0.7 --conf spark.yarn.driver.memoryOverhead=4096 --conf spark.sql.shuffle.partiti

浏览 16提问于2020-11-03得票数 0

2回答

熊猫分级列的数据正则化过滤

、、、、

请考虑以下数据：要对以]结尾的列进行筛选，可以使用： [mg]1 NaN接下来，考虑分层列dataframe： df1 = pd.DataFrame(columns=pd.MultiIndex.from

浏览 6提问于2021-05-19得票数 1

回答已采纳

3回答

使用RDD从CSV文件中过滤数据

、

我对Spark还不熟悉，并试图找出如何在具有多个条件的RDD中使用筛选器，并获得records.Scenario的计数如下：任何帮助都很感激。

浏览 1提问于2018-10-12得票数 0

回答已采纳

1回答

UDF注册错误:不支持org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]类型的架构

、、、

错误: org.apache.spark.sql.Datasetorg.apache.spark.sql.Row类型的架构不支持spark.udf.register("udfname",udf_name _) def udf_name(paramter1: String,Parameter2:String): DataFrame = { df("Col3")).filter(

浏览 2提问于2017-03-28得票数 0

1回答

在DF上运行视图上的Spark查询吗？

、

我想问的是-我是否可以获得视图正在执行的查询，然后使用spark来执行查询？

浏览 5提问于2017-09-07得票数 2

点击加载更多