Spark:在对列的子集执行估算时，如何保留数据帧的所有列？_如何在对行执行映射操作后保留Spark Dataframe的列结构_中的两列应用函数时，如何保留pandas数据帧的其他列 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql、data-wrangling

我正在尝试对我的数据框架(df_data)中的列的子集进行下面的估算，但在此过程中，我得到的数据框架(imputeDF)只有估算的列。我希望保留所有原始列，并重新添加估算的列(并删除原始的非估算的列)。推

浏览 8提问于2021-02-03得票数 0

回答已采纳

3回答

Spark SQL DataFrame - distinct() vs dropDuplicates()

scala、apache-spark、pyspark、apache-spark-sql

在查看DataFrame应用程序接口时，我可以看到两种不同的方法执行相同的功能，用于从数据集中删除重复项。我可以理解dropDuplicates(colNames)将只考虑列的子集来删除重复项。

浏览 0提问于2016-02-27得票数 22

1回答

如何通过变量对多个数据帧进行子集？

r、dataframe、subset、imputation

我有一个名为"imps“的R数据集，其中包含多个已估算的数据集：在每个数据框架中，都有一列(或变量)性别(其中gender=1或gender=0)。我试图弄清楚是否有一种方法可以让我重新定义"imps“，其中的所有数据帧都只包含观察结果，这取决于gender=1还是gender=0。我理解如何做到这一点，如果我只选择其中一个数据

浏览 2提问于2021-03-29得票数 2

回答已采纳

1回答

从ORC文件创建外部配置单元表的方法

apache-spark、hive、orc、hive-serde

用于创建表的查询： create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件的模式详细信息(摘自DataFrame Spark-SQL)

浏览 28提问于2020-04-30得票数 0

3回答

删除spark数据帧中重复的所有记录

scala、apache-spark、duplicates、apache-spark-sql、spark-dataframe

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.1

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

从拼图文件中读取分区数据并将其写回，保持层次结构？

apache-spark、apache-spark-sql

我正在尝试找到从拼图文件中读取分区数据的最佳方法，并将它们写回Spark中的层次结构。当我使用spark.read.parquet(inputPath)时，Spark从目录层次结构中读取所有分区，并将它们表示为列，但是当我写回该数据帧时，我丢失了所有层次结构。为了保留它们，我应该使用.write.partitionBy。这需要指定分区列<

浏览 9提问于2019-12-12得票数 2

回答已采纳

2回答

火花镶嵌地板隔断移除了隔断柱

apache-spark、pyspark、parquet

如果我使用的是df.write.partitionby(col1).parquet(path)。如何避免呢？

浏览 2提问于2021-03-16得票数 0

2回答

对数值列的子集应用转换A，对使用管道、列变压器的所有列应用转换B

python、scikit-learn

我有几列(甚至有一列)我需要进行计算(我不想对所有列进行估算)。我需要它们只在列的子集

浏览 9提问于2022-08-24得票数 0

回答已采纳

1回答

使用一个热编码和向量汇编器与向量索引器解决分类特征

scala、apache-spark、machine-learning、categorical-data、apache-spark-ml

假设我在数据帧中有分类特征。为了在数据帧上执行ML，我使用OneHotEncoderEstimator()对分类列进行了一次热编码，然后使用VectorAssembler()将所有特性组装到一个列中。在阅读Spark 时，我看到了如何使用VectorIndexer()在特征向量列中索引分类特征。如果我在形成特征向量列之前已经在分类列上执行了一次热

浏览 0提问于2019-01-17得票数 2

2回答

通过计算具有整列的行的值，在spark数据帧中创建一列

python、dataframe、apache-spark、pyspark、parallel-processing

我有一个数据框架： |id|value|| 1| 3| return [myValue + i for i in myColumn] 具备以下条件： |id|value| 0|

浏览 21提问于2019-09-23得票数 2

回答已采纳

1回答

根据整数向量获取数据帧的子集

我有一个数据帧，它有四列。现在我想根据一个整数向量获取这个数据帧的一个子集。我尝试使用子集，并查看其他帖子，但都是徒劳的。a d e2 q bt 23 24 s dt 25 46 u ft 27 6现在我想选择测试中的所有行(也保留所有列)，

浏览 0提问于2014-03-02得票数 0

1回答

数据帧和子集数据帧之间的Cosine_similarity

python、dataframe、pyspark、scikit-learn

基本上，我有一个以电影为行的数据帧，一个列“标题”和一个列“汤”。最后一列以字符串的形式包含电影和合作者的概述。我有一个包含电影子集的第二个数据帧。(因此“汤”也是完整DF的一个子集) 现在使用以下代码： from sklearn.feature_extraction.text import CountVectorizer from sklea

浏览 11提问于2020-08-27得票数 1

回答已采纳

3回答

从依赖的pyspark dataframe中选择列时，显示的行的顺序会发生变化

apache-spark、pyspark、apache-spark-sql

当我通过show显示dataframe列的子集时，为什么显示的行的顺序不同？这里的日期是给定的顺序，如您所见，通过show。现在，当我为新数据帧选择predict_df by列选择方法的子集时，通过show显示的行的顺序发生了变化。

浏览 4提问于2021-05-16得票数 3

1回答

按星火数据帧所有列分组并计数

scala、apache-spark、group-by、apache-spark-sql

我希望使用Spark对数据帧的每一列执行Group。Dataframe将有大约。1000列。val df = sqlContext .format("org.apa

浏览 0提问于2019-08-12得票数 1

回答已采纳

1回答

缓存查询性能火花

apache-spark、apache-spark-sql

如果我试图缓存一个巨大的DataFrame (例如:100 to表)，当我对缓存的DataFrame执行查询时，它会执行完整的表扫描吗？星星之火将如何索引数据。星火文件说： Spark可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后，Spark<

浏览 8提问于2017-08-14得票数 2

2回答

查找两列之间是否存在精确映射

scala、apache-spark

我是Spark初学者，我正在尝试决定是否可以从数据帧中抛出一列。假设我有这个数据帧：---------- f y f y a b g x f

浏览 0提问于2017-05-31得票数 0

3回答

使用大量数据集时，性能会非常慢

apache-spark、apache-spark-sql

我在HDFS中有一个小的拼图文件(7.67MB)，用snappy压缩。该文件有1,300行和10500列，均为双精度值。当我从拼图文件创建一个数据框并执行一个简单的操作，如计数，它需要18秒。scala> val df = spark.read.format("parquet").load("/path/to/parquet/file") df: org.apache.spark.sq

浏览 4提问于2018-09-12得票数 2

1回答

Pyspark load-csv不显示新文件的真实模式(仅显示“推断”模式)

pyspark、schema、databricks、partitioning

我正在尝试从一个分区文件夹中加载pyspark csv : mnt/data/test/ingestdatetime=20210208/test_20210208.csv df = spark.read.csv("mnt/data/test") df = df.filter(df['ingestdatetime'] == '20210208') 基本上，我想看看模式是否与它应该的不同(数据没有标头，所以我不能比较标头)

浏览 16提问于2021-04-12得票数 0

回答已采纳

1回答

在r中将多个csv文件平均转换为1个平均文件

r、csv、merge、aggregate

我有大约300个csv文件的风速，温度，压力等，列和每一行是一个不同的时间从2007年到2012年。每个文件来自不同的位置。我想将所有文件合并成一个，即所有300个文件的平均值。因此，新文件的每个文件的行数和列数是相同的，但是每个单元格将是所有300个文件的对应平均值。有什么简单的方法吗？

浏览 2提问于2015-04-22得票数 2

回答已采纳

3回答

带有条件值的数据帧的r下标

r、dataframe、subscript

我有一个具有n列的dataframe (df)和一个具有相同数量(n)值的向量。矢量中的值是数据帧中列中观测值的阈值。因此，线索是，如何告诉R对每一列使用不同的阈值？我希望在数据框中保留满足每列的各种阈值的所有观察值(在示例中，高于或低于该阈值都无关紧要)。不满足阈值标准的

浏览 1提问于2012-06-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云