腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
:
在对
列
的
子集
执行
估算
时
,
如何
保留
数据
帧
的
所有
列
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
data-wrangling
我正在尝试对我
的
数据
框架(df_data)中
的
列
的
子集
进行下面的
估算
,但在此过程中,我得到
的
数据
框架(imputeDF)只有
估算
的
列
。我希望
保留
所有
原始
列
,并重新添加
估算
的
列
(并删除原始
的
非
估算
的
列
)。推
浏览 8
提问于2021-02-03
得票数 0
回答已采纳
3
回答
Spark
SQL DataFrame - distinct() vs dropDuplicates()
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
在查看DataFrame应用程序接口
时
,我可以看到两种不同
的
方法
执行
相同
的
功能,用于从
数据
集中删除重复项。 我可以理解dropDuplicates(colNames)将只考虑
列
的
子集
来删除重复项。
浏览 0
提问于2016-02-27
得票数 22
1
回答
如何
通过变量对多个
数据
帧
进行
子集
?
r
、
dataframe
、
subset
、
imputation
我有一个名为"imps“
的
R
数据
集,其中包含多个已
估算
的
数据
集: 在每个
数据
框架中,都有一
列
(或变量)性别(其中gender=1或gender=0)。我试图弄清楚是否有一种方法可以让我重新定义"imps“,其中
的
所有
数据
帧
都只包含观察结果,这取决于gender=1还是gender=0。我理解
如何
做到这一点,如果我只选择其中一个
数据
浏览 2
提问于2021-03-29
得票数 2
回答已采纳
1
回答
从ORC文件创建外部配置单元表
的
方法
apache-spark
、
hive
、
orc
、
hive-serde
用于创建表
的
查询: create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件
的
模式详细信息(摘自DataFrame
Spark
-SQL)
浏览 28
提问于2020-04-30
得票数 0
3
回答
删除
spark
数据
帧
中重复
的
所有
记录
scala
、
apache-spark
、
duplicates
、
apache-spark-sql
、
spark-dataframe
我有一个包含多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复值
的
行(其他
列
可以是不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中
保留
一条记录。我需要
的
是删除
所有
最初包含重复条目的条目。我使用
的
是
Spark
1.6和Scala 2.1
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
从拼图文件中读取分区
数据
并将其写回,保持层次结构?
apache-spark
、
apache-spark-sql
我正在尝试找到从拼图文件中读取分区
数据
的
最佳方法,并将它们写回
Spark
中
的
层次结构。当我使用
spark
.read.parquet(inputPath)
时
,
Spark
从目录层次结构中读取
所有
分区,并将它们表示为
列
,但是当我写回该
数据
帧
时
,我丢失了
所有
层次结构。为了
保留
它们,我应该使用.write.partitionBy。这需要指定分区
列<
浏览 9
提问于2019-12-12
得票数 2
回答已采纳
2
回答
火花镶嵌地板隔断移除了隔断柱
apache-spark
、
pyspark
、
parquet
如果我使用
的
是df.write.partitionby(col1).parquet(path)。
如何
避免呢?
浏览 2
提问于2021-03-16
得票数 0
2
回答
对数值
列
的
子集
应用转换A,对使用管道、
列
变压器
的
所有
列
应用转换B
python
、
scikit-learn
我有几列(甚至有一
列
)我需要进行计算(我不想对
所有
列
进行
估算
)。我需要它们只在
列
的
子集
浏览 9
提问于2022-08-24
得票数 0
回答已采纳
1
回答
使用一个热编码和向量汇编器与向量索引器解决分类特征
scala
、
apache-spark
、
machine-learning
、
categorical-data
、
apache-spark-ml
假设我在
数据
帧
中有分类特征。为了在
数据
帧
上
执行
ML,我使用OneHotEncoderEstimator()对分类
列
进行了一次热编码,然后使用VectorAssembler()将
所有
特性组装到一个
列
中。在阅读
Spark
时
,我看到了
如何
使用VectorIndexer()在特征向量
列
中索引分类特征。如果我在形成特征向量
列
之前已经在分类列上
执行
了一次热
浏览 0
提问于2019-01-17
得票数 2
2
回答
通过计算具有整列
的
行
的
值,在
spark
数据
帧
中创建一
列
python
、
dataframe
、
apache-spark
、
pyspark
、
parallel-processing
我有一个
数据
框架: |id|value|| 1| 3| return [myValue + i for i in myColumn] 具备以下条件: |id|value| 0|
浏览 21
提问于2019-09-23
得票数 2
回答已采纳
1
回答
根据整数向量获取
数据
帧
的
子集
r
我有一个
数据
帧
,它有四
列
。现在我想根据一个整数向量获取这个
数据
帧
的
一个
子集
。我尝试使用
子集
,并查看其他帖子,但都是徒劳
的
。a d e2 q bt 23 24 s dt 25 46 u ft 27 6现在我想选择测试中
的
所有
行(也
保留
所有
列
),
浏览 0
提问于2014-03-02
得票数 0
1
回答
数据
帧
和
子集
数据
帧
之间
的
Cosine_similarity
python
、
dataframe
、
pyspark
、
scikit-learn
基本上,我有一个以电影为行
的
数据
帧
,一个
列
“标题”和一个
列
“汤”。最后一
列
以字符串
的
形式包含电影和合作者
的
概述。 我有一个包含电影
子集
的
第二个
数据
帧
。(因此“汤”也是完整DF
的
一个
子集
) 现在使用以下代码: from sklearn.feature_extraction.text import CountVectorizer from sklea
浏览 11
提问于2020-08-27
得票数 1
回答已采纳
3
回答
从依赖
的
pyspark dataframe中选择
列
时
,显示
的
行
的
顺序会发生变化
apache-spark
、
pyspark
、
apache-spark-sql
当我通过show显示dataframe
列
的
子集
时
,为什么显示
的
行
的
顺序不同? 这里
的
日期是给定
的
顺序,如您所见,通过show。现在,当我为新
数据
帧
选择predict_df by
列
选择方法
的
子集
时
,通过show显示
的
行
的
顺序发生了变化。
浏览 4
提问于2021-05-16
得票数 3
1
回答
按星火
数据
帧
所有
列
分组并计数
scala
、
apache-spark
、
group-by
、
apache-spark-sql
我希望使用
Spark
对
数据
帧
的
每一
列
执行
Group。Dataframe将有大约。1000
列
。val df = sqlContext .format("org.apa
浏览 0
提问于2019-08-12
得票数 1
回答已采纳
1
回答
缓存查询性能火花
apache-spark
、
apache-spark-sql
如果我试图缓存一个巨大
的
DataFrame (例如:100 to表),当我对缓存
的
DataFrame
执行
查询
时
,它会
执行
完整
的
表扫描吗?星星之火将
如何
索引
数据
。星火文件说:
Spark
可以通过调用
spark
.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中
的
列
格式来缓存表。然后,
Spark<
浏览 8
提问于2017-08-14
得票数 2
2
回答
查找两
列
之间是否存在精确映射
scala
、
apache-spark
我是
Spark
初学者,我正在尝试决定是否可以从
数据
帧
中抛出一
列
。假设我有这个
数据
帧
:---------- f y f y a b g x f
浏览 0
提问于2017-05-31
得票数 0
3
回答
使用大量
数据
集
时
,性能会非常慢
apache-spark
、
apache-spark-sql
我在HDFS中有一个小
的
拼图文件(7.67MB),用snappy压缩。该文件有1,300行和10500
列
,均为双精度值。当我从拼图文件创建一个
数据
框并
执行
一个简单
的
操作,如计数,它需要18秒。scala> val df =
spark
.read.format("parquet").load("/path/to/parquet/file") df: org.apache.
spark
.sq
浏览 4
提问于2018-09-12
得票数 2
1
回答
Pyspark load-csv不显示新文件
的
真实模式(仅显示“推断”模式)
pyspark
、
schema
、
databricks
、
partitioning
我正在尝试从一个分区文件夹中加载pyspark csv : mnt/data/test/ingestdatetime=20210208/test_20210208.csv df =
spark
.read.csv("mnt/data/test") df = df.filter(df['ingestdatetime'] == '20210208') 基本上,我想看看模式是否与它应该
的
不同(
数据
没有标头,所以我不能比较标头)
浏览 16
提问于2021-04-12
得票数 0
回答已采纳
1
回答
在r中将多个csv文件平均转换为1个平均文件
r
、
csv
、
merge
、
aggregate
我有大约300个csv文件
的
风速,温度,压力等,
列
和每一行是一个不同
的
时间从2007年到2012年。每个文件来自不同
的
位置。我想将
所有
文件合并成一个,即
所有
300个文件
的
平均值。因此,新文件
的
每个文件
的
行数和
列
数是相同
的
,但是每个单元格将是
所有
300个文件
的
对应平均值。有什么简单
的
方法吗?
浏览 2
提问于2015-04-22
得票数 2
回答已采纳
3
回答
带有条件值
的
数据
帧
的
r下标
r
、
dataframe
、
subscript
我有一个具有n
列
的
dataframe (df)和一个具有相同数量(n)值
的
向量。 矢量中
的
值是
数据
帧
中
列
中观测值
的
阈值。因此,线索是,
如何
告诉R对每一
列
使用不同
的
阈值?我希望在
数据
框中
保留
满足每
列
的
各种阈值
的
所有
观察值(在示例中,高于或低于该阈值都无关紧要)。不满足阈值标准
的
浏览 1
提问于2012-06-05
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
pandas系列学习(五):数据连接
如何管理Spark的分区
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文学会在Python中利用过滤器方法进行深度学习特征选择
这样做能让你的 pandas 循环加快 71803 倍
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券