腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2546)
视频
沙龙
1
回答
Spark
dataframe
筛选
器
最小值
(
列
)
失败
、
、
我正在使用hadoop 3.0.0和
spark
2.2.0中的以下scala代码处理数据帧。BAQ是ID
列
,AAA是日期YYMMDD的字符串列。| groupBy("BAQ").agg("AAA"->"min");d
浏览 34
提问于2021-04-08
得票数 0
回答已采纳
2
回答
从csv文件加载单列
、
我有一个包含大量
列
的csv文件。我只想使用
spark
从该文件中加载一
列
。 我知道我们可以使用SELECT语句来
筛选
列
。但我想要的是,在执行read操作本身时,它应该只加载一
列
。通过这种方式,我应该能够避免额外的内存被其他
列
使用。有没有办法做到这一点?
浏览 2
提问于2020-09-05
得票数 0
1
回答
错误:重载的可选方法值选择:
、
、
、
我正在
dataframe
1中读取CSV文件,然后在
dataframe
2中
筛选
一些
列
,在从
dataframe
1中选择
dataframe
2
列
时,我想将我的函数应用到
列
值上。5: error: overloaded method value select with alternatives: (col: String,cols: String*)org.apache.
spark
.sql.
DataFrame
<and
浏览 0
提问于2018-11-04
得票数 0
回答已采纳
1
回答
Pyspark :检查日期
列
中的值是否有效
、
、
、
我有一个从CSV文件导入的
spark
。在应用了一些操作(主要是删除
列
/行)之后,我尝试将新的
DataFrame
保存到Hadoop,这将显示一个错误消息: 有什么想法吗?PS:据我理解,
浏览 1
提问于2018-08-27
得票数 1
回答已采纳
1
回答
minBy等价于
Spark
、
、
我正在寻找minBy聚合在
Spark
中的等效功能,或者可能需要手动聚合。有什么想法吗?谢谢。
浏览 2
提问于2018-07-25
得票数 2
1
回答
在星火中,RDD和
Dataframe
有什么区别?
、
、
我想了解RDD、
dataframe
和数据集之间的区别。在这种情况下,当我从s3加载数据时,什么是RDD?感谢有人能解释RDD、
dataframe
和数据集之间的区别。
浏览 1
提问于2019-08-20
得票数 2
1
回答
基于Dask的拼图谓词下推过滤
、
在读取
DataFrame
时,如何应用基于Parquet min/max值的谓词下推
筛选
器
? 假设您有一个包含4个Parquet文件的数据池,每个文件都有nickname和age
列
。此表显示每个文件的Parquet文件名、年龄
最小值
和年龄最大值。您知道在执行此分析时可以跳过pets1.parquet、pets2.parquet和pets3.parquet,因为这些文件中的最大年龄小于
筛选
器
查询中的
最小值
。跳过文件可以使一些分析运行得更快。下面是
浏览 7
提问于2020-08-24
得票数 2
回答已采纳
1
回答
如何在
DataFrame
Spark
1.6中加载特定的Hive分区?
、
、
按照官方的,我们不能向
DataFrame
添加特定的单元分区
DataFrame
df = hiveContext.read如果给出如下所示的基路径,它不包含我希望在
DataFrame
中包含的实体
列
,如下所示-
DataFrame
df = hiveContext.read().format("orc").load("path/
浏览 3
提问于2016-01-07
得票数 7
回答已采纳
1
回答
不具有分区
列
性能的火花下推滤波
器
我有一个关于
spark
中的过滤的问题,当你不在过滤器中包括分区
列
时。数据有一个名为"action“的
列
,其中大约30%的数据值为0,其余的数据值为1
spark
.read.parquet("s3a://path").filter("action =0")
spark
是否必须列出并扫描位于"path“中的所有文件?或者
spark
仅在过滤器中存在分区
列
的情况下应用下推过滤器
浏览 2
提问于2020-08-02
得票数 0
1
回答
交叉连接的结果是“设备上没有空间”
、
、
实例类型: r4.2xlarge (8核,61 EBS,128 EBS) "<
浏览 14
提问于2022-08-02
得票数 0
1
回答
根据
Spark
DataFrame
列
的95%和5%值对其进行裁剪
、
、
、
我正在尝试使用PySpark &
Spark
2.2为我的模型制作一个自定义的变压
器
。 我想获取一个
DataFrame
,并基于
列
top 95%和5%创建一个饱和值(最大值和
最小值
)。(与中位数类似,但为0.95 & 0.05) 例如,我想要这个
DataFrame
: col_0 col_11 2 1295 96 10697
浏览 48
提问于2019-03-20
得票数 0
3
回答
从sqoop导入为拼图的表在
spark
中不起作用
、
、
我用Sqoop 1.4.5以拼图格式从mssql服务
器
导入了一个表。但是当我试图从
Spark
shell加载它时,它抛出了错误,如下所示:scala.collection.parallel.CompositeThrowableParquetMetadataConverter.java:520) parquet.hadoop.ParquetFileReader.readFooter(Par
浏览 2
提问于2015-04-15
得票数 0
1
回答
Spark
检查数据帧数组中的任何单词是否包含在另一个列表中?
、
我在
spark
.It中读取了一个json文件并将其转换为
dataframe
,其中有一个
列
skills,其中包含值的列表。现在,我想要过滤数据帧,以便
列
skills具有另一个列表的任何值。:skill= ["E", "B", "C", "D&
浏览 3
提问于2018-12-13
得票数 0
3
回答
如何过滤火花数据中的布尔字段?
、
、
我的数据框架中有三
列
。在这第二和第三是布尔字段。我想过滤掉那些是真的值。我尝试过这个nn.filter(col("col3")===true).show,但是它说无效的列名"true“。at org.apache.
spark
.rdd.RDD.iterator(RDD.scala:288) at org.apache.
spark
.rdd.RDD.iterator(R
浏览 1
提问于2019-05-26
得票数 2
回答已采纳
1
回答
如何获得集群的最小和最大值
、
、
我创建了一个scala程序,将k--方法应用于
dataframe
的特定
列
。
Dataframe
名称为df_items,列名为price。import org.apache.
spark
._import org.apache.
spark
.ml.clustering._import org.apache.
spark
.ml.feature.VectorAssembler val df_items =
浏览 1
提问于2019-01-31
得票数 0
回答已采纳
1
回答
如何在
spark
2.3中减少存储内存?
、
、
8 --executor-memory 32G ${dll_app_
spark
_options} --conf
spark
.kryoserializer.buffer.max=2047 --conf
spark
.driver.maxResultSize=4g --conf
spark
.shuffle.memoryFraction=0.7 --conf
spark
.yarn.driver.memoryOverhead=4096 --conf
spark
.sql.shuffle.partiti
浏览 16
提问于2020-11-03
得票数 0
2
回答
熊猫分级
列
的数据正则化过滤
、
、
、
、
请考虑以下数据:要对以]结尾的
列
进行
筛选
,可以使用: [mg]1 NaN接下来,考虑分层
列
dataframe
: df1 = pd.
DataFrame
(columns=pd.MultiIndex.from
浏览 6
提问于2021-05-19
得票数 1
回答已采纳
3
回答
使用RDD从CSV文件中过滤数据
、
我对
Spark
还不熟悉,并试图找出如何在具有多个条件的RDD中使用
筛选
器
,并获得records.Scenario的计数如下: 任何帮助都很感激。
浏览 1
提问于2018-10-12
得票数 0
回答已采纳
1
回答
UDF注册错误:不支持org.apache.
spark
.sql.Dataset[org.apache.
spark
.sql.Row]类型的架构
、
、
、
错误: org.apache.
spark
.sql.Datasetorg.apache.
spark
.sql.Row类型的架构不支持
spark
.udf.register("udfname",udf_name _) def udf_name(paramter1: String,Parameter2:String):
DataFrame
= { df("Col3")).filter(
浏览 2
提问于2017-03-28
得票数 0
1
回答
在DF上运行视图上的
Spark
查询吗?
、
我想问的是-我是否可以获得视图正在执行的查询,然后使用
spark
来执行查询?
浏览 5
提问于2017-09-07
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券