腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何
从
spark
java
数据
集中
删除
某些
记录
?
、
、
有没有什么具体的方法可以
从
Apache
Spark
上的
数据
集中
删除
记录
?或者,有什么替代方案可以实现它吗?
浏览 40
提问于2017-01-31
得票数 0
回答已采纳
1
回答
Java
Spark
删除
重复项/空值并保留顺序
、
我有下面的
Java
Spark
数据
集/dataframe。 Col_1 Col_2 Col_3 ...A 1 1B 2 2C 1 NULL 这个
数据
集中
有将近25列,我必须
删除
那些在Col_1上重复的
记录
。如果第二个
记录
为NULL,则必须
删除
NULL (如COl_1 = A),如果有多个有效值(如Col_1 =B
浏览 17
提问于2020-11-25
得票数 0
回答已采纳
1
回答
火花DataFrame处理损坏
记录
、
、
在
spark
中,
如何
处理损坏的
记录
?实际上,我正在寻找损坏的
记录
应该持久化到另一个文件,以供以后审查。模式- DROPMALFORMED选项将从
数据
集中
删除
损坏的
记录
。会有帮助的。
浏览 0
提问于2018-11-20
得票数 0
0
回答
如何
修复抛出
java
.lang.ArrayIndexOutOfBoundsException的
spark
unsafe.types.UTF8String.numBytesForFirstByte?
、
、
当我使用sparkSql接口
从
HDFS读取
数据
时,一些任务抛出了
java
.lang.ArrayIndexOutOfBoundsException。我认为可能是
数据
集中
有一些不好的
记录
,导致任务失败。我怎样才能得到坏的
记录
?或者,当我使用
spark
接口加载
数据
以使应用程序成功时,我
如何
忽略坏
记录
?:617) at
java
.lang.Thread.run(Thread.<em
浏览 2
提问于2017-06-18
得票数 1
2
回答
火花
数据
集非持久化行为
、
我的应用程序中有一个处理一个大
数据
集的管道--伪代码:data.join(df1, "key") //etc, more transformations将从存储所有
数据
集中
删除
,也
从
extension
数据
集中
删除
,该
数据
集不是我试图取消持久化的
数据
集。
如何
通过unpersist在旧<e
浏览 2
提问于2018-01-17
得票数 15
回答已采纳
1
回答
使用
spark
或scala
删除
包含十亿条
记录
的表中的
记录
、
、
、
我们在Azure
数据
仓库中有一个包含170亿条
记录
的表。现在我们有了一个场景,我们必须根据
某些
where条件从这个表中
删除
记录
。我们正在Azure Databricks notebooks中用Scala语言编写
Spark
。我们在
Spark
中搜索了不同的选项,但都建议首先读取整个表,
删除
其中的
记录
,然后覆盖Data Warehosue中的整个表。然而,这种方法在我们的例子中不起作用,因为我们的表中有大量的
记录
。你能建议
浏览 2
提问于2019-07-31
得票数 0
1
回答
筛选火花
数据
集
、
、
在火花会议上 .builder() .config("
spark
.some.config.option", "some-value")
从
数据
集中
val
浏览 4
提问于2022-07-21
得票数 2
回答已采纳
3
回答
星星之火:
数据
集序列化
、
、
、
如果我有一个
数据
集,其中的每个
记录
都是一个case类,那么我将该
数据
集持久化如下所示,以便使用序列化:
Spark
是否使用
java
/kyro序列化来序列化
数据
集?或者就像dataframe一样,
Spark
有自己的方式将
数据
存储在
数据
集中
?
浏览 4
提问于2017-12-26
得票数 5
2
回答
使用
Spark
处理比群集更大的
数据
集
、
、
、
我在由5个节点组成的
Spark
2.3集群上,每个节点都有12 of的可用内存,我正在尝试使用大约130 of的Parquet
数据
集,在此之上我创建了一个分区的外部Hive表。假设我想知道
数据
集中
的
记录
数量。我最初的猜测是,
Spark
将按分区读取
数据
分区,聚合当前分区以获取
记录
计数,将结果传递给驱动程序,然后
删除
该分区以读取下一个分区。然而,要么这不是它的工作方式(而是,
Spark
试图首先读取内存中的所有内容),要么我
浏览 0
提问于2018-12-05
得票数 0
回答已采纳
2
回答
从
Access导出到Excel
、
、
、
我想在Access中导出一个
记录
集中
的
某些
数据
到Excel。关于命令或
如何
从
记录
集中
获取这些列名有什么建议吗?
浏览 1
提问于2011-07-13
得票数 1
回答已采纳
1
回答
从
数据
集中
识别
某些
记录
、
、
、
使用所收到的帮助,我有如下所示的
数据
集: 我需要能够识别第2行,在第2行中,TotalWeeks列已经达到或超过了23周,所以我可以返回正确的ToDate值。为了获得该
数据
集,我使用了如下查询: idcol , ToDate , Weeks ORDER BY 但是,我
如
浏览 2
提问于2016-06-17
得票数 0
3
回答
如何
删除
与FireDAC
数据
集中
某个值匹配的所有
记录
?
、
我有一个通常的while not EOF do循环,它从内存表中
删除
某些
记录
。
删除
最后一条
记录
不会像预期的那样向EOF发出信号。Not mtCt.Eof do if mtCtAmt.Value = 0.0 then elseend;
如何
删除
与FireDAC
数据
集中
某个值匹配的所有
记录
?
浏览 5
提问于2016-03-01
得票数 1
回答已采纳
2
回答
将文件读取并附加到
spark
数据
文件中
如何
仅为所有其他文件选择第一个文件中的列?= SparkSession.builder.\ files=glob.glob(fpath +'*.sas7bdat')
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
2
回答
如何
从
数据
集中
删除
某些
列?
、
、
我有一个包含文本文件(txt-格式)的大型
数据
集。文本文件包含这种格式的
数据
:Name, Number, Timestamp... , Sensordata40现在我需要从每一行中
删除
数字和时间戳e){//Catch exception if
浏览 3
提问于2016-06-29
得票数 0
回答已采纳
1
回答
Pyspark错误:要求失败:列必须是numeric类型,但实际上是字符串错误类型
、
我尝试将pandas
数据
帧转换为PySpark格式 StructField("rating", FloatType())movielens =
spark
.createDataFramenullable = true) |-- userId: integer (nullable = tru
浏览 1
提问于2021-06-12
得票数 0
1
回答
Spark
JDBC关系
数据
库取数优化
、
a)与传统的
java
JDBC调用相比,
Spark
有没有一种方法可以优化
从
关系
数据
库获取
数据
。b)
如何
在运行
Spark
查询时减少
数据
库的负载,因为我们将为所有查询直接命中生产
数据
库。假设
Spark
报告案例的生产中有3000万条订单
记录
和1.5亿条订单行
记录
。
浏览 2
提问于2015-08-18
得票数 2
1
回答
SparkSession.catalog.clearCache()可以
从
hdfs中
删除
数据
吗?
、
、
、
我遇到了一些
数据
删除
问题,因为我们已经
从
CDH迁移到HDP (
spark
2.2到2.3)。这些表是
从
hdfs位置读取的,在运行读取和处理这些表的火花作业一定时间之后,它会抛出表而不是找到异常,并且当我们检查该位置时,所有
记录
都消失了。在读取表之前我看到的
spark
(
Java
)代码中,调用了clearCache()。它能
删除
那些文件吗?如果是的话,我该怎么解决呢?
浏览 7
提问于2020-08-18
得票数 0
1
回答
从
数据
集中
删除
记录
?
我想知道
如何
从
dataset中
删除
定义它们的列中有超过5个null值的
记录
,我认为可以用以下代码实现这一点,但我没有得到应该得到的结果: cols_borrar <- which(colMeans(is.na
浏览 0
提问于2022-03-02
得票数 0
2
回答
使用
java
获取Apache中的单一列值作为平面列表。
、
、
我刚接触过
Java
和,并试图找出
如何
从
spark
中的
数据
集中
作为一个平面列表来获取单个列的值。
如何
使用
java
在
spark
中实现这一点?
浏览 3
提问于2020-04-06
得票数 0
回答已采纳
2
回答
你能把一个数组从子表传递到表单中吗?
、
提示用户选择保存相关
数据
的字段。 我必须要做的事情是提示在哪里找到
数据
。最初,我创建了一个简单的数组来
从
输入源捕获字段名,但是在
如何
将字段名输入到用户表单和组合框方面遇到了一个绊脚石。最后,我决定创建另一个临时表,而不是将字段名插入数组中,而是将它们保存到
记录
集中
,然后通过创建另一个
记录
集并查询该
记录
集,并从所选
记录
集中</
浏览 2
提问于2015-08-14
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券