腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
monotonically_increasing_id
()
为
所有
分区
提供
连续
的
ids
、
、
我在
Spark
中有一个数据帧df,它看起来像这样: val df = (1 to 10).toList.toDF() 当我检查
分区
的
数量时,我看到有10个
分区
: df.rdd.getNumPartitions|| 5| 4|| 7| 6|| 9| 8|+-----+---+ 所以
所有
生成
的
ids
都是
连续
的
,
浏览 105
提问于2021-04-22
得票数 1
2
回答
从Python列表中向PySpark DataFrame添加一个新列
、
、
、
我有一份清单:我试图将它添加到
的
数据文件长度相同(没有问题)。
浏览 13
提问于2019-11-13
得票数 4
回答已采纳
1
回答
Spark
-读取单个CSV文件,处理结果并将结果写入单个CSV文件,同时保持原始行顺序
、
我想从
Spark
读取一个CSV文件(小于50MB),并执行一些连接和过滤操作。CSV文件中
的
行按某些条件排序(在本例中
为
Score)。我希望将结果保存在单个CSV文件中,其中保留了原始行
的
顺序。输入CSV文件: Id, Score3, 997, 95 在执行一些联接和筛选操作后: val data =
spark
.read.option("header", "true预期输出: Id, Score6, 98 (ID 3和7被过滤掉
浏览 77
提问于2020-10-05
得票数 0
回答已采纳
1
回答
使用从现有数据帧中选择
的
某些行集形成新
的
spark
数据帧
、
、
、
、
我有一个具有10^8行数
的
spark
数据帧df。我已经在该数据帧上添加了一列,作为rowId,我希望将其用作主键。我使用下面的命令做了同样
的
事情现在,我想从该数据帧中选择一个新
的
数据帧,其中包含一些选定
的
行数,我已经知道这些行
的
索引是以列表
的
形式存在
的
。如果有人能帮助我用列表中选定
的
行数形成
浏览 0
提问于2017-10-28
得票数 0
1
回答
如何在pySpark数据仓库中添加行id
、
、
、
我有一个csv文件;我将该文件转换为DataFrame(df);经过一些转换;我希望在df中添加一个列;它应该是简单
的
行id (从0或1开始到N)。我将生成
的
rdd转换回df。这种方法可以工作,但是它产生了250 k任务,执行起来花费了很多时间。我想知道是否有其他方法可以减少运行时。下面是我
的
代码片段;我正在处理
的
csv文件很大;包含数十亿行。
浏览 16
提问于2015-08-19
得票数 28
1
回答
从1重置
monotonically_increasing_id
、
、
、
但是我发现函数
monotonically_increasing_id
仍然会从原始数据中定义行号。rowid for the two subframesset2= splits[1].withColumn("rowid",
monotonically_increasing_id
()) set1.select("row
浏览 12
提问于2017-09-11
得票数 0
回答已采纳
2
回答
如何在不遇到OOM
的
情况下在Apache
Spark
中进行总排序?
、
、
我需要我
的
数据帧有一个等级id,基于分数,一个简单
的
row_number() over ()(按分数排序),因为rank_id给了我一个OOM,因为
所有
数据都收集到一台机器上。例如:
monotonically_increasing_id
()也不会产生我想要
的
东西,因为我需要
连续
的
等级
ids
。同
浏览 0
提问于2020-03-21
得票数 0
1
回答
如何为PySpark数据框添加具有唯一row_id
的
列,该数据框从前面运行
的
代码中
的
最大值( row_id ) +1开始row_id
、
、
我使用下面的代码创建了一个具有唯一row_id
的
新列,但是每次运行代码时,row_id都是从0开始
的
。我希望row_id从上一次代码运行
的
最高row_id开始。new_raw_df = raw_df.withColumn("id",
monotonically_increasing_id
浏览 0
提问于2020-01-09
得票数 0
2
回答
如何将运行中
的
Id新列添加到星火数据帧(吡火花)
、
、
2017 11:00 031/01/2017 13:00 231/01/2017 15:00 11并希望添加一个新
的
Id列--只是一个这样
的
运行编号:+----------------+---+---------++---------------01-31 13:00| 2| 4| |2017-01-31
浏览 5
提问于2017-02-13
得票数 2
回答已采纳
2
回答
如何为现有表生成行号作为列?
、
、
、
我希望将行号(row_num)创建
为
MySql中现有表
的
列,通过
spark
并行读取数据库(即
分区
列,因为表中
的
所有
列都是字符串)。(ParseDriver.scala:197)at org.apache.
spark
.sql.execution.SparkSqlParser.pars
浏览 8
提问于2017-10-16
得票数 0
回答已采纳
2
回答
将行索引添加到pyspark (添加新列/并排连接数据格式)
、
、
关于
的
描述,它说: "
monotonically_increasing_id
() -返回单调增加
的
64位整数。生成
的
ID保证是单调增加
的
,唯一
的
,但不是
连续
的
。当前
的
实现将
分区
ID放在上31位,下33位表示每个
分区
内
的
记录数。假设数据帧有不到10亿个
分区
,每个
分区
的
记录少于80亿条。该函数不确定,因为它
的</e
浏览 0
提问于2019-03-26
得票数 0
2
回答
如何将数据按批次保存在“火花”中?
、
、
我试图使用以下代码将数据分割成块:id1 = 0df = df.withColumn('id_tmp', F.monotonically_increasing_id())while id1 < c: .mode('overwrit
浏览 7
提问于2022-02-06
得票数 1
1
回答
关于非确定性表达式
的
重新划分
、
、
我想写这样
的
代码:这段代码会因为重新
分区
中
的
非确定性表达式而破坏某些东西吗据我所知,这段代码将变成确定性
的
HashPartitioning。 提醒我
的
是,星火在应用RoundRobin
分区
之前在内部对
分区
进行排序,因为它
的
非确定性性质。动机:我希望我
的
DF被重组成更大
的</
浏览 9
提问于2022-10-28
得票数 0
回答已采纳
1
回答
PySpark添加Id列&筛选器已损坏
、
我已经
为
"index“添加了一个"id”列。from pyspark.sql.functions import
monotonically_increasing_id
我执行下面的代码,期望看到返回5行,其中id与计数
为
5
的
"indices“列表匹配。indices = [1000, 999, 45, 100
浏览 0
提问于2019-08-24
得票数 0
3
回答
我们可以为
Spark
中
的
行
提供
一个序列Id吗?
、
我是
spark
的
新手,我在数据文件中有大约10000行要读取 .builder()getOrCreate(); 我有一个向数据集中
的
每一行添加行号
的
用例,行号应该从1到10000开始(因为文件有1
浏览 2
提问于2020-05-28
得票数 0
3
回答
在scala中从CSV文件加载时,我需要从dataframe跳过三行
、
、
我正在将我
的
CSV文件加载到一个数据框架中,我可以这样做,但是我需要跳过文件中开始
的
三行。 .schema(Myschema) .option("delimiter替代思想:跳过数据框架中
的
这3行 请帮我处理这个。提前谢谢。
浏览 0
提问于2019-05-28
得票数 3
回答已采纳
3
回答
火花累加器值不递增
、
、
、
、
最近我一直在研究星火数据集,我有一个场景,必须
为
每一行生成行号,并将其存储在一个名为“
Ids
”
的
列中。并根据数据集中
的
行数递增。, Finance , abcJoe, Marketing , xyzname , dept , project ,
Ids
Tina, Finan
浏览 0
提问于2019-03-16
得票数 1
回答已采纳
2
回答
如何删除dataframe Scala/sSark中
的
前几行?
、
这是我
的
输入:|value|| 1|| 3|| 4|-------+---
浏览 0
提问于2017-07-26
得票数 4
2
回答
GroupBy搞乱了顺序,我得到了不正确
的
结果
、
因为有许多不同
的
app_
ids
和国家。--每个advertiser_
ids
和country_code
的
列表。不正确(我得到
的
)|app_id|country_code|recommended_advertiser_
ids
更新:我通过恢复到我
的
原始代码来修复它。那么问题是如何从排名中选出最高
的
n(每个组
的
topN)?
浏览 2
提问于2020-07-26
得票数 0
回答已采纳
4
回答
Apache
Spark
的
主键
、
、
、
我有一个与Apache
Spark
和PostgreSQL
的
JDBC连接,我想将一些数据插入到我
的
数据库中。当我使用append模式时,我需要为每个DataFrame.Row指定id。有没有办法让
Spark
创建主键?
浏览 2
提问于2015-10-13
得票数 33
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
尚学堂笔记:大数据Spark有怎样的缓存机制
Structured Streaming实现超低延迟
如何管理Spark的分区
Spark关键性能考量
Spark地基之RDD
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券