腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
基于
每个
分区
重新
索引
数据
帧
python
、
pyspark
、
apache-spark-sql
、
pyspark-sql
假设我有以下由pyspark创建的
数据
帧
id date deleted1 2019-02-04 false3 2019-02-08 false 3 2019-02-06 true 我想从最早的日期到现在(比如2019-02-09)每天
重新
索引
这个表,最早的日期
基于
每个
id (即2019-02-01)来处理最早的日期,然后为
每个
浏览 21
提问于2019-02-10
得票数 1
1
回答
转换后保留Spark
数据
帧
的
分区
数量
apache-spark
、
apache-spark-sql
、
partitioning
、
data-partitioning
我在代码中发现了一个bug,其中一个
数据
帧
被分割成比预期更多的
分区
(超过700个),当我试图将它们
重新
分区
到只有48个时,这会导致太多的随机操作。我不能在这里使用coalesce(),因为在进行
重新
分区
之前,我希望首先有更少的
分区
。 我正在寻找减少
分区
数量的方法。假设我有一个spark
数据
帧
(包含多个列)划分为10个
分区
。我需要
基于
其中一列进行orderBy转换。
浏览 2
提问于2017-09-13
得票数 1
1
回答
写入Parquet/Kafka:线程"dag-scheduler-event-loop“java.lang.OutOfMemoryError异常
scala
、
out-of-memory
、
spark-dataframe
、
apache-spark-mllib
、
cloudera-cdh
在将
数据
帧
写到parquet或kafka时,我总是会遇到这个问题。我的
数据
帧
有5000行。我的
数据
帧
总大小约为10 My,划分为12个
分区
。在写入之前,我尝试使用repartition()创建48个
分区
,但即使我在没有
重新
分区
的情况下写入,也会看到这个问题。
浏览 0
提问于2017-09-14
得票数 0
1
回答
如何
对齐两个dask
数据
帧
的
分区
python
、
dask
我有两个dask
数据
帧
,它们首先在pandas中被读取,在它们各自的"zo_id“列上建立
索引
,然后转换成具有4个
分区
的dask
数据
帧
: drivetimes = pd.read_sql('QUERY1npartitions=4)calc_zones.divisions (623725,629167,634609,640051,645492) 正如您所看到的,这些
分区
并不对齐,并且当我使用它们各自的<e
浏览 9
提问于2020-10-15
得票数 1
0
回答
如何
在Spark scala中对倾斜列上的
数据
帧
进行
重新
分区
?
scala
、
apache-spark
、
apache-spark-sql
我有一个
数据
帧
,它有500个
分区
,并且是随机排列的。我想根据一列
重新
划分它,比如“城市”,但是城市列是非常不对称的,因为它只有三个可能的值。因此,当我根据列city对进行
重新
分区
时,即使我指定了500个
分区
,也只有3个
分区
在获取
数据
。正因为如此,我遇到了性能问题。我在网上搜索,但找不到任何合适的解决方案。有没有办法在
基于
city列的
分区
上对
数据
帧
进行统一的<em
浏览 2
提问于2017-06-15
得票数 1
回答已采纳
1
回答
SQL语句alter index和add partition
sql
、
oracle
我有一个
索引
,在这个
索引
中,我必须删除一列,然后
重新
建立
索引
以便
重新
构建:当我重建一个
索引
时,可以添加
分区
吗?
分区
将
基于
一个列
索引
,该列
索引
是一个日期时间字段。INTERVAL (INTERVAL '15' MINUTE) (PARTITION INITIAL_PARTITION VALUES LE
浏览 0
提问于2014-12-19
得票数 2
1
回答
spark dataframe保存为
分区
表的速度非常慢
apache-spark
df.write.partitionBy("par").format("orc").saveAsTable("mytable") 大家好,当我将spark
数据
帧
保存为
分区
的hive表时,过程非常非常慢,
浏览 0
提问于2017-09-15
得票数 2
2
回答
如何
在DataFrame中创建唯一的
索引
?
python
、
pandas
、
dataframe
、
dask
、
dask-dataframe
我
如何
为dask
数据
帧
建立一个唯一的
索引
?reset_index在
每个
分区
中构建一个单调上升的
索引
。这意味着(0,1,2,3,4,5,.)对于
分区
1,(0,1,2,3,4,5,.)对于
分区
2,(0,1,2,3,4,5,.)用于
分区
3等等。我希望为dataframe中的每一行(跨所有
分区
)建立唯一的
索引
。
浏览 0
提问于2019-06-06
得票数 6
回答已采纳
2
回答
拼花文件夹下的一个拼花文件是一个
分区
吗?
apache-spark
、
pyspark
、
apache-spark-sql
、
parquet
、
partition
我将我的
数据
存储为拼花格式在检查HDFS时,我可以看到在parquet目录/my/path下有10部分-xxx.snappy.parquet文件我的问题是:一个部分-xxx.snappy.parquet文件是否对应于我的dataframe
分区
?
浏览 3
提问于2020-03-29
得票数 0
回答已采纳
1
回答
如何
检查我的
数据
帧
中的
每个
记录大小
apache-spark
、
apache-spark-sql
、
databricks
尝试
重新
划分我的
数据
帧
,以实现并行性。有人建议
每个
分区
的大小应该小于128MB,为了实现这一点,我需要计算我的
数据
帧
中每行的大小。那么,
如何
计算/查找我的
数据
帧
中的每一行大小? 谢谢。
浏览 0
提问于2018-12-05
得票数 1
1
回答
如何
设置
分区
数量不超过可用核数?
apache-spark
、
apache-spark-sql
、
sparkcore
我正在寻找一种方法来根据可用内核的大小对应用程序中的所有
数据
帧
进行
分区
。如果我的可用核心数(执行器的数量*
每个
执行器的核心数)是20,那么我希望将所有
数据
帧
重新
分区
为20。我看到的
重新
划分
数据
帧
的唯一方法是df.repartition(20),但我希望将其应用于我的应用程序中存在的所有
数据
帧
,而不必为
每个
数据
帧
浏览 13
提问于2019-10-29
得票数 1
回答已采纳
1
回答
如何
在没有使用UDF的情况下对Spark SQL结果进行后处理
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
session.udf.register('MYFUN', my_fun) 在没有使用UDF的情况下,我可能想要将查询结果保存到Python
数据
框或hdfs上的Parque表中,然后通过
数据
帧
读取,并逐个处理
数据
帧
浏览 1
提问于2019-03-07
得票数 0
3
回答
Spark :
如何
将我的记录均匀地分布在所有
分区
中
apache-spark
我想将这个RDD
重新
划分为30个
分区
,这样
每个
分区
就可以得到一条记录,并被分配给一个executor。当我使用rdd.repartition(30)时,它将我的rdd
重新
划分为30个
分区
,但一些
分区
获得2条记录,一些
分区
获得1条记录,而另一些则没有任何记录。有没有办法在Spark中我可以均匀地将我的记录分配到所有
分区
。
浏览 1
提问于2015-11-18
得票数 5
1
回答
对dask
数据
帧
进行
重新
分区
以减少滚动期间的混洗
python
、
pandas
、
time-series
、
dask
我在一家公司工作,该公司需要做一些非常密集的聚合 对于他们在过去两年中进行的每一次销售,他们都需要有关销售前一个月的
数据
的滚动汇总。聚合本身并不重要。这两年的
数据
大约是550万行。我想我应该使用Dasks滚动函数,为
数据
帧
提供一个
数据
范围
索引
。 我使用的机器有4个核心,所以我决定对
数据
使用8个
分区
,并将其
重新
分区
为8个3个月的
分区
。 然而,有一个问题。这3个
分区
中
每个</e
浏览 16
提问于2019-12-20
得票数 1
2
回答
Apache Spark当调用repartition($" key ")时,当
每个
键的所有记录的大小大于单个
分区
的大小时会发生什么?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-sql-repartition
假设我有一个10 c1的
数据
帧
,其中一个列的"c1“对于每条记录都有相同的值。
每个
单独的
分区
最大为128 MB(默认值)。假设我调用repartition($"c1"),那么所有的记录会被混洗到同一个
分区
吗?如果是这样,它不会超过
每个
分区
的最大大小吗?在这种情况下,
重新
分区
是
如何
工作的?
浏览 34
提问于2021-09-23
得票数 2
回答已采纳
1
回答
如何
在Python Dask
数据
帧
中执行位置
索引
python
、
pandas
、
dataframe
、
dask
具体地说,使用位置
索引
将dask
数据
帧
分成测试/训练拆分:test = dfs[-1]train = dfs.loc[:-1]在Dask中使用位置
索引
的正确方法是什么,以及在随机森林示例中将
数据
帧
分割为测试/训练拆分的正确方法是什么类似悬而未决的问题: 编辑:创建指向Pandas
浏览 13
提问于2018-02-14
得票数 4
1
回答
将文件夹中的许多羽化文件加载到dask中
python
、
pandas
、
dask
、
feather
有了一个包含许多.feather文件的文件夹,我想将它们全部加载到python中的dask中。 到目前为止,我已经尝试了以下来自GitHub https://github.com/dask/dask/issues/1277上类似问题的答案 files = [...]df = dd.concat(dfs) 不幸的是,这给出了这里提到的错误TypeError: Truth of Delayed objects is not supported,但解决方法并不清楚。 是否
浏览 19
提问于2019-08-08
得票数 2
回答已采纳
2
回答
比较简单的查询的性能问题
sql
、
database
、
oracle
、
performance
、
database-performance
表:约1亿行示例:FROM TABLE NUMBERDD-MM-YYYY') AND TO_DATE('01-01-2015','DD-MM-YYYY') AND当前正在使用的CODE、NUMBER和DATE列上有一个
索引
还有一个仅针对测试过的NUMBER列的
索引
,它的性能稍好一些,但查询速度
浏览 0
提问于2016-10-25
得票数 0
3
回答
Spark需要像RDD这样的过滤器后进行
重新
分区
吗?
apache-spark
、
dataframe
、
pyspark
、
rdd
根据大量的资源,建议在过滤操作后
重新
划分RDD .因为,现在有可能大多数
分区
是空的。我怀疑如果
数据
帧
是在当前版本中处理的,还是仍然需要在筛选操作之后
重新
划分它?
浏览 0
提问于2018-05-22
得票数 2
回答已采纳
1
回答
如何
在Dask中获取从拼图文件读取
数据
帧
的单行值?
python
、
dask
问题: DASK
数据
帧
返回多行的pandas
数据
帧
,每行都有相同的
索引
:我需要为每一行调用m
浏览 48
提问于2019-06-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SQL Server分区表(三):将普通表转换成分区表
Oracle 19C入门到精通之表分区策略与管理表分区
如何做到99%的搜索请求延迟低于150毫秒?LinkedIn全新消息搜索平台实践
OceanBase 2.0之索引实时生效
消息中间件—Kafka数据存储(一)
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券