根据Spark中的条件获取行索引

文章/答案/技术大牛

发布

4回答

、、

假设我有一个Spark DataFrame，如下所示。如何获得value为0的行索引？ID | value001 | 1003 | 2005 | 1 我想要的行索引数是2和4。

浏览 34提问于2017-08-18得票数 2

回答已采纳

1回答

Spark是否使用Cassandra辅助索引？

、、、

我们的数据模型的设计方式是，我们的应用程序总是通过分区键进行查询，例如“获取用户id登录”等。然而，有时我们需要做一些特别的分析，比如“过去6个月中每个用户每月登录的平均数量是多少？”为此，我们使用Spark。我的问题是:我的理解是，Spark将基本上遍历Cassandra中的每一行，并将SQL查询的条件应用于每一行，丢弃不匹

浏览 3提问于2016-05-23得票数 2

回答已采纳

2回答

Apache是如何在内存中工作的？

、

在where子句中使用非索引列查询Cassandra时，的说，若要筛选行，可以使用Spark提供的筛选器转换。但是，这种方法导致从Cassandra获取所有行，然后由Spark过滤。例如，如果我有10亿行这个db结构: ID、City、State和Country，其中只有ID是索引的。如果我在where子句中使用City = 'Chicago‘，那么Spark会首先下

浏览 1提问于2018-04-01得票数 3

回答已采纳

1回答

Spark:如何调试/记录特定索引处的任务

、

我所知道的信息是任务在详细页上的索引(指的是仪表板UI)。根据then答案：我可以看到如何获取任务信息。但是，该对象中引用的UI仪表板中的in是什么呢？是否ID = org.apache.spark.scheduler.TaskInfo.id，索引= org.apache.spark.schedulerTaskI

浏览 0提问于2016-06-23得票数 0

1回答

如何在PySpark的Pandas中使用iloc获得相同的结果？

、、

在Pandas dataframe中，我可以使用data.iloc[1:1000,:]获取前1000行。如何在PySpark中做到这一点？

浏览 24提问于2021-01-11得票数 1

回答已采纳

2回答

使用java将索引列添加到apache spark Dataset<Row>

、

下面的问题有scala和pyspark的解决方案，而这个问题提供的解决方案不是针对连续索引值的。Spark Dataframe :How to add a index Column : Aka Distributed Data Index 我在Apache-spark中有一个现有的数据集，我想根据索引从中选择一些行我计划添加一个包含从1开始的唯一值的索引列，并根据

浏览 41提问于2019-05-16得票数 2

回答已采纳

1回答

numpy获取行索引，其中某些列中的元素为零

、

我想根据某些列上的条件查找行的索引所以，就像这样： import numpy as npx[2, 3] = 0x[1, 3] = 0 现在，我想要获取列3或列4中任一列为零的行的索引。我是否需要为每一列调用多个nonzero，并使用set或类似的东西组合这些索引

浏览 6提问于2019-05-28得票数 1

回答已采纳

2回答

对综合指数解释方案的理解

boolean not null);CREATE INDEX Index Cond: (a = 1)根据以上所述，它能够使用索引在a上进行筛选。然后，

浏览 0提问于2020-03-17得票数 2

回答已采纳

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

、、

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

1回答

动态创建linq查询

、

我在linq查询(where)中创建条件时遇到一些问题。where中的条件是基于某个条件创建的。我想根据两个属性(id_indice_prix，date_indice)过滤索引列表。我现在所做的是，我使用linq从数据库中获取所有行到entites，然后我执行if条件，根据条件进行过滤： var list

浏览 2提问于2015-07-13得票数 0

1回答

如何在使用spark ml时以另一种方式索引分类特征

、

火花指数中的VectorIndexer根据变量的频率来分类特征。但我想用另一种方式对分类特征进行索引。例如，对于下面的数据集，"a“、"b”、"c“将被索引为0、1、2，如果我在spark中使用VectorIndexer。但是我想根据标签给它们做索引。有4行数据被索引为1，其中3行具有特征'a',1行feautre

浏览 4提问于2016-10-26得票数 3

回答已采纳

1回答

如何在spark中根据条件更新行

、

我正在为数据准备工作的火花-sql。 else record在上面的映射中，if语法正常工作，但一旦我应用更新条件来修改它但这是正确的方法，因为我不

浏览 2提问于2015-08-12得票数 1

回答已采纳

2回答

禁用spark数据网格中的几行

、、、

在spark datagrid中有没有一种方法可以编程禁用某些行，在flex 3中，可以这样使用函数mouseEventToItemRenderer： } } return listItem;然后，我实现了函数disabledRow，根据某些条件返回true或false，该条件将指定是否渲染选定的</

浏览 1提问于2011-09-01得票数 2

回答已采纳

1回答

更改数据网格中的颜色行

、、

我有一个脚本，它已经满足了我，但我想向我的客户发送警告信号，说明有问题，我可以将线条颜色更改为红色，我正在工作下面的脚本：</mx:DataGrid></mx:Application> 例如，为了测试脚本，第一

浏览 2提问于2013-02-27得票数 0

1回答

根据条件从spark数据帧中删除行

我想根据条件从列表的spark数据帧中删除行。条件是列表的长度是一定长度。我曾尝试将其转换为列表列表，然后使用for循环(如下所示)，但我希望在spark内的一条语句中完成此操作，并基于此条件从原始df创建一个新的不可变df。dataframe，而该列被命名为sequences，则它看起来如下所示： sequences[1, 2, 4] [1, 6, 3

浏览 25提问于2019-04-30得票数 0

回答已采纳

2回答

如何在Java中使用带有gt条件的联接？

、、

我想根据以下条件连接两个数据文件:如果df1.ol(“name”)==df2.ol(“name”)和df1.ol(“starttime”)大于df2.ol(“starttime”)。条件的第一部分是ok，我在spark中使用列类的“相等”方法，但是对于“大于”条件，当我在java中使用以下语法时：它不工作，它似乎是星火sql中</

浏览 2提问于2017-04-03得票数 1

回答已采纳

1回答

我正在开发一个程序，在该程序中，我需要根据特定条件显示数据集中的特定行。这些条件适用于我为机器学习模型创建的features专栏。我得到了以下错误： Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class org.apache.spark.ml.linalg.DenseVectorat org.apache.s

浏览 1提问于2017-07-07得票数 2

1回答

我如何实现火花放电卡桑德拉“基于键”连接器？

、、、

我使用的是Spark2.4.7，并且我已经实现了普通的吡火花卡桑德拉连接器，但是有一个用例，我需要实现基于键的连接器，我没有得到有用的博客/教程围绕它，有人请帮助我。我试过普通的火花放电-卡桑德拉连接器，它工作得很好。现在，我希望实现基于键的连接器，我找不到。 Cassandra通常加载整个表，但我不想加载整个表，而是在源上运行查询并获取所需的数据。通过基于键的方法，我想使用一些键来获取数

浏览 3提问于2022-03-25得票数 1

2回答

在SQL中按顺序执行/限制执行

、、

网上已经有很多帖子了，只是想弄明白一些让我困惑的细微之处！引用 SELECT articleORDER BY publish_date假设表有2000行，其中qu

浏览 1提问于2018-12-08得票数 0

回答已采纳

1回答

搜索API弹性搜索索引

、

我想从Java调用一个远程托管的弹性搜索索引，并根据某些条件从相同的索引中获取数据。帮帮我，我刚接触Elastic search和它的索引机制。

浏览 0提问于2014-10-05得票数 1

点击加载更多