基于行值的Spark选择列

文章/答案/技术大牛

发布

1回答

、、、

浏览 22提问于2020-08-28得票数 0

1回答

reduceByKey可以用于多个值吗？

、、、

我刚刚开始学习spark和scala，并在RDDs上测试一些转换和操作。我发现reduceByKey的用法如下：在in中，它接受两个相同值的元组，并使用加法操作将它们组合在一起。现在我的问题是，我们是否可以一次相加两个以上的值，或者一次相加所有具有相同键的值？如下所示：为什

浏览 1提问于2018-10-21得票数 0

1回答

基于列值高效地从宽Spark数据帧中删除列

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛选器删除行

浏览 11提问于2019-10-31得票数 1

1回答

在pyspark LogisticRegression输出中，哪个概率属于哪个类别？

、、

我的代码如下：lr = LogisticRegression(featuresCol=

浏览 3提问于2017-06-14得票数 0

1回答

如何根据同一行中的另一个下拉列表设置dataprovider？

、、、、

我有一个可编辑的flex spark datagrid，有两列。参数和值。我被要求更改datagrid，这样第一列参数只能设置为来自设置的datalist的值。第二列值也必须根据下拉框设置为离散值，该下拉框基于参数列中的值。如何设置Values列的dataprovider，使其依赖于Parameter

浏览 11提问于2014-02-25得票数 1

2回答

基于列值选择行

、

我有一个类似下面这样的数据框 'Doc':['Order','Order','Inv','Order','Order'1026 Order 7 1038 Inv 9 103 现在我想为单据类型为Inv only的Rep选

浏览 0提问于2017-08-12得票数 3

回答已采纳

3回答

基于列值的行选择

我有一个问题，对于单个值，最多可以有两行。我只能根据列选择一行value.Below示例可以显示我的数据以及我试图实现的目标。20I780 B445 Country 20 从项目表中选择项目，并检查Item_info表中存在的相应建筑信息。如果某个项目的值存在于地区和国家级别，则<e

浏览 28提问于2019-04-18得票数 0

1回答

如果只有一个map reduce任务，map reduce会提供与spark相同的性能吗？

、、

大多数bigdata作业没有单独的mapreduce作业，因此spark通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。我的问题是，如果只有一个mapreduce作业，比如wordcount。mapreduce作业是否提供了与spark相同的性能？若否，原因为何？这可能是一个一般性的问题，但我正在尝试理解spark的深入架构。

浏览 2提问于2017-05-13得票数 0

1回答

Spark Dataframe的过滤操作

、

我有一个Spark，我希望根据一个特定列的匹配值从它们中选择几个行/记录。我想我可以使用过滤器操作或在映射转换中选择操作来实现这一点。但是，我想针对那些在应用过滤器时没有选择的行/记录更新一个status列。那么，如何知道和更新未被选中的行的<em

浏览 0提问于2018-07-25得票数 1

1回答

需要识别火花sql中两列值之间的相同字符

、

我有两列，一列是代码，另一列是类别321 3210001 5314 5314001 基于以上的代码值正是类别值的前缀。现在，我必须编写一个spark查询，它应该提供有多少行被分类和没有分类。如果代码和类别值的前缀是匹配的，那么它

浏览 2提问于2022-11-10得票数 0

1回答

Flex Spark* datagrid -禁用行选择*

、、

我想禁用(并显示为禁用) spark数据网格中的某些行。我找到了这个停止选择的答案，这是很棒的但我还想说明特定的行是不可选择的。理想情况下，我希望有某种覆盖，但我不确定这是否可能。我的替代解决方案是将不可选行的文本颜色更改为灰色。看一下数据网格渲染，它们似乎都是基于列的。我考虑了换皮(覆盖交替颜色属性)，但这

浏览 1提问于2011-09-17得票数 0

回答已采纳

2回答

ColumnarToRow是如何在Spark中高效运行的

、、、

在我的理解中，列格式更适合于MapReduce任务。即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。 'a': [i for i in

浏览 13提问于2020-11-12得票数 10

2回答

使用java将索引列添加到apache spark* Dataset<Row>*

、

下面的问题有scala和pyspark的解决方案，而这个问题提供的解决方案不是针对连续索引值的。Spark Dataframe :How to add a index Column : Aka Distributed Data Index 我在Apache-spark中有一个现有的数据集，我想根据索引从中选择一些行我计划添加一个包含从1开始的唯一值的索引列，并根据该列</e

浏览 41提问于2019-05-16得票数 2

回答已采纳

3回答

在PySpark数据中删除包含特定值的行

、、

我有一种火花缭乱的数据像：1._6我要删除包含值"NA“的行。在这种情况下，首先和最后一行。如何使用Python和Spark实现这一点？基于注释的更新:寻找一个解决方案，删除在多个列中任何一个中都具有字符串: NA的行。

浏览 1提问于2019-02-23得票数 8

2回答

如何通过火花从数据文件中找到最大长度唯一行？

、、

我正在尝试查找唯一的行(基于id)，这些行的最大长度值在Spark dataframe中。每个列都有一个字符串类型的值。

浏览 2提问于2019-12-26得票数 0

回答已采纳

2回答

谓词下推vs布隆过滤器

、

在寻找大数据上的查询优化时，尤其是在ORC文件上，我遇到了两种可能的谓词下推和Bloom过滤器。谓词下推帮助我们避免读取不必要的条带，这有助于减少IO，但对我来说，Bloom Filter似乎也有相同的目的，除了以下几点。对于谓词下推，我们不需要在编写ORC文件时显式创建任何工件，而对于Bloom filters，我们需要在写入ORC文件时配置列。谢谢Santosh

浏览 0提问于2019-02-11得票数 2

1回答

使用Oracle ApEx 4.1的可更新的Oracle SQL报告

、

基本上，我有一个基于以下示例SQL查询的SQL可更新报告：根据这份报告，我为B列创建了一个基于命名LOV的选择列表--我还为该列分配了id"lov_select“我的问题和不确定如何做到这一点，是，由于此报告可以按行变化，假设此报告返回3行，基于从B列选择<

浏览 0提问于2012-11-07得票数 1

回答已采纳

3回答

基于列索引的Spark* Dataframe选择*

、、、

如何在Scala中选择具有特定索引的数据帧的所有列？df = df.select(colNames.head,colNames.tail: _*)colNos = Ar

浏览 10提问于2017-04-22得票数 9

1回答

我应该在Spark* DataFrame上应用什么转换*

、

我有两个DataFrame数据帧(A和B)，它们都有一个公共的列/字段(在Spark A中是主键，但在B中不是)。我应该执行什么类型的转换，以便在不做太多混洗的情况下将记录收集在一起？

浏览 0提问于2018-07-25得票数 0

1回答

更新cassandra表中的一列

、、、、

假设我有一个结构为personId，customerId，firstName，lastname，messageType: String，source: String，sourceType: String的输入RDD我想基于RDD值获取cassandra行，并更新ca

浏览 1提问于2016-04-17得票数 1

点击加载更多