在spark sq中收集的替代方法，用于获取列表o值映射

文章/答案/技术大牛

发布

1回答

scala、apache-spark-sql

基本上我的问题是非常普遍的，每个人都告诉不要在spark中使用collect，主要是当你想要一个巨大的数据帧时，因为你可以通过内存在dirver中得到一个错误，但在很多情况下，在“真实模式”中从dataframe到一个列表中获取数据的唯一方法是使用collect，这是矛盾的，我想知道我们在spark中有哪些替代

浏览 4提问于2019-07-30得票数 2

2回答

压缩字典与非常快的int->数据查找，和快速反向查找(搜索/插入/删除数据)？

c++、algorithm、performance、dictionary

数据集将很大，所以O(1)中的(int->data)非常重要。(data->int)和insert/delete都应该是O(log n)平均值，因为这些操作不太重要。数据的顺序无关紧要，但是insert/delete不能使现有的int键失效。我已经尝试过散列表和SSTable方法。另一方面，SSTable为操作提供了更糟糕的复杂性，并复制了值(一次用于矢量存储，一次用于</e

浏览 0提问于2016-05-07得票数 0

回答已采纳

1回答

来自另一个表的分区列的火花条件(性能)

apache-spark、apache-spark-sql

我在registration_ts列上有一个巨大的分块表，名为stored。spark.sql("select * from stored where exists (select 1 from stream where stream.registration_ts，分区过滤器被传播到连接的stream表中.('registration_ts.is

浏览 2提问于2019-07-13得票数 1

1回答

我的粒子在处理过程中没有以正确的方式相互作用，这是为什么呢？

java、object、arraylist、processing

我正在做一个更大的项目，如果当他们彼此接近的时候，他们需要互动。这个节目相当西佩尔。当球互相接触，或者中心距离比它们的半径更近时，它们就会改变颜色。然而，球现在是随机变化的颜色，我不知道为什么。对象与所有对象都有一个Arraylist，因此它们可以交互，它们是一个很大的类，用作粒子生成器。= on) { float distance = sqrt(sq(o

浏览 6提问于2020-03-28得票数 2

回答已采纳

2回答

pyspark dataframe to dictionary:列作为键和列值列表

python、pyspark

您好，我需要将pyspark dataframe (或rdd)转换为字典，其中dataframe的列将是关键字，column_value_list将作为字典值。name amtb 20b 40我想要一本这样的字典： new_dict = {'name':['a','b', 'a', 'b', 'c'], 'amt':[10,20,30,4

浏览 4提问于2017-04-28得票数 1

3回答

如何在Java中创建线程安全的一次写入多次读取映射？

java、thread-safety

我有一个带有私有静态映射的Java类，用于在应用程序执行期间存储信息。我只会将一个键/值放入Map中一次，但Map值可能会被多次读取。所以我现在使用的方法是，代码执行get并检查null。如果为null，则收集所需的数据并将其放入映射中。客户机代码的后续调用将保证从映射中获取值。客户端将不需要执行null检查。这样做的</em

浏览 1提问于2012-04-14得票数 4

回答已采纳

2回答

将Spark转换为pojos列表的最有效方法

java、apache-spark、apache-spark-sql

我想将这个DataFrame转换成一个结构如下的Java列表 private UUID assetID; private String type;} 从表演和简洁的角度来看，在星火中做这件事的最好方法是什么？

浏览 3提问于2015-11-19得票数 3

回答已采纳

3回答

如何使用Java流api过滤地图？

java、lambda、java-8、java-stream、collectors

"I"); map.put(4, "c");....etcList<Integer> picks = {1,3} 我想要返回一个字符串列表，即映射中的值，这些值与'pick‘list.So，中的键值匹配，我希望返回{"f"，"a"}作为结果。是否有一种方法可以使用ja

浏览 2提问于2019-08-21得票数 9

回答已采纳

1回答

在Spark中对DataFrame进行排序时，幕后会发生什么？

apache-spark

在Spark中对DataFrame进行排序时，幕后会发生什么？例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么，但是我很好奇当您排序时会发生什么

浏览 2提问于2018-08-14得票数 0

2回答

不使用GetHashCode的HashSet和字典的C#性能替代方案

c#、set、mapping、gethashcode

我正在寻找HashSet和Dictionary对象的内置替代品，它们的性能比lists更好，但不使用内部GetHashCode方法。然而，在我的用例中，我可以使它“局部”传递，因为在某些时候，我将知道我需要放入我的集合/映射键集的所有向量，我也知道它们将以集群的形式出现。因此，当我收集了所有向量后，我将为每个簇选择一个代表，并将所有原始向量替换为代表。那

浏览 2提问于2016-07-26得票数 5

2回答

用于快速位置查找的数据结构

data-structures、language-agnostic

寻找一个在逻辑上表示由唯一ids键键的元素序列的数据结构(为了简单起见，让我们考虑它们是字符串，或者至少是可哈斯对象)。每个元素只能出现一次，没有空白，第一个位置是0。应该支持以下操作(用单字母字符串演示)：天真的实现要么是链接列表，要么

浏览 2提问于2012-08-18得票数 7

回答已采纳

2回答

如何使用presql根据当前处理的文件名(Informatica)删除记录？

informatica、informatica-powercenter、flat-file

我在Informatica中使用间接文件加载，其中源文件可以是一个或多个.csv文件。源文件名格式为: production_plan_YYYYMMDD.csv 目标表有一个名为production_date的列，我需要编写一个pre sql命令，该命令将删除production_date将与所述日期(YYYYMMDD)当前处理的文件名匹配的所有记录。我可以在Source中添加当前处理的文件名port，但不确定是否可以在presql中使用此信息按照我<

浏览 4提问于2021-09-23得票数 0

1回答

.groupingBy是否维护结果映射值列表的排序顺序？

java、java-stream

假设我有一个ArrayList，它是我流的，然后排序，然后按列表值的某个属性分组。结果映射中的列表是否会在内部排序(即在流分组之前保持其排序)？在中，它说groupingBy不是无序的收集器，但我不确定上面的意思是否是这样。如果没有，有序/无序收集器意味着什么？arrayList.stream() .sorted((o1, o</

浏览 27提问于2022-11-17得票数 2

回答已采纳

1回答

什么是Mapreduce等价于Spark中的top()函数？

apache-spark、mapreduce

我正在尝试寻找与spark中的top()和take()函数等效的解决方案，用于Mapreduce的实现。我想提取前k个值，而不保存整个键和值对。

浏览 0提问于2018-11-21得票数 0

5回答

从unordered_map获取键值列表

c++、vector、c++11、std、unordered-map

从unordered_map获取键和值的列表(以vector形式)的最有效方法是什么 vector<

浏览 5提问于2011-12-13得票数 75

回答已采纳

2回答

Java \ groupingBy相同的元素

java、java-8、java-stream

我有一个词流，我想根据相同元素的出现对它们进行排序(= words )。;问题2:我不知道该把什么放在亲子里，按照同样的情况来分组。我知道我能够处理lambda表达式中的单个元素，但是我不知道如何到达“外部”每个元素来检查是否相等。谢谢

浏览 20提问于2015-04-29得票数 9

回答已采纳

4回答

如何在Java中获取前10个键值HashMap

java、dictionary、get、hashmap

我有这样的hashmap：我的hashmap已经按值降序排序了。我想从第一个元素hashmap中获取10个元素。有人能帮我吗？

浏览 0提问于2017-03-19得票数 2

2回答

将pyspark转换为scala:读取多个目录

python、scala、apache-spark、apache-spark-sql、parquet

我有一个文件列表的拼花格式，我加载和合并到一个单一的数据在PySpark中。(lambda df1, df2: df1.unionAll(df2), df_list)val df_list = map(x = > (spark.read.parquet(x)), paths) :139:错误:重载方法值</

浏览 4提问于2017-06-21得票数 0

回答已采纳

3回答

计算MySQL中某一列中最频繁的元素

mysql

我必须列，并且我希望对于每个唯一的条目，第一列是第二列中最常见的元素。

浏览 0提问于2015-11-26得票数 1

1回答

将Spark的本地tmp文件夹放在共享目录中安全吗？

apache-spark

在我们的集群中，本地磁盘很小，而我们有一个巨大的网络挂载共享文件系统。为此目的使用共享驱动器安全吗？星火创建的tmp文件夹有唯一的ID吗？

浏览 0提问于2019-03-26得票数 1

回答已采纳

点击加载更多