处理的步骤之一是在外部DB中查找某些值。
For ex:我的日志行包含多个键值对。日志中存在的键之一是"key1“。此键需要用于查找调用。我不想顺序地在外部DB中对RDD .Rather中的"key1“的每个值进行多次查找,我想要创建一个列表,列出所有存在于.Rather中的"key1”值,然后在外部DB中进行一个单独的查找调用。我从每一行日志中提取密钥的代码如下所示:
从读取查找方法的定义:lookup(key: K): Seq[V]
Return the list of values in the RDD for key key.This operation is done efficiently if the RDD has a known partitioner by only searching the partition如何确保RDD有一个已知的分区程序?我知道RDD是跨集群中的节点进行分区的,但是只使用语句的searching t