开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Akka Streams:如何按大小对源中的文件列表进行分组？

Akka Streams是一种用于构建可扩展、高吞吐量和容错的流处理应用程序的工具包。它基于Actor模型，提供了一种声明式的方式来处理数据流，并且可以轻松地与其他Akka组件集成。

要按大小对源中的文件列表进行分组，可以使用Akka Streams中的一些操作符和函数来实现。下面是一个示例代码，展示了如何使用Akka Streams按大小对文件列表进行分组：

import akka.actor.ActorSystem
import akka.stream.ActorMaterializer
import akka.stream.scaladsl.{FileIO, Flow, Sink, Source}
import akka.util.ByteString
import java.nio.file.Paths

object FileGroupingExample extends App {
  implicit val system = ActorSystem("FileGroupingExample")
  implicit val materializer = ActorMaterializer()

  // 源文件列表
  val fileList = List("file1.txt", "file2.txt", "file3.txt", "file4.txt")

  // 按大小分组的阈值（字节数）
  val groupSizeThreshold = 1000000

  // 读取文件并计算文件大小
  val fileSource = Source(fileList)
    .map(file => (file, Paths.get(file)))
    .mapAsync(parallelism = 1) { case (file, path) =>
      FileIO.fromPath(path)
        .runFold(0L)((size, bytes) => size + bytes.length)
        .map(size => (file, size))
    }

  // 根据文件大小进行分组
  val groupBySizeFlow = Flow[(String, Long)]
    .groupBy(fileSize => if (fileSize._2 > groupSizeThreshold) "large" else "small")
    .fold(List.empty[(String, Long)])((acc, fileSize) => fileSize :: acc)
    .mergeSubstreams

  // 打印分组结果
  val printSink = Sink.foreach[List[(String, Long)]](group => println(s"Group: $group"))

  // 运行流处理
  fileSource.via(groupBySizeFlow).runWith(printSink)
}

在上述示例中，我们首先定义了源文件列表和按大小分组的阈值。然后，我们使用Source操作符创建一个文件源，并使用mapAsync操作符异步读取每个文件的内容并计算文件大小。接下来，我们使用groupBy操作符根据文件大小将文件分组为"large"和"small"两个组，并使用fold操作符将文件添加到相应的组中。最后，我们使用mergeSubstreams操作符合并所有分组，并使用Sink操作符打印分组结果。

这是一个简单的示例，演示了如何使用Akka Streams按大小对文件列表进行分组。在实际应用中，您可以根据需要进行更复杂的操作和处理。

腾讯云提供了一系列与流处理相关的产品和服务，例如腾讯云流计算（Tencent Cloud StreamCompute）和腾讯云消息队列（Tencent Cloud Message Queue），您可以根据具体需求选择适合的产品。您可以访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和文档。

相关搜索:Akka Streams -如何生成列表的大小，然后是整个列表 Haskell中的groupByKey -如何按函数对列表中的项进行分组？Java:如何按属性对列表元素进行分组在Netlogo中按元素对列表进行分组如何使用streams Java 8按键对列表进行分组并拆分值如何在dart中按多个值对列表进行分组如何在python中按年份对行对象列表进行分组？如何对列表的元素进行分组？如何对同名的列表元素进行分组？如何对按其他字段分组的列表进行排序

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Linux下如何对目录中的文件进行统计

统计目录中的文件数量统计目录中文件的最简单方法是使用ls每行列出一个文件，并将输出通过管道符传递给wc计算数量： [root@localhost ~]# ls -1U /etc |wc -l 执行上面的...将显示所有文件的总和，包括目录和符号链接。...-1选项表示每行列出一个文件， -U告诉ls不对输出进行排序，这使的执行速度更快。ls -1U命令不计算隐藏文件。...递归统计目录中的文件如果想要统计目录中的文件数量，并包括子目录中的，可以使用 find命令： [root@localhost ~]# find /etc -type f|wc -l 用来统计文件的另一个命令是...总结在本文中，将展示几种查找Linux目录中的文件数量的不同方法。

2.9K4 0

js中，如何获取批量传入文件的大小，名称，进行循环展示。

" v-cloak> 文件名...Math.floor(Math.random() * (m - n + 1) + n) return num }, /// 通过 change 时间获取文件...this.list.push(obj.files[i]) } }, dropClick: function (e) { /// 拖拽情况获取文件

9.9K2 0

alpakka-kafka(1)-producer

alpakka项目是一个基于akka-streams流处理编程工具的scala/java开源项目，通过提供connector连接各种数据源并在akka-streams里进行数据处理。...alpakka-kafka提供了kafka的核心功能：producer、consumer，分别负责把akka-streams里的数据写入kafka及从kafka中读出数据并输入到akka-streams...用akka-streams集成kafka的应用场景通常出现在业务集成方面：在一项业务A中产生一些业务操作指令写入kafka，然后通过kafka把指令传送给另一项业务B，业务B从kafka中获取操作指令并进行相应的业务操作...在alpakka中，实际的业务操作基本就是在akka-streams里的数据处理（transform），其实是典型的CQRS模式：读写两方互不关联，写时不管受众是谁，如何使用、读者不关心谁是写方。...alpakka提供的producer也就是akka-streams的一种组件，可以与其它的akka-streams组件组合形成更大的akka-streams个体。

9422 0

后起之秀Pulsar VS. 传统强者Kafka？谁更强

数据库到 Kafka，Kafka Streams 进行分布式流处理，最近使用 KSQL 对 Kafka topic 执行类似 SQL 的查询等等。...，将文件复制到 Pulsar 目录中的 Connectors 目录 4.启动 Pulsar！...import com.sksamuel.pulsar4s.akka.streams....现在，我们可以像往常一样使用 Akka Streams 处理数据。...，对其进行转换并将结果输出到另一个 topic： ?

1.7K1 0

Reactive Streams规范及常见库

可体会下Java8里的Stream API各种算子的参数，所以Lamda表达式是进行Reactive Streams实现的基本前提，否则很难想象臃肿的面向对象的Composable。...这个规范由三部分组成：Java API（org.reactive-streams）、以文字描述的规范、技术兼容工具包。...用 Reactive Streams 进行规范就使得它们可以互操作，也就让它们串起来形成一个 reactive 链成为了可能。...其实，既然已经有了 org.reactive-streams 这样的规范，为什么还要在 JDK 中弄出个 Flow 来再重新定义一次。...Vert.x、MongoDB 响应式流驱动这些都做了改进以符合 org.reactive-streams 中的 API 定义。

1.2K2 1

FunDA（0）－ Functional Data Access accessible to all

对一些不算FP编程专家的人来说，如何用他们习惯的方式来使用现成的函数式软件如Slick，Spark等可能就变得是件很迫切的事情了。...FunDA包括两项重大功能：一、提供按行处理数据功能的支持：FRM最强大的功能之一就是能够实现Query的函数组合，然后产生SQL语句来对后台数据库进行操作，返回结果是一个集合。...二是按每条数据行要求进行状态处理函数的运算run(func)或者并行运算runPar(func)。产生数据源同样可以实现并行运算，比如通过构建一个多任务计算对象后进行运算。...(updateRow) //对源头产生的数据行进行并行处理数据流动管理和运算管理功能可以通过某种流库（stream library）如scalar-streams-fs2...三、freemonad stream+FRM DSL：用freemonad来抽象FunDA全部操作，全面实现与下层软件工具库的松散耦合，同时提供scalaz-streams-fs2、akka-stream

1K10 0

Java8Streams流分组操作讲解

得 Streams 流随着 JDK 1.8 的发布而出现，是对集合（Collection）对象功能的增强，它专注于对集合对象进行各种聚合或者分组操作。...本文我会给大家详细讲解下 Streams 流相关的分组操作。假设我们有一组学生，需要按年龄对他们进行分组。按照 Java 得传统方式，我们可能需要好几个步骤。...我们需要按年龄对这些员工对象进行分组。如何实现这一目标？...对自定义对象进行分组举例一假设我们有一个项目列表。我们的 pojo 是具有名称、价格和数量的 Item。...Collectors.mapping(Item::getName, Collectors.toSet()) — 将分组后得商品列表转化为名称列表如果我们需要对分组后的商品名称按价格进行排序？

4031 0

异步编程 - 14 异步、分布式、基于消息驱动的框架 Akka

插件和扩展：Akka 提供了丰富的插件和扩展机制，可以轻松集成其他库和框架，如 Akka HTTP、Akka Streams 等，以构建全栈应用程序。...下面看下Akka的特性：可以更简单地构建并发和分布式系统 Akka基于Actor模型和Streams，让我们可以构建可伸缩的，并且可以高效使用服务器资源，使用多个服务器进行扩展的系统。...---- 传统编程模型存在的问题对封装特性的挑战面向对象编程中的封装要求数据只能通过对象提供的方法间接访问，但多线程下多个线程同时修改对象内部数据会导致线程安全问题。...对共享内存在现代计算机架构上的误解在多核CPU架构中，多线程之间不再有真正的共享内存，而是通过Cache行传递数据，使得共享变量的内存可见性成为问题。...Actor模型中采用树状层次结构的监督机制，父Actor可以对子Actor的故障进行监控和处理。监督程序可以决定是否重新启动子Actor或停止子Actor，确保系统的可恢复性和健壮性。

8744 0

Play For Scala 开发指南 - 第1章 Scala 语言简介

Martin还曾受雇于 Sun 公司，编写了 javac 的参考编译器，这套系统后来演化成了 JDK 中自带的 Java 编译器。...这主要得益于Scala强大的类型推断系统，在编译期可以进行静态类型推断，不仅可以降低代码的冗余性，而且也不用担心动态类型语言的重构灾难。...2.12版本 2017年发布2.13-M2版本 Scala全面拥抱现有的Java生态系统，可以和现有Java类库实现无缝连接，你可以在Scala项目直接引入现有的Java依赖，或是直接引入Java源码文件...Akka包含很多模块，Akka Actor是Akka的核心模块，使用Actor模型实现并发和分布式，可以将你从Java的多线程痛苦中解救出来；Akka Streams可以让你以异步非阻塞的方式处理流数据...；Distributed Data可以帮助你在集群之间分享数据；Alpakka可以帮你为Akka Streams集成不同的数据源；Akka Persistence可以帮你处理Actor消息的持久化存储，

1.3K6 0

alpakka-kafka(2)-consumer

alpakka-kafka-consumer的功能描述很简单：向kafka订阅某些topic然后把读到的消息传给akka-streams做业务处理。...plainSource试试把前一篇示范中producer写入kafka的消息读出来： import akka.actor.ActorSystem import akka.kafka._ import...如果用Committer的Sink或Flow就可以按用户的需要控制commit-offset的发生时间。...另外，这个DrainingControl类型结合了Control类型和akka-streams终结信号可以有效控制整个consumer-streams安全终结。...值得注意的是atMostOnceSource是对每一条数据进行位置标注的，所以运行效率必然会受到影响，如果要求不是那么严格的话还是启动自动commit比较合适。

5872 0

反应式架构(1)：基本概念介绍顶

淘宝从2018年开始对整体架构进行反应式升级，取得了非常好的成绩。...系统应该对用户的请求即时做出响应。即时响应是可用性和实用性的基石，而更加重要的是，即时响应意味着可以快速地检测到问题并且有效地对其进行处理。回弹性(Resilient)。...有一点需要提醒的是，虽然Java 9已经实现了Reactive Streams，但这并不意味着像RxJava、Reactor、Akka Streams这些流处理框架就没有意义了，事实上恰恰相反。...别急，在下一篇文章中，我们将会看到如何利用反应式编程简化异步调用问题。 3 总结本文通过两部分内容为大家介绍了反应式的基本概念。..., Scala, Kafka and Akka Streams

1.6K1 0

akka-streams - 从应用角度学习：basic stream parts

实际上很早就写了一系列关于akka-streams的博客。但那个时候纯粹是为了了解akka而去学习的，主要是从了解akka-streams的原理为出发点。...因为akka-streams是akka系列工具的基础，如：akka-http, persistence-query等都是基于akka-streams的，其实没有真正把akka-streams用起来。...这段时间所遇到的一些需求也是通过集合来解决的。不过，现在所处的环境还是逼迫着去真正了解akka-streams的应用场景。...所以流处理应该是分布式数据处理的理想方式了。这是这次写akka-streams的初衷：希望能通过akka-streams来实现分布式数据处理编程。...由于运算值是无法当作流元素传递的，Flow只能是用来对Source传下来的元素进行转换后再传递给Sink，也就是说Flow是由一个或多个处理环节构成的。

1K1 0

Akka 指南之「消息传递可靠性」

高级抽象消息模式事件源带明确确认的邮箱死信应该用死信做什么？如何收到死信？...在远程消息发送的情况下，涉及到更多的步骤，这意味着更多的步骤可能出错。另一个方面是本地发送将在同一个 JVM 中传递对消息的引用，而对发送的底层对象没有任何限制，而远程传输将限制消息的大小。...下文将进一步讨论这种权衡（trade-off）的细节。作为补充部分，我们对如何在内置的基础上构建更强的可靠性给出了一些建议。...事件源事件源（和分片）是大型网站扩展到数十亿用户的原因，其思想非常简单：当一个组件（思考 Actor）处理一个命令时，它将生成一个表示命令效果的事件列表。除了应用于组件的状态之外，还存储这些事件。...Actor 可以订阅事件流上的类akka.actor.DeadLetter，请参阅「事件流」了解如何执行该操作。然后，订阅的 Actor 将收到（本地）系统中从那时起发布的所有死信。

1.7K1 0

akka-grpc - 基于akka-http和akka-streams的scala gRPC开发工具

在http/1应用中对二进制文件的传输交换有诸多限制和不便，特别是效率方面的问题。在protobuf这种序列化模式中对任何类型的数据格式都一视同仁，可以很方便的实现图片等文件的上传下载。...至于akka-grpc基于akka-streams的特性，我并没有感到太大的兴趣。如上所述，我们的目标是实现一种开放数据平台的终端接入接口。...akka-streams恰恰把总体方案限制在了内部系统集成模式，因为服务端客户端就是akka-streams的两端，是内部系统集成的场景。...也许，在开发一套内部IT系统的过程中akka-grpc可以很趁手。...所以，akka-grpc并没有提供对OAuth2规范身份验证的支持。在这个例子里我们就只能进行基本的身份证明（如店号、机器号等），但身份验证过程的安全性就不做任何加密操作了。

1.9K2 0

Kafka Streams - 抑制

◆聚合的概念 Kafka Streams Aggregation的概念与其他函数式编程（如Scala/Java Spark Streaming、Akka Streams）相当相似。...我们对1天的Tumbling时间窗口感兴趣。注意：所有的聚合操作都会忽略空键的记录，这是显而易见的，因为这些函数集的目标就是对特定键的记录进行操作。...根据上述文件中的定义，我们希望每天在宽限期过后产生一个汇总的统计信息（与UTC一致）。但是，有一个注意点。在遇到相同的group-by key之前，suppress不会刷新聚合的记录！！。...为了在所有事件中使用相同的group-by key，我不得不在创建统计信息时在转换步骤中对key进行硬编码，如 "KeyValue.pair("store-key", statistic)"。...然后，groupByKey()将正确地将所有的统计信息分组。在CDC架构中，我们不能期望在宽限期后就有DB操作发生。在非高峰期/周末，可能没有数据库操作。但我们仍然需要生成聚合消息。

1.5K1 0

kakafka - 为CQRS而生

我想作为一种消息驱动系统，如何保证akka消息的正确产生和安全使用应该是最基本的要求。而恰恰akka是没有提供对消息遗漏和重复消息的保障机制。我想这也是造成akka用户担心的主要原因。...不过akka在alpakka社区提供了alpakka-kafka：这个东西是个基于akka-streams的kafka scala终端编程工具，稍微过了一下，感觉功能比较全面，那就是它了。...要注意的是创建topic和partition都是严格的管理工作admin，不是在某些程序中任意进行增减的。一般来讲，在创建一个新topic时就要确定它下面的partition数量了。...至于goup内reader是如何分配partition的完全由kafka内部解决。如果发现新partition或者组内reader有增减变化，kafka会自动进行再分配rebalance。...kafka最重要的特点就是可以容许不同的应用通过不同的reader-group对同一个partition上的事件进行任意读取，本意应该是不同的应用可以利用同一个业务事件序列进行不同的业务处理。

5772 0

PlayScala 开发技巧 - 实时同步 MongoDB 高可用方案

MongoDB 从 3.6 开始为开发者提供了 Change Streams 功能，利用 Change Streams 功能可以非常方便地监听指定 Collection 上的数据变化。...利用 Play Mongo 可以方便地实现数据监听功能，并且我们可以将 Change Stream 转换成 Akka Stream，然后以流的方式处理指定 Collection 上的数据变化， mongo...，以方便批处理，当满足下面任意一个条件时便结束缓冲向后传递：缓冲满10个元素缓冲时间超过了1000毫秒对缓冲后的元素进行流控，每秒只允许通过1个元素 3 如何实现高可用？...上面的代码并没有考虑可用性，如果在监听过程中发生了网络错误，如何从错误中恢复呢？...文档中提及程序可以自动从可恢复的错误中恢复。

6473 0

全网第一 | Flink学习面试灵魂40问答案！

Table API，对结构化数据进行查询操作，将结构化数据抽象成关系表，并通过类SQL的DSL对关系表进行各种查询操作，支持Java和Scala。...key的数据进行分组（例如：在5s内到达的数据）。...用户可自定义对整个Job进行快照的时间间隔，当任务失败时，Flink会将整个Job恢复到最近一次快照，并从数据源重发快照之后的数据。 ?...如果你对akka不了解，那么参考：https://www.cnblogs.com/letsfly/p/10853341.html 10....资源调优即是对作业中的Operator的并发数（parallelism）、CPU（core）、堆内存（heap_memory）等参数进行调优。

10.4K9 6

Flink 最锋利的武器：Flink SQL 入门和实战

虽然 Avro 类型是 Flink 1.7 中唯一支持模式演变的内置类型，但社区仍在继续致力于在未来的 Flink 版本中进一步扩展对其他类型的支持。...一个完整的 Flink SQL 编写的程序包括如下三部分： Source Operator：Soruce operator 是对外部数据源的抽象, 目前 Apache Flink 内置了很多常用的数据源实现例如...Flink SQL 对算子的支持，接下来我们对 Flink SQL 中最常见的算子语义进行介绍。...GROUP BY GROUP BY 是对数据进行分组操作。例如我们需要计算成绩明细表中，每个学生的总分。...举个例子，假如我们要计算每个人每天的订单量，按照 user 进行聚合分组： SELECT user, TUMBLE_START(rowtime, INTERVAL ‘1’ DAY) as wStart,

17.1K4 1

Akka-CQRS（6）- read-side

前面我们全面介绍了在akka-cluster环境下实现的CQRS写端write-side。简单来说就是把发生事件描述作为对象严格按发生时间顺序写入数据库。...也就是说在另一个线程里有个程序也按时间顺序把这些二进制格式的对象读出来、恢复成某种结构如ActionGo类型、然后按照结构内的操作指令对业务数据进行实际操作处理，这时才会产生对业务数据的影响。...，但同时也存在订阅方sub即reader十分难以控制的问题，而且可以肯定的是订阅到达消息无法保证是按发出时间顺序接收的，我们无法控制akka传递消息的过程。...而具体pull的时段间隔如何设定也是一个比较棘手的问题。无论如何，akka提供了Persistence-Query作为一种CQRS读端工具。...refresh-interval可以在配置文件中设置，如下面的cassandra-plugin配置： cassandra-query-journal { # Implementation class

6103 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭