如何使用Flink dataset API对源代码中读取的总记录进行计数_我使用这个查询来获取统计数据，但是从一百万条记录中返回结果需要10秒以上的时间。如何对其进行优化？ - 腾讯云开发者社区

apache-flink

我们目前使用Flink DataSet API从FileSystem读取文件并应用一些批处理转换。我们还希望获得作业完成后处理的总记录。管道类似于dataset.map().filter() count()函数似乎是一个非并行运算符，它需要从所有数据集中进行额外的计算。有没有什么方法可以在map操作符中对处理过的记录进行

浏览 12提问于2020-05-01得票数 1

回答已采纳

1回答

在Flink中的范式之间移动数据

apache-flink

我在一个关系数据库中有一些批处理的数据，我想使用Flink将它们推送到消息总线上。由于Flink同时支持批处理和流模式，因此它看起来非常适合。话虽如此，我不知道这项任务是属于StreamingJob还是BatchJob，以及如何将两者联系起来。此任务是否更适合FlinkSQL环境？这个是可能的吗？我需要注意什么？

浏览 25提问于2021-04-28得票数 0

回答已采纳

2回答

我可以在同一个DataSet作业中使用Flink接口和DataStream接口吗？

apache-flink、flink-streaming

我正在使用Flink streaming从Kafka读取数据并处理数据。在应用程序启动时使用Kafka之前，我需要使用DataSet应用程序接口读取一个文件，并根据一些标准对文件进行排序，然后根据它创建一个列表。然后开始以流媒体的方式从Kafka消费。我已经编写了一个逻辑来使用DataSet API从文件中读取数据并对其

浏览 23提问于2017-07-12得票数 0

回答已采纳

2回答

Flink: DataSet.count()是瓶颈--如何计算并行？

java、mapreduce、apache-flink

我正在学习地图-减少使用Flink，并有一个问题，如何有效地计数元素在一个DataSet。到目前为止，我得到的是：long num = ds.count(); 2016年3月12日19:47:27我认为count()内部从所有四个CPU收集DataSet，并按顺序对它们<e

浏览 0提问于2016-12-03得票数 2

1回答

使用富链接InputFormat创建Elasticsearch的输入格式

elasticsearch、apache-flink、flink-batch

我们使用的是Elasticsearch 6.8.4和Flink 1.0.18。我们在elasticsearch中有一个带有1个分片和1个副本的索引，我想创建自定义输入格式，以便使用apache Flink dataset API读取和写入elasticsearch中的数据，并具有超过1个输入拆分，以实现更好的性能。注:每个文档大小较大(几乎为8mb)，并且由于大小限制和每个

浏览 19提问于2020-09-05得票数 0

回答已采纳

1回答

是否可以在Flink的数据流中使用Dataset转换-："Distinct()“？

apache-flink、flink-streaming、flink-sql、flink-batch

我想知道，无论如何，Flink的数据流API是否可以用来从传入的记录中删除重复项(可能是在特定的时间窗口内)，就像Dataset API一样，它提供了一个称为"Distinct“的转换。或者，如果数据集被转换为数据流以便在Flink中进行内部处理，则无论如何都可以将该数据集转换为数据流。在这方面请帮帮我。提前感谢！干杯!

浏览 1提问于2020-03-05得票数 0

2回答

Flink 1.12.x DataSet -> Flink 1.14.x DataStream

apache-flink、flink-streaming、flink-batch

我正在尝试从Flink 1.12.x DataSet api迁移到Flink 1.14.x DataStream api。mapPartition在Flink DataStream中不可用。我们的代码使用Flink 1.12.x DataSet .out.collect(...); // Collect processed data

浏览 9提问于2022-02-09得票数 0

1回答

从目录读取时出现太多打开的文件错误

apache-flink

我使用readTextFile(/path/ to /dir)来读取批文件，对行进行一些操作，并将它们保存到cassandra。一切看起来都很好，直到我到达目录中的170多个文件(在成功运行后文件被删除)。现在我收到了"IOException:打开的文件太多了“，在运行代码后，我看到成千上万的文件描述符正在打开。对只有10个文件的较小规模的测试导致了4000多

浏览 3提问于2016-10-20得票数 0

回答已采纳

1回答

具有Hbase表输入格式的Flink* DataSet api -多次读取行*

hadoop、hbase、apache-flink

我使用Flink 1.3.2与来自flink连接器的hbase (flink-hbase_2.11)，使用DataSet API。在我的测试表中，没有人会写到这个表。(大约2000万条记录)，工作并不总是读取相同数量的记录。(我通过flink web仪表板获得了这个数字，但是我可以从写到的东西中看到效果我不

浏览 2提问于2017-12-07得票数 0

1回答

从Apache中的SQL数据库读取DataSet时找不到JDBC驱动程序

java、maven、jdbc、apache-flink

在上学习了Apache的初学者Java教程之后，我想尝试对自己的数据进行一些转换。但是，我在收集运行在网络中的服务器上的Microsoft数据库的输入时遇到了问题。关于的部分中的示例包含一个类似于我所需要的部分，其中一个DataSet是使用env.createInput(.)构建的。用JDBCInputFormat。_2.11&

浏览 3提问于2016-11-10得票数 1

回答已采纳

1回答

相同大小但不同行长的火花读取性能差异

apache-spark、amazon-s3、apache-spark-sql、performance-testing

我正在使用spark来读取两个不同的数据集，这些数据集位于S3中的ORC格式中。但是，对于几乎相同大小的数据集来说，阅读性能上的差异是巨大的。212,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000列的记录

浏览 7提问于2017-10-05得票数 3

1回答

readCsvFile错误:如何为类型的证据参数指定隐式值

scala、apache-flink、scala-2.11、flink-batch

我正在IntelliJ中创建和测试一个机器学习模型，该模型将对来自流的传入数据进行分类。我正在Scala (2.11.8)和使用Flink框架(1.8.3)中工作。我正在尝试读取一个csv文件，该文件包含具有长、双和布尔数据类型的列中的培训数据，这些数据类型如下： val env = ExecutionEnvironment.getExecutionEnvironment/training.csv)(<em

浏览 10提问于2020-08-12得票数 1

2回答

为泛型类使用clojure中的类型提示

generics、clojure、type-hinting、clojure-java-interop、apache-flink

我正在尝试从运行在clojure中的Apache中获得一个小示例，但是现在我被困住了，因为clojure中的类型暗示和flink中的一些奇怪的怪癖。这是我的代码： (:import (org.apache.flink.

浏览 2提问于2015-08-20得票数 5

回答已采纳

2回答

获取OleDbDataReader ASP.NET返回的行数(VB)

asp.net、vb.net、row、datareader

使用DataReader连接数据库后，如何统计rows的数量？谢谢。

浏览 1提问于2010-06-18得票数 3

1回答

与Google Fit API的距离

android、google-fit、google-fit-sdk

Google fit API也提供了历史记录中的步骤计数。如何从API获取距离历史记录？task.getException()); }} @Overri

浏览 0提问于2018-03-06得票数 0

1回答

Apache :如何使用表API查询关系数据库？

apache-flink、flink-streaming、flink-sql

. tEnv.registerTableSource("sensors", sensorTable) 我想从关系数据库中读取数据。Flink有用于JDBC数据库的TableSource吗？

浏览 2提问于2017-12-14得票数 2

回答已采纳

3回答

如何在S3中把DataSet写成拼图文件？

apache-flink、parquet

如何使用Flink在s3存储桶中编写DataSet作为拼图文件。有没有像spark :DF.write.parquet(“在拼图中写”)这样的直接函数？ DataSet<Tuple2<Void,GenericRecord>>

浏览 0提问于2019-12-14得票数 3

1回答

如何在写入apache中的自定义接收器之前缓冲记录

google-bigquery、apache-flink、flink-streaming

我对Flink相当陌生，在技术用例方面需要一些帮助。我有一个在GKE上运行的flink应用程序，并使用自定义接收器将记录(从Kafka源)写入BigQuery。我可以将记录写入BigQuery，而不会出现任何问题。目前，记录被一个接一个地写入接收器中，因此每个kafka消息都会得到自己对BigQuery的插入api调用，这并不理想，因为我们需要执行批量插入，并且单独插

浏览 5提问于2022-10-18得票数 2

回答已采纳

1回答

在Flink数据集中保存部分输出的可能性？

hadoop、apache-flink

我正在使用flink dataset API进行迭代计算。如果我在不保存结果的情况下使用flink dataset API进行批量迭代，代码如下所示：o

浏览 4提问于2016-05-14得票数 2

回答已采纳

1回答

如何在将Flink数据集写入hdfs时创建作业对象

apache-flink

我试过使用hive，但它不支持batchExecute。因此，我修改了它，将其写入hdfs，然后生成hive表。我尝试使用以下代码编写hdfs：importorg.apache.flink.api.java.DataSet; import org.apache.flink.api.

浏览 0提问于2018-10-31得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云