分布式定时任务框架_分布式定时任务_分布式任务调度框架 - 腾讯云开发者社区

amazon-s3、apache-kafka、apache-kafka-connect、scalability

我想从各种S3存储桶(超过10,000个存储桶，每个文件大约20-50MB)加载数据到Apache Kafka。存储桶列表是动态的-在运行时添加和删除存储桶。理想情况下，每个存储桶配置都应该有自己的轮询间隔(扫描新文件的频率-至少60秒，但可能更长)和优先级(正在处理的并发文件的数量)。请注意，由于每个存储桶所有者的组织中存在各种IT策略，因此无法设置从每个S3存储桶到SQS/ in /Lambda的通知。 Kafka Connect似乎是这类任务最常用的工具，它的可插拔架构将使未来添加新源代码变得更容易，因此它非常适合。将每个S3存储桶配置为其自己的连接器将允许我为每个任务设置不同的任务

浏览 49提问于2021-07-28得票数 2

1回答

在airflow中，是否可以在多个工作节点上运行单个任务，即以分布式方式运行任务

kubernetes、celery、airflow

我正在使用spring batch创建批处理作业的工作流。单个批处理作业需要2小时才能完成(要处理的数据约为100万)，因此决定以分布式方式运行，其中一个任务将分布在多个工作节点上，这样它就可以在较短的时间内执行。工作流中的其他作业(都是分布式的)需要一个接一个地按顺序运行。作业是多节点分布式作业(主/从架构)，需要一个接一个地运行。现在，我正在考虑在airflow上部署工作流。因此，在探索时，我找不到任何方法来运行分布在多台机器上的单个任务。这在气流中是可能的吗？

浏览 88提问于2021-11-23得票数 0

回答已采纳

3回答

任何众所周知的启动web站点以便进行输出缓存的方法

asp.net、asp.net-mvc、performance、caching、web-applications

让我们假设我们有一个运行在IIS 7.5上并使用ASP.NET MVC 3构建的网站。另外，假设这个网站有许多独特的产品页面，并且所有这些页面都在内存中缓存了24小时。还有其他页面也可以从输出缓存中受益。在这里之前一切都很好。一旦我们将新的更新部署到IIS中，该池就会被回收，并且所有缓存都会消失。因此，我考虑构建一个控制台应用程序，它基本上做一件事:转到并消费网站的每个页面。这是做这类事情的方式吗？有什么已知的方法可以解决这个问题吗？

浏览 3提问于2011-12-24得票数 1

回答已采纳

2回答

集群上的多线程Java应用程序？

java、cluster-computing

我有一个用于一些研究模拟的多线程java应用程序。我工作的实验室有一个很大的linux集群，以及一堆个人计算机。我是一名研究生，已经用java编程很长一段时间了，但我对集群不是很熟悉。如果我在集群上运行我的应用程序，它是否能够将各种线程分配给不同的节点？我假设事实并非如此..做这件事最好的方法是什么？我在做一些谷歌搜索时看到了Terracotta，Hadoop和Jini，但我不清楚它们有什么不同，哪种选择(可能这里提到的都不是)是最好的？我想避免进行客户机/服务器编程，如果有一个软件解决方案能够分配我的程序创建的线程-那将是最好的。谢谢，乔

浏览 2提问于2010-09-25得票数 2

回答已采纳

2回答

启动和终止在多个平台上运行的多个Java进程

java、deployment、process、kill、launch

有没有一种方法可以使用Java应用程序执行以下操作：在多台计算机上启动数百个Java进程能够杀死单个进程这是可以做到的吗？如果太复杂，在一台机器上控制这些进程可能是一个很好的开始。希望能举个例子，谢谢！

浏览 0提问于2012-01-31得票数 0

1回答

Hadoop作业依赖项与来自分布式的旧作业依赖项冲突

java、hadoop、classpath

我正在使用hadoop-2.5.2 linux发行版来运行一个带有自定义Shuffle插件的作业。映射器和减少器实现与其他依赖项一起打包到single.jar中使用以下命令运行： bin/hadoop -jar simple.jar 问题是Mapper的实现依赖于hamcrest 1.3，但是Hadoop发行版是通过mockito-all提供的，它包含较旧的匹配器(来自hamcrest 1.1)。因此，在作业运行期间，我得到： java.lang.NoSuchMethodError(org.hamcrest.core.AnyOf.anyOf(Lorg/hamcrest/Matcher;Lor

浏览 1提问于2015-09-03得票数 3

3回答

在同一个大规模数据集上对数百个模型进行评分的最佳实践？

scoring

我有预测各种事物的500+模型，以及一个由400m+个人和大约5,000个可能的自变量组成的大型数据库。目前，我的评分过程大约需要5天，操作方法是将400m+记录分块成10万人的片段，并旋转n个线程，每个线程都有一个特定的500+模型子集，并以这种方式运行，直到所有模型的所有记录都得分为止。每个线程都是一个Python进程，它提交R代码(即加载一个R .rds模型和相关的数据集转换逻辑)。这个过程耗时太长，容易出错(更多的是它变成的复杂代码网络的一个指标)，代价很高(需要大量的云实例)，并且只允许在R中构建模型(我想基本上不知道模型来自哪种语言，但我主要想启用Python和R--这是一个不

浏览 0提问于2020-01-21得票数 2

3回答

是否在c#中安排活动？

c#、schedule

我有一个通过在线服务发送文本消息的应用程序。我的用户建议我实现一个功能，将消息安排在未来的日期/时间或重复出现的消息中。在c#中有没有办法做到这一点？

浏览 1提问于2011-11-24得票数 1

1回答

如何正确求和星火中.map函数中的整数？

scala、apache-spark

我是Scala和Spark的新手，我试图在Spark中创建一个类似于对的RDD，为每一行分配一个Int键，并对+1进行求和。 val mapUrls = urls.map{ var cont = 0 x => cont += 1 (cont,x) } 问题是，在某种程度上，连续变量在一定时间后返回到1。我做错什么了？

浏览 2提问于2016-11-24得票数 0

回答已采纳

1回答

多个playframwork应用程序多次运行计划任务

playframework、playframework-2.2、playframework-2.3

我的项目使用playframework，每5分钟运行一次计划任务。当只有一个应用程序时，它工作得很好。但是，当我使用nginx配置2个播放应用程序时。两个play应用程序都运行计划任务。如何在这两个play应用中只运行一个定时任务？

浏览 5提问于2018-10-16得票数 0

1回答

如何管理基于非Tez和非MapReduce的查询

hadoop、hive、mapreduce、hadoop-yarn、apache-tez

Create table t1(id int) 上面的查询是在Hive2.3.6 (MapR HadoopDistribution6.3.0)上进行的。默认的蜂箱引擎是tez。因此，在触发查询后，我无法看到在纱线资源管理器web ui上启动了任何TEZ应用程序。因此，我将执行引擎更改为MapReduce。 set hive.execution.engine=mr 并试图再次运行相同的查询。同样，我未能看到在纱线资源管理器web ui上启动了任何MR应用程序。那么，我的问题是如何管理这些类型的查询？这些查询的细节存储在哪里，比如应用程序id，启动时间等等？

浏览 2提问于2021-04-10得票数 0

回答已采纳

1回答

Python:如何快速上传到Google BigQuery？

python、pandas、google-bigquery

我跟踪了大约25万个时间序列文件，我已经上传到Google bigquery。每天，每个系列都有大约200个新行，这些行应该通过一些API下载，然后上传到bigquery。我已经设置了一个python脚本，它首先连接到Google BigQuery以获取每个时间系列的最后日期，然后该脚本使用多进程创建10个进程，每个进程连接到一些API并下载丢失的数据。下载后，大约需要2秒，我需要将数据输入BigQuery。目前，我使用名为pandas的to_gbq函数上传数据，并计时了上传所需的时间，结果如下： 1,000 rows takes 45 seconds 10,000 rows take

浏览 2提问于2017-07-07得票数 0

回答已采纳

2回答

可以定时发送短信吗？具体的api在哪？

官方文档、短信

请描述您的问题 [附加信息]

浏览 538提问于2018-09-26

1回答

芹菜和多线程任务

python、multithreading、celery

我正在考虑使用Celery来执行分布在多台机器上的一组定义的任务。每台机器都可以处理多个任务中的任何一个，但其中一些任务将比其他任务需要更多的机器资源。有没有办法用芹菜来管理这些资源？

浏览 2提问于2012-10-09得票数 0

回答已采纳

1回答

Hadoop2.x中的DistributedCache

java、hadoop、mapreduce、distributed-cache

我在Hadoop2.x新的DistributedCache中遇到了一个问题，我发现一些人在解决这个问题，但是它不能解决我的问题此解决方案不适用于我，因为我在尝试检索DistributedCache中的数据时获得了一个DistributedCache。我的配置如下：司机 public int run(String[] arg) throws Exception { Configuration conf = this.getConf(); Job job= new Job(conf,"job Name"); ...

浏览 1提问于2013-12-10得票数 0

回答已采纳

1回答

Axon框架与Axon服务器的区别

axon、axon-framework

Axon框架与Axon Server有什么区别？

浏览 11提问于2022-04-20得票数 -2

回答已采纳

2回答

为什么我们在hadoop中使用分布式缓存？

hadoop、mapreduce、hdfs、reduce、distributed-cache

无论如何，在map reduce框架中有很多跨节点的文件传输。那么分布式缓存的使用如何提高性能呢？

浏览 1提问于2015-06-29得票数 1

1回答

我们可以在一台单节点机器上并行运行多个拆分吗？

hadoop

我在单节点machine.When上使用hadoop我运行一个1 1GB大小的大文件，拆分大小为128MB.So，它分8个拆分运行文件，但这些拆分是按顺序运行的，这意味着一个拆分在完成另一个拆分后开始执行。我们是否必须设置任何属性值才能在单节点计算机上并行运行拆分。

浏览 25提问于2019-10-31得票数 0

1回答

了解纱线环境中的TaskManager和任务槽

apache-flink

我对Flink很陌生，也没有机会阅读Flink源代码来理解源代码的JobManager、TaskManager和任务槽。我曾经想过，TaskManager进程就像星火的执行者进程，而JobManager进程就像星火的驱动进程但是当我看图表时，看来我的想法不对？在纱线容器中运行的是任务槽进程？也就是说，任务槽类似于Spark的executor进程。我对JobManager、TaskManager和、没有很好或清晰的理解

浏览 0提问于2019-01-25得票数 0

回答已采纳

4回答

java中的分布式Hashmap或分布式信息存储

java、dht

有人知道一个很好的分布式hashmap (DHT) java框架吗？不久前，我使用了，但是这里缺少一个很好的文档，所以我只将它用于一个带有丑陋黑客的原型.但现在我需要可靠的代码。还是有人为OverlayWeaver找到了一个好的文档？如果dht框架支持Chord或Kademlia，并且可以在我的java应用程序中调用，那就太完美了。还是有人知道在分散的系统中保存可靠和失败的短字符串数据的更好方法？

浏览 3提问于2015-01-07得票数 3

回答已采纳

1回答

Spark并行运行多个操作

multithreading、apache-spark

我有一个Spark应用程序选择一个子集并对该子集执行一些操作。每个子集和它的操作之间没有依赖和交互，所以我尝试使用多线程来让它们并行运行，以提高性能。代码如下： Dataset<Row> fullData = sparkSession.read().json("some_path"); ExecutorService executor = Executors.newFixedThreadPool(10); List<Runnable> tasks = Lists.newArrayList(); for (int i = 1; i <= 50; i

浏览 16提问于2019-06-16得票数 0

回答已采纳

1回答

分布式计算: PaaS的等价物？

cloud、distributed-computing、paas

我希望为我正在创建的一个应用程序做基于互联网的分布式计算。有没有任何人都知道的框架、服务或类似的东西，可以让我以一种使用云的方式做到这一点？我希望能够旋转1到x个实例，以便根据需要执行大型任务的某些部分(在不使用实例时将实例旋转下来)。如果产品尽可能地接近PaaS的概念，我会很高兴，因为我只需要关心我的代码。我看到的所有云产品似乎都专注于扩展，以处理完成一个任务(服务于您的网站)的多个副本，而不是具有扩展以分发任务的能力。

浏览 0提问于2015-03-01得票数 0

3回答

关于秒表或计时器或其他实用工具

java

我有一个启动task..Now的要求，很多线程都可以启动这个任务，这个任务通常需要4-5秒才能完成。如果某个任务已经被其他线程启动，我希望阻止该任务的启动。为了实现这一需求，我正在考虑每当任务由某个线程启动时，在不同的线程中启动一个计时器或秒表。现在，当定时器在配置的时间间隔后超时时，另一个线程可以启动任务。那么，在不同的线程中启动计时器或秒表来查看是否已经到达特定的时间是一个好的解决方案吗?有什么好的替代方案吗？

浏览 6提问于2012-05-22得票数 0

回答已采纳

1回答

管理分布式集群？

python、cassandra、cluster-computing、distributed-computing

假设已经设置了一个cassandra集群。您有一个10TB的数据库，它均匀地分布在10个节点上，一切都运行得很顺利。假设您有100台机器可供使用，每台机器都试图从cassandra集群读取(不同的)数据。此外，您还需要经常运行许多作业，每个作业在不同的时间运行(显然，每个作业都需要在不同的计算机上运行)。您如何管理所有这些任务/工作？如何在机器之间分配任务？如何跟踪进程中的作业/机器？在Linux环境中，有什么开源工具(最好是带有Python客户端的)可以帮助你做到这一点吗？

浏览 1提问于2011-04-15得票数 5

回答已采纳

1回答

Scala、Spring或Hadoop作为Api服务？

java、hadoop

我正在启动一个新的Java应用程序--我接管的当前代码库--似乎是用Jetty构建的，它直接从servlet本身写出HTML标记。 package root.web; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; public class HTML { public static String getHead(int pin,boolean due, String fname, String ln

浏览 14提问于2017-08-24得票数 0

1回答

芹菜与花椒的差异

python、celery、scrapyd

我用波西亚做了一只小蜘蛛。我已经把它部署在飞毛腿上了，而且工作很好。经过搜索，我发现我们可以用芹菜来安排蜘蛛。实际上，Scrapyd和芹菜有什么区别？有人能帮我吗。谢谢。

浏览 1提问于2015-01-14得票数 1

回答已采纳

2回答

如何在某个时间运行cakephp2中的批处理文件？

php、batch-file、cakephp-2.0

我想在每天午夜在cakephp2中自动运行一个批处理文件，但我不知道。它希望能得到一些帮助。

浏览 3提问于2014-09-26得票数 0

2回答

在OutputCommitter中，“提交任务输出”是什么意思？

hadoop、mapreduce

我正在阅读关于MapReduce框架的OutputCommitter的文档，我不理解这个特殊的解释：提交任务输出。任务完成后，如果需要，任务将提交其输出。

浏览 0提问于2012-08-06得票数 3

回答已采纳

1回答

分布式任务调度，作业队列

javascript、mysql、node.js、amazon-ec2、cron

我必须通过电子邮件发送一个特定的任务通知，需要发送给用户谁期待它每6个小时。因此，我使用节点-cron在我的服务器上安排了一个任务，它每30分钟醒来一次，检查是否有任何用户没有回复他们的电子邮件，使用mysql db和updated_at col进行跟踪。工作得很好！但现在我必须让它在分布式环境下工作。使用弹性豆杆与1-4微ec2实例.除了我所拥有的(MySQL)之外，我不想添加任何其他db/存储/队列。有人能把步骤和节点-cron一起画出来吗？(确保完成某项任务一次，我不想在6小时之前发送通知) 或者，我们是否有其他库可以在mysql中执行此操作，以确保只完成一次任务。当服

浏览 1提问于2014-11-10得票数 3

1回答

为什么Apache的性能比本地集群上的R差？

r、performance、sorting、apache-spark

我在比较本地机器上R和Apache的性能，而R似乎做得更好。这是因为我没有使用集群，还是我做错了什么？创建数据(create_data.R): options = commandArgs(trailingOnly = TRUE) rows = as.numeric(options[1]) perday = 365 / (rows-1) * 6 dates = seq(as.Date('2010-01-01'), as.Date('2015-12-31'), by=perday) rows = length(dates) ids = sample(paste0

浏览 3提问于2015-06-11得票数 2

1回答

使用Mincemeat.py链接多个Map-Reduce作业

python、parallel-processing、mapreduce、information-retrieval

我正在尝试使用Map-Reduce框架编写一个大型程序，它需要将整个过程分成三个Map-Reduce作业，这些作业应该按顺序发生。我之所以使用，是因为我在很多地方读到它比octo.py和其他用Python语言实现的框架更快。但我无法链接多个作业，因为每个客户端都需要提供密码并连接到服务器才能执行。我的想法是，通过启动客户端，所有作业都应该按顺序运行。我是python的新手。如果有人能在这方面帮助我，我将不胜感激。下面是启动作业的代码，例如这里的wordCount。 s = mincemeat.Server() s.datasource = datasource s.mapfn = map

浏览 0提问于2013-05-28得票数 3

4回答

在特定的时间之后执行一些代码

java、multithreading

我需要在特定时间后执行一个操作(例如，在应用程序启动后30分钟，如果应用程序仍在运行)。我的选择是什么，它是否有必要意味着会有一个线程“丢失”等待30分钟通过？理想情况下，在程序启动时，我想做如下事情(故意简化)，然后不必再考虑这个问题： doIfStillUp( 30, new Runnable() { .... }); 那么我应该如何实现doIfStillUp(.) 我应该使用TimerTask吗？执行者框架？最重要的是(这是为了理解的目的)：这是否意味着在30分钟内会有一个线程丢失，基本上什么也不做？如果有一个线程“什么都不做”，这是一个问题吗

浏览 4提问于2011-10-24得票数 2

回答已采纳

1回答

根据用户输入让Cron运行

python、cron

我有一个安排任务(python脚本)运行的flask应用程序。我做了一些搜索，我相信使用cron是调度这些任务的最佳解决方案。但是，这些任务的运行时间取决于用户输入。用户可以输入他们希望脚本随着节奏一起开始运行的日期(每天、每周等)。我被困在如何获取此输入并让cron基于此信息运行这些脚本上。有什么办法可以做到这一点吗？

浏览 1提问于2016-06-17得票数 1

5回答

akka或类似的golang替代方案来支持分布式并发？

go、distributed-computing

我知道golang凭借其内置的支持非常擅长并发，但在我看来它们并不是分布式的，所以什么框架/库允许我们在分布式环境中编写生产者/消费者应用程序。

浏览 1提问于2014-02-01得票数 31

2回答

基于Python的异步工作流模块:芹菜工作流和luigi工作流有什么区别？

python、celery、luigi

我正在使用django作为一个web框架。我需要一个工作流引擎，它可以执行同步任务以及异步(批处理任务)任务链。我发现芹菜和路易吉作为批处理工作流程。我的第一个问题是这两个模块之间的区别是什么。 Luigi允许我们重新运行失败的任务链，并且只有失败的子任务才能重新执行。芹菜:如果我们重新运行链(修复失败的子任务代码)，它会重新运行已经成功的子任务吗？假设我有两个子任务。第一个文件创建一些文件，第二个文件读取这些文件。当我把这些放入芹菜链中时，整个链由于第二个任务中的错误代码而失败。当我在第二个任务中修复代码后重新运行这个链时会发生什么？第一个任务会尝试重新创建这些文件吗？

浏览 5提问于2014-02-23得票数 37

回答已采纳

3回答

设置Golang，以便使用gin-gorm在一个间隔(每天)更新其数据库。

go、go-gorm、go-gin

我正在使用gin和gorm制作一个银行的golang。在数据库/表中的某个时间，我是否可以每天更新所有用户(应付利息)？

浏览 13提问于2022-08-17得票数 1

2回答

并发运行的多个模板

coldfusion

我已将coldfusion模板安排为每10分钟运行一次，当上一次运行超过10分钟时，如何防止它运行。我尝试过在应用程序范围内使用计数器变量，不幸的是，当模板超时或出错时，计数器不会递减。 PS。有没有集成应用程序(后端的东西)的冷融合框架？

浏览 1提问于2010-12-18得票数 1

回答已采纳

1回答

如何使我的javafx应用程序自动更新？

java、javafx-9

我目前正在创建一个简单的javafx应用程序，并希望创建一个“检查更新”按钮。当按下这个按钮时，它会检查是否有任何可用的更新。如果它确实找到了一个，它会提示用户这一点，并请求更新自己的权限。这是如何实施的？注意:如果这是有用的话，我使用的是Java9，而不是8。

浏览 2提问于2017-11-06得票数 2

1回答

Spark中的惰性评估。Spark如何从DB加载数据

apache-spark-sql

假设我们设置了100的限制，并且Spark应用程序连接到数据库与百万records.Does Spark加载所有百万记录或加载100 x 100？

浏览 0提问于2017-07-05得票数 2

5回答

什么是" Hadoop“-Hadoop的定义？

hadoop、hbase、hdfs、apache-spark、hadoop-yarn

这是很明显的，我们都会同意，我们可以称HDFS + YARN + MapReduce为Hadoop。但是，在Hadoop生态系统中，不同的其他组合和其他产品会发生什么呢？例如，HDFS + YARN + Spark仍然是Hadoop吗？HBASE是Hadoop吗？我想我们考虑的是HDFS + YARN + Pig Hadoop，因为Pig使用MapReduce。只是MapReduce工具被认为是Hadoop，但是在HDFS + YARN上运行的任何其他工具(比如火花)都是非Hadoop。

浏览 18提问于2015-01-24得票数 13

回答已采纳

1回答

关于KFS的Mapreduce是如何发生的？

hadoop、mapreduce

我想了解如何在Hadoop中使用KFS作为文件系统来实现mapreduce。 ./bin/start-mapred.sh If the map/reduce job/task trackers are up, all I/O will be done to KFS. 因此，假设我的输入文件分散在不同的节点(Kosmos服务器)中，我(使用KFS作为文件系统的hadoop客户端)如何发出Mapreduce命令？此外，在发出Mapreduce命令之后，我的hadoop客户端将从不同服务器获取所有数据到本地计算机，然后执行Mapreduce，还是会在输入文件所在的机器上启动TaskTrac

浏览 1提问于2013-02-22得票数 0

回答已采纳

1回答

Python中multiprocessing.manager的替代方案

python、multiprocessing

由于一些要求，我一直在管理一个使用multiprocessing.manager的程序，但是我们得到了稳定数量的错误，如超时、无效引用和其他类似错误。现在，我很好奇是否有一种更先进的替代multiprocessing.manager的方案，它具有更好的整体可靠性和更少的客户端状态跟踪。我在这个问题上尝试过谷歌，但由于关键字的奇怪组合，我只能得到虚假的结果。我们通常的用例类似于： def connect(): manager = CustomManager(address=manager_address, authkey=manager_authkey) manager.conne

浏览 0提问于2012-12-22得票数 2

回答已采纳

1回答

Tensorflow和带扭矩的分布式跑步训练

tensorflow、torque

我编写了一个与tensorflow分布式训练指南相一致的神经网络：如果集群我想运行关于使用torque进行作业调度和分发的培训，这如何与tensorflow相适应，以及它如何在集群上分配培训？我是在torque中的一个节点上设置训练，然后让tensorflow从那里分发它，还是会与torque的功能发生冲突。如果tensorflow能够处理分布，扭矩是否是必需的？我怎样才能避免两人之间的冲突？提前谢谢。

浏览 1提问于2017-10-02得票数 1

回答已采纳

1回答

redis比订阅者更快，不能获得所有的数据

python、redis、queue、redis-py

我使用python发布和订阅消息队列。 publisher rc = redis.Redis(host='127.0.0.1', port=6379) rc.ping() ps = rc.pubsub() ps.subscribe('bdwaf') r_str = "--8198b507-A--" for i in range(0, 20000): rc.publish('bdwaf', r_str) 用户 rc = redis.Redis(host='localhost', port=6379) rc.p

浏览 3提问于2017-06-28得票数 1

1回答

迁移用于mesos的马拉松应用程序--优雅的关机

mesos、marathon

我有一个小型的Mesos集群，我使用马拉松来管理一组长时间运行的服务，每个服务的实例数是可变的。我希望能够根据业务需要启动新节点或终止其中的一些节点。但是，当终止节点时，我意识到存在一个潜在的问题:当我关闭一个Mesos从站时，某些服务的实例数会暂时低于定义的minimumHealthCapacity。例如，如果要停止的机器运行的服务只有一个实例，则可能导致一些停机时间。考虑以下简化的场景:节点1运行服务A，节点2运行服务B，节点3运行服务C。所有服务的minimumHealthCapacity为1。我希望终止节点1，只运行2和3。我不希望在服务A上有任何停机时间。一个意图行为的例子是将服

浏览 0提问于2015-07-31得票数 8

回答已采纳

2回答

hadoop和spark有什么区别？

hadoop、apache-spark

随着see在市场上的增长，我可以看到spark在Hadoop上的主要用例如下：机器学习中的迭代算法交互式数据挖掘与数据处理 Spark是一个完全兼容Apache的数据仓库系统，比Hive快100倍。流处理:实时流中的日志处理和欺诈检测，用于警报、聚合和分析。传感器数据处理:从多个源获取和连接数据，内存中的数据集非常有用，因为它们很容易。而且处理得很快。我的问题是：火花会在未来几天取代Hadoop吗？当火花并行运行时，Hadoop同时工作？(这是真的吗？)

浏览 0提问于2015-07-08得票数 3

回答已采纳

1回答

Python SQLAlchemy提交到两个不同的数据库一个是MSSQL，另一个是PostgreSQL

python、sql-server、postgresql、sqlalchemy

我正在尝试提交两个不同的数据库，一个托管在MSSQL上，另一个托管在PostgreSQL上。我有两个不同的会话对象。我知道我可以做到以下几点 session1.add(record) // MSSQL session session1.commit() session2.add(record) // PostgreSQL session session2.commit() 但是，我正在尝试保持同步，所以要么成功，要么都失败(如果其中一个失败了，就不要提交给另一个)。如果有任何帮助或想法，我将不胜感激。

浏览 12提问于2017-07-01得票数 0

3回答

用Java实现Hadoop映射整个文件

file、hadoop、split、mapper

我正尝试在java中使用Hadoop来处理多个输入文件。目前我有两个文件，一个大文件要处理，一个小文件作为索引。我的问题是，当大文件分发给每个映射器时，我需要维护完整的索引文件。Hadoop提供了任何方法来制造这样的东西吗？如果没有正确地表达自己，这里有一个链接，它代表了我正在尝试实现的目标：更新：按照圣地亚哥提供的说明，我现在能够将文件(至少是URI )从亚马逊的S3插入到分布式缓存中，如下所示： job.addCacheFile(new Path("s3://myBucket/input/index.txt").toUri()); 然而，当映射器试图读取它时，会出现

浏览 3提问于2014-06-20得票数 0

回答已采纳

3回答