社区首页 >专栏 >高通量计算框架HTCondor(五)——分布计算

高通量计算框架HTCondor(五)——分布计算

charlee44

发布于 2020-02-14 08:35:59

88100

代码可运行

文章被收录于专栏：代码编写世界代码编写世界

运行总次数：0

代码可运行

1. 正文
- 1.1. 任务描述文件
- 1.2. 提交任务
- 1.3. 返回结果
2. 相关

1. 正文

1.1. 任务描述文件

前文提到过，HTCondor是通过condor_submit命令将提交任务的，这个命令需要提供一个任务描述文件。这个任务描述文件详细描述了任务运行的需求情况，如下所示：

universe = vanilla
requirements = (Arch == "INTEL" || Arch == "X86_64") && (OpSys == "WINDOWS") && (Machine == "charlee-PC" || Machine == "DESKTOP-OVHV440") 
executable = D:\Work\HTC\Work\bin\TaskProgram.exe
should_transfer_files = YES
when_to_transfer_output = on_exit
notification = complete
skip_filechecks = true

arguments = 0
initialdir = D:\Work\HTC\Work\0
transfer_input_files = input.txt
transfer_output_files = output.dat
output = $(CLUSTER)_$(PROCESS).out
log = $(CLUSTER)_$(PROCESS).log
error = $(CLUSTER)_$(PROCESS).error
queue

arguments = 1
initialdir = D:\Work\HTC\Work\1
transfer_input_files = input.txt
transfer_output_files = output.dat
output = $(CLUSTER)_$(PROCESS).out
log = $(CLUSTER)_$(PROCESS).log
error = $(CLUSTER)_$(PROCESS).error
queue

...

arguments = 15
initialdir = D:\Work\HTC\Work\15
transfer_input_files = input.txt
transfer_output_files = output.dat
output = $(CLUSTER)_$(PROCESS).out
log = $(CLUSTER)_$(PROCESS).log
error = $(CLUSTER)_$(PROCESS).error
queue

universe参数表示HTCondor的运行环境，默认为vanilla。vanilla提供的功能会少一些，但是使用也会较为方便。如果要使用一些高级的功能，可以使用standard环境，standard环境提供了断点和迁移的功能，不过需要一些额外的重链接操作生成特定的可执行程序。

requirements参数表示该一系列任务的需求。HTCondor采取了一种ClassAds匹配策略，每台计算机会一直在Pool中广播关于自己资源的Ad，通过这个参数，可以匹配该任务是否与该计算机适配。这里设置的意思是选择X86的Windows机器，且机器名称为"charlee-PC"或"DESKTOP-OVHV440"。使用"name == "slot1@USER-EHN3KRBP1V"的形式，甚至可以指定到某一核来运行。

executable也就是上一篇中实现的可执行程序。

should_transfer_files表示使用文件传输机制。文件传输机制也就是任务程序需要的数据，跟随任务程序一起发送到任务机中运行。如果不使用文件传输机制，就需要如NFS或AFS这样的共享文件系统。

when_to_transfer_output = on_exit表示当任务程序完成之后，会有输出的文件一起传送回本机。

接下来arguments开头queue结尾的代码描述了16组任务的详细描述。initialdir是初始化目录，也就是上一节中创建的每个分任务的目录。

transfer_input_files表示传送到任务机的文件。这个参数可以设置成具体的文件，目录，设置是可执行程序依赖的dll。注意发送到任务机后这些文件与执行任务文件在同一个目录中。

when_to_transfer_output表示发送回本机的文件。当任务程序运行完成后，会生成处理好的数据，可以通过这个参数将文件传送回本机。

output表示任务程序的输出文件，可以截获任务程序的stdout流。

log表示集群执行任务程序的状态，一般是HTCondor框架自动生成。

error表示任务程序的错误文件，可以截获任务程序的stderr流。