由于CASCI/CASSCF计算量随活性空间呈指数增长,超过(16,16)的计算在高配机器上几乎不可能。近似求解大活性空间的方法通常有DMRG, selected CI等等。Block-1.5是做DMRG计算的经典程序,由Sandeep Sharma和Garnet Chan开发,虽然早在5年前就不更新了,但其计算速度仍高于很多同类程序。Block-1.5一般结合PySCF使用,可以进行DMRG-CASCI,DMRG-CASSCF和DMRG-SC-NEVPT2等计算。笔者之前在公众号上将该程序的安装拆分为几篇短文
通过官方网站提供的下载地址:https://download.open-mpi.org/release/open-mpi/v3.1/openmpi-3.1.0.tar.gz,下载3.1版的openmpi,在命令行执行如下命令,会将openmpi-3.1.0.tar.gz文件下载到当前目录:
http://sourceforge.net/projects/boost/files/boost/1.44.0/
Intel oneAPI 是一种统一的跨架构的的编程模型,提供了CPU、GPU、FPGA、专用加速器的产品。
在现代科学和工程中,数值计算工程师会遇到大量复杂的数学计算问题。这些问题突出的共性表现在高维数、计算规模大、多时空尺度、强非线性等方面。批量处理Batch拥有一套完整的并行计算框架,适配常见的并行模型(MPI应用)。利用海量弹性的云资源,有力地支撑高性能科学计算应用软件和算法。
如果报错说“Aborting because C++ compiler does not work.”,就安装下编译器:
IB(InfiniBand)和 RDMA(Remote Direct Memory Access)是一种高性能网络技术,通常用于加速数据传输。它们不是基于传统的 TCP/IP 协议栈,而是使用自己的协议栈,以实现低延迟、高带宽的数据传输。
近期由于一些原因接触到了并行计算,对于这个陌生的领域我最先接触到的是MPI框架。MPI(Message Passing Interface),可以理解为是一种独立于语言的信息传递标准。目前它有两种具体的实现OpenMPI和MPICH,也就是说如果我们要使用MPI标准进行并行计算,就需要安装OpenMPI或MPICH库。本文以MPICH为例,在ubantu中安装MPI的环境,并对vscode进行配置。
说明:下面内容仅针对Linux环境(boost官网为:http://www.boost.org/,可从这里下载它的源代码包,这里要求下载.tar.gz包,而非.7z、.zip或bz2包)。
CP2K安装的方法有很多(我们曾分享过CP2K 5.1版本的安装及简单介绍),笔者最近尝试在课题组新买的服务器上从源码编译安装CP2K,过程中遇到了各种问题。根据这次安装的经验,在此笔者想和大家分享如何从零开始安装CP2K(支持PLUMED)。
在之前的博客中我们介绍过concurrent等python多进程任务的方案,而之所以我们又在考虑MPI等方案来实现python并行计算的原因,其实是将python的计算任务与并行计算的任务调度分层实现。在concurrent和multiprocessing等方案中,我们的python计算任务和调度任务是一体化的,而且还有一个比较大的限制是没办法跨节点操作的,这对于任务与环境的定制化程度要求是比较高的。而MPI的方案在设计初期就考虑到了多节点之间通信的问题,而这种分层式的任务调度解决方案其实在架构上看也更加的合理。做计算的人只要考虑单个进程下的任务如何执行就可以了,至于任务如何并行如何调度,那就是上层的MPI该做的事情了。
Ubuntu - openmpi 源码安装 sudo apt-get install openmpi # 安装版本比较低 1. Ubuntu 程序源码安装 主要包括三个步骤: 1 - ./configure 2 - make 3 - make install 这些都是典型的使用GNU的AUTOCONF和AUTOMAKE产生的程序的安装步骤。 ./configure是用来检测你的安装平台的目标特征的。比如它会检测你是不是有CC或GCC,并不是需要CC或GCC,它是个shell脚本。 m
Dalton是一款开源免费的量子化学程序,主要特色是支持一大堆性质的计算,例如DFT下的二次响应计算(常规TDDFT计算仅是线性相应),MCSCF波函数下的核磁NMR计算等等,以及各类激发态方法。当然,也有一些高精度单参考方法(如MP2-R12和CCSD-R12等),但较少用到。其PDF手册在
CFOUR程序的全称为Coupled-Cluster techniques for Computational Chemistry,是一款专注于高精度量子化学计算的程序。从名字可以看出,其专长为耦合簇方法,支持在CC级别下做单点、几何结构优化(如CCSD(T)级别)、激发态计算(如EOM-CCSDT)、性质计算(如CCSD(T)级别的NMR计算)。其官方网站为
电脑第一次插入MPI转USB电缆时电脑会自动安装MPI电缆的驱动(部分电脑MPI系统可能会安装失败,请更换USB接口后尝试,尝试多次后如果安装驱动仍然失败,说明你所使用的电脑系统存在问题,请重新安装电脑系统后尝试,部分同学会在MPI转USB电缆驱动安装失败后到网络上下载MPI线的驱动程序手动进行安装,这样是没有用的,因为现在使用的MPI数据线驱动都是自动安装的,手动安装的驱动程序是无法识别的)
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib 改为:
C:\boost_1_60_0\tools\build\src\tools\mpi.jam,利用文本文件打开mpi.jam文件。做如下修改:
有任务需要处理一堆收集来得开源数据集,在服务器单机跑了一天才给结果,多方咨询有HPC可以用,或者叫supercomputer,或者叫计算机集群,大部分的简称grid。看了wiki、confluence,给出一堆链接在脑海中织出密密麻麻的蜘蛛网——无从下手。居然没有use case出发端到端的参考demo,真是无力吐槽。自力更生求助google,youtube,stack overflow,梳理下来,简而言之,可以理解分而治之多线程的多处理核(cpu/gpu)的版本,涉及算力资源调度引入slurm,涉及通讯引入mpi。
这种安装运行方法比前面(点击打开链接)的方法简单,这种方法用官方预装好的repast HPC2.0,可以省去自己安装MPI于boost的工作。
7. VS2013-Qt5.5.1-VTK7.0.0-Boost1.6.1-Qhull2015.2-FLANN1.8.4-Eigen3.2.8-OpenNI2.2.0.33-动态编译-PCL1.8.0
用户希望Tina SDK 能提供编译工具链,多媒体库和头文件,使得自己编写的应用能编写Makefile 去链接多媒体库来编译生成app应用。 介于此方法,本FAQ提供一份编译系统demo样例。 里面包含说明了:
之前的文章中介绍了天河二号的架构,我们大致了解到了天河二号是一个由很多计算节点组成的具有强大运算能力的超级计算机。
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天,老的分布式编程模型是否没有必要学习?这个很难回答,但是我更倾向于花一个下午的时候来学习和了解它。 关于并发和并行编程系列的文章请参考文章集合 文章结构 举个最简单的例子,通过这个例子让大家对MPI有一个基本的理解。 解释一些和MPI相关的概念。 列举一些MPI的常用函数
从CDSW1.1.0开始支持GPU,具体可以参考Fayson之前的文章《如何在CDSW中使用GPU运行深度学习》,从最新的CDSW支持GPU的网站上我们可以查到相应的Nvidia Drive版本,CUDA版本以及TensorFlow版本,如下:
使用mpicc ,[[INVALID],INVALID] ORTE_ERROR_LOG: A system-required executable either could not be found or was not executable by this user in file ess_singleton_module.c at line 231
MPI是一个跨语言的通讯协议,用于并发编程。MPI标准定义了一组具有可移植性的编程接口。
在运行 mpi-operator 之后,想进去容器查看一下,于是执行下面的命令报错。
最新的caffe2 已经移到pytorch中去了,直接下载其中的代码然后按照官方教程就可以了。
TSN是”temporal-segment-networks”的简称,是视频动作识别任务里面当前最好的方法。虽然这个结构是在ECCV2016的论文里面提出来的,代码也放出来挺长时间了,但是这个项目里面集合了Caffe, OpenCV,CUDA,CUDNN等几大神坑项目,不同版本之间的依赖、选择等问题很麻烦,因此我之前编译了好几次都没有能够编译成功。这次花了近一天的时间来重新编译了一下整个项目,虽然还是有些问题,例如MPI编译没有通过,CUDA8貌似不支持,CuDNN v5好像也不支持,但最后总算是编译通过,可以运行了。所以记录一下整个的过程,期望对自己和别人能够有所帮助。
还记得今年4月伯克利BAIR实验室发布的那个会“18般武艺”的DeepMimic模型吗?他们使用强化学习技术,用动作捕捉片段训练模型,教会了AI智能体完成24种动作,走路、跑步就不用说了,还包括翻跟斗、侧翻跳、投球、高踢腿等等高能动作。
进行深度学习的训练向来不被认为是CPU的强项,但是以CPU研发见长的英特尔并不甘心屈服于这个定位,在过去的几年里,英特尔及其合作伙伴一直在探索用CPU来进行快速有效的深度学习开发的方法。代号KNL的Xeon Phi至强芯片是英特尔的努力尝试之一,同时在深度学习算法的改进上,英特尔也做了一些努力。 近日,在美国旧金山举行的IDF16大会上,与英特尔联合宣布启动了KNL试用体验计划的浪潮集团副总裁、技术总监胡雷钧做了基于英特尔至强融合处理器KNL和FPGA上的深度学习的试用体验报告。报告介绍了高性能计算和深度学
torch.distributed 支持三个后端,每个后端具有不同的功能。下表显示哪些功能可用于CPU/CUDA张量。仅当用于构建PyTorch的实现支持时,MPI才支持CUDA。
在作者进行的不严谨的速度测试中,模拟的包含水分子在内的约6万个原子的蛋白质体系,24核CPU上速度约20 ns/day,利用-pme gpu -nb gpu -bonded gpu -update gpu 将主要任务均加载中GPU上时,利用T4速度约80 ns/day,利用V100速度约150 ns/day,A100速度约250 ns/day (CPU为常见服务器CPU)。可见利用GPU加速可较大促进模拟速度。
作者薛磊,腾讯高级软件工程师,服务于腾讯星辰算力平台,是Kubeflow的maintainer以及Volcano、 Kubernetes等其他开源项目的贡献者,致力于通过开源项目以及云原生架构改进AI基础架构,提升算法工程师以及整体AI研发的工程效率。
本文适用于OpenMolcas-v22.02和v22.06,对以后的版本可能适用也可能不适用。旧版OpenMolcas、与QCMaquis联用版本的安装请见文末链接。安装前我们需要确保有必要的编译器和库:
1 背景 图像连通域标记算法是从一幅栅格图像(通常为二值图像)中,将互相邻接(4邻接或8邻接)的具有非背景值的像素集合提取出来,为不同的连通域填入数字标记,并且统计连通域的数目。通过对栅格图像中进行连
MPI通讯是西门子专门为300/400PLC研发的通讯协议,主要运用在300/400CPU程序的上传/下载,监控/调试,和小数据量的CPU与CPU之间的通讯。
虽然笔者写过 ARM 比 Intel CPU 要有低功耗、高性能等优势,但是目前来说 Intel 芯片仍然是主流,毕竟大部分实验室所使用的服务器、工作站以及个人普通 PC 基本上都是 Intel 芯片。在 Intel 平台我们可能对于软件和依赖库的支持不需要太担心,正常来说不管 Linux 或者 Unix 系统都会有。这里笔者采用 Ubuntu Server 20.04 来举例介绍 Intel 平台下 CONQUEST 的编译安装。
ChatGPT 的横空出世开启了大语言模型 (LLM) 的普及元年,BERT、GPT-4、ChatGLM 等模型的非凡能力则展现出类似通用人工智能 (AI) 的巨大潜力,也因此得到了多行业、多领域的广泛关注。
本文以 PyTorch 官方文档 https://pytorch.org/tutorials/intermediate/dist_tuto.html 为基础,对如何编写分布式进行了介绍,并且加上了自己的理解。
OpenCV自从发布了DNN模块之后,就开始以开挂的方式支持各种深度学习预训练模型的调用,DNN模块的全称为深度神经网络,但是并不是所有深度学习模型导出到OpenCV DNN模块中都可以使用,只有那些OpenCV声明支持的层与网络模型才会被DNN模块接受,当期OpenCV支持的模型与层类型可以在下面链接中找到相关文档
ABAQUS是一款广泛应用于工程领域的有限元分析软件,具有以下主要功能:结构分析:ABAQUS可以进行静态和动态分析,包括线性和非线性分析,可以求解各种结构的应力、应变、位移、稳定性等问题。热力学分析:ABAQUS可以进行热传递、热膨胀、热应力等问题的热力学分析。动力学分析:ABAQUS可以进行振动分析、冲击响应、疲劳分析等动力学问题的求解。流体-结构耦合分析:ABAQUS可以进行流体-结构耦合分析,包括流固耦合、热流固耦合等问题。复合材料分析:ABAQUS可以对复合材料的层合板、复合材料结构的力学性能进行
Angel项目的3.2.0版本发布啦! Angel是腾讯首个AI开源项目,经过多个版本迭代,于2019年在Linux基金会顺利毕业。作为面向机器学习的第三代高性能计算平台,Angel提供了全栈的机器学习能力,并致力于解决高维稀疏大模型训练以及大规模分布式图计算的问题。 在3.1.0的版本中,Angel首次引入了图计算能力,提供了大量开箱即用的图算法,得到了业界广泛的关注和使用。本次版本发布,Angel继续加强了图计算的能力,相较于上个版本,我们做了很多优化并提供了一些新的特性,感兴趣的话就赶紧下载体验
背景 随着 AI 模型规模的越来越大,训练数据的越来越多,用户对模型的迭代效率也要求越来越高,单个 GPU 的算力显然无法满足大部分业务场景,使用单机多卡或多机多卡训练成为趋势。单机多卡训练场景的参数同步借助目前 NVIDIA NVLINK 技术已经得到了很好地解决,而多机多卡场景由于对网络通信的强依赖就没有那么简单。 目前网卡厂商提供的 RoCE 等 RDMA 技术,使得多机通信效率大幅提升,但是如何在25G或 50G VPC 网络环境下提升分布式训练系统的通信效率,仍然是目前公有云厂商亟需解决的
冯克环,腾讯云异构计算研发工程师,专注于云上 AI 训练加速相关技术,对 GPU 虚拟化、GPU 训练加速有深厚的积累,目前负责腾讯云 AI 训练加速相关技术的研发以及性能优化工作。 张锐,腾讯云网络虚拟化研发工程师,在之前的工作中专注于 AI 训练网络优化方面的工作,在 RDMA、GPU 通信优化等方面有较多经验,目前专注于做云上AI训练通信优化方面的工作。 背景 随着 AI 模型规模的越来越大,训练数据的越来越多,用户对模型的迭代效率也要求越来越高,单个 GPU 的算力显然无法满足大部分业务场景,使
HCA方案将所有的信道分为两部分:一部分信道固定配置给某些小区,即部分信道隔离;另一部分信道则保留在中心存储区中,为系统中的所有用户所共享,即部分信道共享。HCA是FCA和DCA的折中,故成为混合分配。(关于FCA和DCA参见相应词条)
Palace是一款开源的大规模计算电磁学软件包,由亚马逊云端业务实验室(AWS Lab)支持。功能丰富,同时能够在不同的高性能硬件上运行,软件上支持OpenMP, MPI和GPU并行计算。Apache的开源协议也是极为友好。详情参见《使用WELSIM生成电磁计算软件Palace的求解器文件》一文。
具体来讲,本文首先介绍了分布式计算的基本概念,以及分布式计算如何用于深度学习。然后,列举了配置处理分布式应用的环境的标准需求(硬件和软件)。最后,为了提供亲身实践的经验,本文从理论角度和实现的角度演示了一个用于训练深度学习模型的分布式算法(同步随机梯度下降,synchronous SGD)。
领取专属 10元无门槛券
手把手带您无忧上云