006 GPU软件资源

Post date: 2015/2/8 上午 05:33:54

1、NAMD 2.8 CUDA天河编译环境

NAMD在天河上的编译环境是:

Intel Compiler 11.1

CUDA 4.0

Tianhe MPI

NAMD 2.8 CUDA的可执行文件位于/vol-th/home/gpu-app/bin/namd2。用户使用可以与国家超级计 算天津中心的菅晓东联系(jianxd@nscc-tj.gov.cn)具体使用方法。

例子1:NAMD的stmv问题定义详见NAMD网站:

http://www.ks.uiuc.edu/Research/STMV/#stmv

此问题的输入文件位于/vol-th/home/gpu-app/stmv/stmv.namd。

使用GPU在天河上求解stmv的步骤为:

[gpu-app@ln1%tianhe stmv]$ cd /vol-th/home/gpu-app/stmv/

[gpu-app@ln1%tianhe stmv]$ yhrun -N x -n y -p gpu_test namd2 +idlepoll stmv.namd

其中x为使用的节点个数,y我们推荐为等于6*x(详见3.1节)。

对用户自己的问题,可以直接参照stmv问题的输入文件及GPU使用方法。

本节的性能分析都使用stmv问题。程序运行于天河的gpu_test分区上。节点硬件配置为:

2 x Intel Xeon X5670 CPU (6-core), 2.93GHz

24GB memory

1 x Nvidia Tesla M2050

表1是每节点不同进程数以及使用不同节点数的NAMD性能(days/ns)比较。图1以图形的方式展示了这些数据。

表1:

3.1 GPU加速

2、NAMD 2.8 CUDA使用指南

3、NAMD GPU性能分析

图1: CPU及GPU NAMD的性能(day/ns)

从图1可以看出,为了在天河上达到性能最优,最佳的方案是使用GPU,并且每个节点开6个进程。这也是为什么在第2节我们推荐了y=6*x这个公式。(6个进程是我们经过试验得到的最佳值,每个节点充分使用了一个CPU和一个GPU,另一个空闲的CPU可供其他程序使用。CPU如果开更多的进程,CPU的利用率可以提高,但MPI的通信将增多,结果反而降低了总性能。)

表2是每节点不同进程数以及使用不同节点数的NAMD性能(ns/day)比较。图2以图形的方式展示了这些数据。

表2:

图2: CPU及GPU NAMD的性能(ns/day)

从图2可以看出,GPU的整体性能比CPU要好,并且随着GPU节点数的增加,NAMD的性能线性增长,12个GPU节点的性能,相当于24个CPU节点的性能,GPU相对于CPU有较大的性能优势。

表3是每GPU节点与CPU节点的NAMD性能比较,相对于单个CPU节点的加速比。图3以图形的方式展示了这些数据。

表3与图3展示了天河上相同的GPU节点数与相同的CPU节点数的加速比数据。从图中我们可以看出GPU版本的性能显著高于CPU版本。

表3:

3.2 天河GPU vs CPU 性能比较

图3: 相同节点数的CPU及GPU NAMD的加速比