图形处理器加速算法在复杂高层结构非线性响应分析中的应用

李红豫1,2,滕 军3,李祚华3,张 璐4

(1.桂林理工大学土木与建筑工程学院,桂林 541004;2.桂林理工大学广西有色金属隐伏矿床勘查及材料开发协同创新中心,桂林 541004;3.哈尔滨工业大学深圳研究生院深圳市城市与土木工程防灾减灾重点实验室,深圳 518055;4.伊利诺伊大学芝加哥分校土木与材料工程系,美国芝加哥60607)

摘 要:目前有限元分析软件多基于中央处理器的平台方式构建,在处理复杂高层结构非线性响应分析时暴露出计算耗时多、计算效率低以及对计算硬件要求高等问题。图形处理器由于其硬件构造的先天优势,可以提供十倍乃至上百倍于中央处理器的浮点运算和并行计算性能,因而为高层结构非线性计算所面临的瓶颈问题提供了一个切实可行的解决方法。该文在构建异构并行计算平台的基础上,提出一种适用于图形处理器加速的有限元并行数值计算方法。该方法利用精细化结构分析模型的自由度数据和图形处理器中的线程建立一一对应映射关系,对动力响应的隐式积分算法进行图形处理器线程级的并行化处理,并且结合 EBE单元级的优化存储空间机制,降低系统方程组求解时对内存空间的需求。通过对比振动台试验结果对该方法进行验证,并对实际高层钢筋混凝土框筒结构工程进行弹塑性地震响应分析,结果显示该文所提方法在保证模型精度前提下能有效提高大型复杂高层结构非线性响应分析效率。

关键词:非线性响应分析;图形处理器;高层结构;并行计算;EBE

随着精细化建模的发展,复杂高层结构分析模型自由度数量巨大,计算耗时长制约着有限元进一步在复杂高层结构分析中应用推广。现有的有限元软件平台多基于单一中央处理器(CPU)串行方式构建,在弹塑性地震响应分析中尤其是针对大震作用下的结构响应分析,其计算耗时多已然成为高层结构抗震设计的瓶颈[1]。如何实现高效的有限元分析,成为迫切需要解决的问题。近年来图形处理器(GPU)已远超“摩尔定律”的速度飞速发展,不仅有效提高了图形处理的速度,而且很大程度地提高了与计算机图形相关应用领域的发展。由于图形处理器具有强大的浮点运算能力,基于图形处理器的并行计算已经成为国内外研究的热点。

图形处理器的并行计算主要应用于求解工程领域形成的系统方程组,分别在直接法和迭代法的并行算法开发与实施上的研究成果较多。He等[2]实现了LU分解方法;Yang等[3]和Naumov等[4]分别采用Cholesky分解和不完全Cholesky分解;Li等[5]采用不完全 LU 分解;高家全和王志超[6]采用SSOR预条件;陈曦等[7]和 Serban等[8]采用预处理Krylov子空间迭代法。上述研究成果与中央处理器的串行方式求解比较,图形处理器的并行计算都获得了至少10倍的加速。

图形处理器在非线性有限元方面获得了一些应用[9-11]。文献[12-14]采用图形处理器求解有限元系统方程,用于加速求解非线性问题,但这些应用暂且局限于平面问题。

目前,大型通用有限元软件ABAQUS的6.12版本提供GPU加速功能,它是基于现有CPU串行平台进行的改进,只在求解过程中某一环节利用GPU并行技术,软件主体框架仍然是基于CPU串行平台的。ABAQUS软件的GPU加速功能只限于ABAQUS/Standard模块中的对称直接稀疏(sparse)方程组求解器,而 ABAQUS/Explicit模块中暂不支持[15]

本文在结构非线性有限元分析高效计算平台HSNAS(GPU)(high-rise structure nonlinear analysis software based on GPU,软件著作权编号:2014SR086353)[16]基础上,提出一种适用于图形处理器加速的有限元并行数值计算方法。该方法利用精细化结构分析模型的自由度数据和图形处理器中的线程建立一一对应映射关系,对动力响应的隐式积分算法进行图形处理器线程级的并行化处理,并且结合EBE单元级的优化存储空间机制,以此降低系统方程组求解时对内存空间的需求,提高结构有限元分析的求解规模和计算效率。HSNAS(GPU)从平台搭建、软件整体框架设计到有限元并行算法开发,始终贯穿 GPU并行技术,从本质上突破目前国内外分析软件多基于单一平台的构建方式及大型复杂结构在单一 CPU串行有限元软件平台上计算耗时多的瓶颈,为复杂高层结构提供高效实用的数值分析平台。

1 图形处理器并行计算原理及有关算法

1.1 图形处理器并行计算原理

从硬件上来说,图形处理器执行资源组织成多核流处理器,也就是所谓的流处理核心,如图1所示。而目前的中央处理器多为8核、16核或者32核心。相比之