GPU加速的SPICE仿真提升了模拟IC设计

GPU加速的SPICE仿真提升了模拟IC设计,第1张

电路发明取得的进步使智能手机和上网本等设备的生产成为可能。然而,业内专家坚信,需要更多突破才能满足处理更大电路、更高精度和更快周转时间的需求。他们认为这是电路制造未来的前进方向。

自 1970 年代初推出以来,具有集成电路重点的仿真程序 (SPICE) 已成为晶体管电路仿真不可或缺的工具。多年来,已经推出了许多 SPICE 模拟器,并且它们的功能得到了很大的提高。然而,随着对更深亚微米设计的改进和电路尺寸的增加,当前 SPICE 仿真器的能力被认为是不够的。

给定一个描述电路拓扑的网表,SPICE 仿真作业由几个主要任务组成。网表解析和建库通常是按顺序进行的。然后模拟器可以使用并行处理技术,例如多核和多线程,来加速计算直流(DC)工作点和瞬态分析的任务。模型评估是另一项可以轻松并行化的任务,尽管它通常只占总仿真时间的一小部分。所有现代 SPICE 模拟器都使用并行处理来加速,但它们使用的技术不同,并且可能导致容量和性能大不相同。

Empyrean ALPS™,全称 Accurate Large-capacity Parallel Spice,是一款并行 SPICE 仿真器,采用先进的分区和突破性技术进行矩阵求解,与市场上其他 SPICE 仿真器相比,具有最佳的容量和性能。

GPU加速的SPICE仿真提升了模拟IC设计,poYBAGLeOfWARoRsAADZaxBjwS0748.jpg,第2张

九霄软件

Empyrean ALPS™

Empyrean ALPS™ 使用的主要技术解释如下。对于给定的电路,ALPS 首先使用超图划分方法将其划分为重叠块。然后,使用 BDF(后向微分公式)方法对微分代数方程组进行离散化。对于每个块,内部矩阵通常非常稀疏,其中 LU 分解是一种非常有效的解决方法,也适合应用并行化技术。

耦合节点的矩阵通常是密集的,其中广义最小残差法(GMRES)是最有效的方法。然而,GMRES 方法的一个主要缺陷是它需要一个有效的前置条件矩阵。否则它将非常缓慢地收敛或根本无法收敛。选择一个好的前置条件矩阵并不容易,即使有一个好的前置条件矩阵,也往往需要多次迭代才能成功求解方程。ALPS 的一个突破是我们开发了新技术,不仅可以得到一个有效的前置条件矩阵,而且在大多数情况下可以使 GMRES 快速收敛,从而大大减少了求解方程的时间。

算法:GMRES – 带有(右)预处理

GPU加速的SPICE仿真提升了模拟IC设计,poYBAGLeOgKASYYoAABvuxtLqyY778.jpg,第3张

ALPS 的容量和性能使其适用于模拟大型布局后电路。对于此类电路,与其他真正的 SPICE 仿真器相比,ALPS 通常会获得 2-3 倍的加速。迄今为止,ALPS 在全球拥有数百名付费客户。

Empyrean ALPS-GT™

除了使用多个中央处理器(CPU) 内核来加速电路仿真之外,使用图形处理器(GPU) 是通过硬件加速进一步加速仿真的另一种方式。对于矩阵求解等任务,这通常是整个仿真过程中的瓶颈,如果我们能够使用多个 GPU 有效地完成它,可以获得非常显着的加速。

然而,GPU 上的矩阵求解是一项具有挑战性的任务,许多 SPICE 模拟器都尝试过但都失败了。以 Gilbert-Peierls 左视算法为例,它需要将稀疏向量缩放为密集向量,因此需要大缓存。LU 分解求解器也需要大缓存。但通常 GPU 上的缓存大小比 CPU 上的小得多,因此我们需要特殊的技术来在 GPU 上执行这些任务,而不受缓存大小和数据传输开销的限制。

Empyrean Software 开发了许多创新技术,通过使用多个 GPU 来加速 ALPS,并且该公司在 2019 DAC 中发布了 Empyrean ALPS-GT™。下图说明了一种结合左视和右视算法以加快矩阵求解的技术。

GPU加速的SPICE仿真提升了模拟IC设计,poYBAGLeOg6ABCE6AABvcffDkf8717.jpg,第4张

图 1:U 矩阵拓扑排序的依赖树生成下三角替换作业

笔记:

下一级的工作必须等到上一级的工作完成

级别 1 和级别 2 都有四个并行作业

可以从极稀疏的矩阵中生成大量的左视作业

使用左视方法处理大量并行作业

第 3 级到第 7 级只有一个可执行作业

矩阵将相对密集,模式节点被消除

由于依赖树,大多数左查找作业将连续执行

使用右查找方法为近乎密集的矩阵生成更多并行可执行作业

基准

Empyrean ALPS-GT™ 已被一些顶级 SoC 设计公司采用,并显示出显着的加速效果,尤其是在 16/7/5nm 工艺技术中的深亚微米模拟设计。在 Nvidia 的工程团队[1]最近进行的比较中,正在使用具有 2 * Intel Xeon E5-2698 V4 20 核 CPU 和 8 * Nvidia Tesla V100 GPU 的 Nvidia DGX-1 服务器。

 

模拟器 中央处理器 图形处理器 加速配置 Empyrean ALPS™ Xeon E5-2698 V4 双20核 Intel Xeon   8 个 CPU Empyrean ALPS-GT™ Xeon E5-2698 V4 双20核 Intel Xeon 英伟达特斯拉 V100 8 个 CPU + 8 个 GPU

 

表 1:模拟器数据

在硬件平台上使用 ALPS 和 ALPS-GT 模拟了几个布局后设计块。下面显示的是代表整体比较的两个块的结果。

GPU加速的SPICE仿真提升了模拟IC设计,poYBAGLeOhmAFweIAABKR1yGmNM637.jpg,第5张

图 2:性能比较案例 1

GPU加速的SPICE仿真提升了模拟IC设计,poYBAGLeOiiAbuxIAABCGXhUkLM288.jpg,第6张

图 3:性能比较案例 2

结论

Empyrean ALPS-GT™ 是第一款由 GPU 驱动的商用 SPICE 模拟器。当瞬态分析和矩阵求解时间占总运行时间时,它可以大大提高仿真性能,这通常是许多大型和布局后电路的情况。在现有设计环境中使用 Empyrean ALPS-GT™ 非常简单且无缝,基准测试结果表明,Empyrean ALPS-GT™ 可以比基于 CPU 的 SPICE 仿真器提供 5~13 倍的加速,而不会损失任何精度。


审核编辑 黄昊宇

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/dianzi/2711583.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-17
下一篇 2022-08-17

发表评论

登录后才能评论

评论列表(0条)

保存