分解错误信息
您的错误消息包括以下提示:
OpenBLAS blas_thread_init: pthread_create: Resource temporarily unavailableOpenBLAS blas_thread_init: RLIMIT_NPROC 1024 current, 2067021 max
该
RLIMIT_NPROC变量控制用户可以拥有的进程总数。更具体地,因为它是一个每处理设定,当
fork(),
clone(),
vfork(),和c之间,由过程调用时,
RLIMIT_NPROC该过程值与该进程的父用户的总过程计数。如果超过了该值,那么您将遇到的一切都将关闭。
该错误消息表明OpenBLAS无法创建其他线程,因为您的用户使用了所有
RLIMIT_NPROC给定的线程。
由于您是在集群上运行,因此用户不太可能运行多个线程(例如,如果您正在使用个人计算机并浏览网络,播放音乐等),那么可以断定OpenBLAS正在尝试启动多个线程。
OpenBLAS如何使用线程
OpenBLAS可以使用多个线程来加速线性代数。您可能需要多个线程来快速解决一个更大的问题。您可能需要更少的线程来同时解决许多较小的问题。
OpenBLAS有几种方法来限制其使用的线程数。这些是通过以下方式控制的:
export OPENBLAS_NUM_THREADS=4export GOTO_NUM_THREADS=4export OMP_NUM_THREADS=4
优先级为OPENBLAS_NUM_THREADS> GOTO_NUM_THREADS> OMP_NUM_THREADS。(我 认为
这意味着
OPENBLAS_NUM_THREADS重写
OMP_NUM_THREADS;但是,OpenBLAS将忽略
OPENBLAS_NUM_THREADS并
GOTO_NUM_THREADS在使用进行编译时
USE_OPENMP=1。)
如果没有设置上述变量,则OpenBLAS将使用与您的计算机上的内核数(您的计算机上的32个内核)相等的线程数运行
您的情况
您的群集具有32核CPU。您正在尝试运行36个Python实例。每个实例对于Python需要1个线程,对于OpenBLAS需要32个线程。您还需要1个线程用于SSH连接和1个线程用于Shell。这意味着您需要36
*(32 + 1)+ 2 = 1190个线程。
解决该问题的核选项是使用:
export OPENBLAS_NUM_THREADS=1
这应该使您减少到36 *(1 + 1)+ 2 = 74个线程。
由于您有备用容量,因此可以调整
OPENBLAS_NUM_THREADS为更高的值,但是由您单独的Python进程拥有的OpenBLAS实例将相互干扰。因此,在获得一个解决方案的速度与获得多个解决方案的速度之间需要权衡。理想情况下,您可以通过在每个节点上运行更少的Python并使用更多的节点来解决这一折衷。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)