Informações sobre jobs fantasmas

porcenapad

Informações sobre jobs fantasmas

O job fantasma é aquele que não executa em todos os processadores que são alocados no arquivo .srm. No caso do Gaussian, o número de processadores alocados no arquivo .srm tem que ser igual ao número de processadores alocados no arquivo .gjf. Em alguns casos, mesmo com a informação do .srm batendo com a informação do .gjf, o Gaussian não consegue alocar todos os processadores. Isso é um problema próprio do Gaussian que não consegue paralelizar alguns cálculos. Nesses casos, o processo inicializa em apenas um nó, sendo que os outros não executam nada, mas são marcados como ocupados pelo sistema, não podendo ser utilizados para outros jobs.

A sugestão é que após a submissão e o início da execução de um job, seja verificado quais nós foram alocados para a execução do job através do comando squeue. Em seguida, utilize o comando pdsh -w padufc[X,Y,Z,…] uptime, substituindo X,Y,Z,… pelos nós que foram alocados. O primeiro valor após load average deve ser 12, ou próximo de 12. Caso contrário, o cálculo está desbalanceado. No caso de ser 0.00, significa que a máquina está alocada sem ser usada, portanto, seu job pode ser cancelado através do comando scancel “ID do job”.

Sobre o Autor

cenapad administrator