Resource Management - Moab & Torque

Beschreibung

Zur Ressourcenplanung und -verteilung auf den bwHPC-Clustern, sowohl bei der Abarbeitung von Batch-Jobs (im nicht-interaktiven Modus) als auch für die Zuteilung von Resssourcen für den interaktiven Modus verwenden die Cluster im bwHPC-Verbund sogenannte "Grid-Management-Software/Tools", unter anderem Moab (workload management solution) und Torque (resource manager).

Wichtigste Konsequenz für Sie als Nutzer der bwHPC-Cluster ist, dass Sie Ressourcen (CPUs, Rechenzeit) "nicht einfach so" belegen können/dürfen, sondern bei der Ressourcenverwaltung "anfragen" müssen, indem Sie

Einige wichtige Befehle

BefehlSchalterParameterErläuterung Weitere Links
canceljob <JobID>Beendet/Storniert Job <JobID>
checkjob<JobID>Zeigt Status von <JobID> an
-v<JobID>"verbose"-Modus mit mehr Information
-v<JobID> > Checkjob_<JobID>.txtLeitet das Ergebnis der Statusabfrage in eine Datei namens Checkjob_JobID.txt um.
Beispiel: checkjob -v 12345 > Checkjob_12345.txt
moduleavailZeigt alle verfügbaren Softwaremodule an.
avail <category>

Zeigt alle verfügbaren Softwaremodule in der Kategorie <category> an.
Beispiel:
"module avail math" liefert alle Module aus dem Bereich "Mathematik".

helpZeigt allgemeine Hilfe zur Handhabung von Modulen an (Liste der Schalter/Parameter).
help <modulefile>Hilfe zu Softwaremodul <modulefile>.
Beispiel: "module help math/stata/14" zeigt Informationen über Stata 14 an.
listListet alle geladenen Module auf.
load <category>/<software_name>Lädt die Default-Version des Softwaremoduls <software_name>.
Beispiel: "module load math/stata" lädt die aktuelle/Default-Version von Stata. Entspricht "module load math/stata/14", wenn Version 14 die aktuelle ist.
load <category>/<software_name>/<version>Lädt die Version <version> des Softwaremoduls <software_name>.
Beispiel: "module load math/stata/14".
show <modulefile>Zeigt die Startparameter zu Softwaremodul <modulefile> an.
Beispiel: "module show math/stata/14" zeigt die Startparameter von Stata 14 an.
unload oder
remove
<modulefile>Entlädt / Entfernt Softwaremodul <modulefile> aus der Liste der geladenen Softwaremodule.
msubÜbergibt/Definiert einen Job an/für Moab.Referenz
-I (großes "i")Job läuft im interaktiven Modus.
Schließen Sie nach der Anforderung eines interaktiven Jobs die Terminalsitzung (PuTTY) nicht, sondern warten Sie, bis die Zuweisung durch Moab erfolgt ist und die Bestätigung zu sehen ist: "salloc: Granted job allocation ..."
-VAlle Umgebungsvariablen werden auf den Node mit der interaktiven Sitzung übertragen.
-l (kleines "L")

nodes=x:ppn=y
[x=Rechenknoten, y=Prozessoren je Knoten]

walltime=hh:mm:ss
[angeforderte / voraussichtliche Laufzeit]

pmem=nnnn[kb|mb|gb]
[maximaler Speicherbedarf je Prozess des Jobs]

mem=nnnn[kb|mb|gb]
[maximaler Speicherbedarf des Jobs insgesamt]

naccesspolicy=[singlejob]
[singlejob=reserviert den Node exclusiv für den Job]

Fordert Ressourcen an.

Bei der Eingabe an der Konsole werden mehrere Parameter werden durch Kommas getrennt.

Referenz zu Torque
-qdevelop
[node=thin]

singlenode
[node=thin]

multinode
[node=thin]

verylong
[node=thin]

fat
[node=fat]

Ordnet Job einer Queue (=vordefiniertes Set von Ressourcen) zu.

Die Queues sind clusterspezifisch definiert:

Queues auf dem bwUniCluster


qsubÜbergibt/Definiert einen Job an/für Torque.
Sollte laut ZDV und RUM funktionieren, führt aber zu einer Fehlermeldung.
Referenz
showbfReferenz
showqZeigt alle Jobs an.
-rZeigt laufende Jobs an.
-iZeigt wartende ("eligible / idle") Jobs an.
-bZeigt blockierte Jobs an.
-cZeigt kürzlich beendete Jobs an.
showstart<JobID>Zeigt die voraussichtliche Start- und Endzeit von Job <JobID> an.

Beispiele

BefehlErläuterung
checkjob -v 12345 > Status_von_Job_12345.txtLiest den Status von Job 12345 aus und speichert das Ergebnis in der Datei "Status_von_Job_12345.txt"
msub -I job_abc.sh
(großes "i")
startet Job job_abc.sh im interaktiven Modus
msub -I -V -l nodes=1:ppn=1,walltime=02:00:00Startet interaktive Session mit einer CPU, die zwei Stunden läuft. Standard-Speicherzuweisung: 5 GB.

Links

RessourceHinweise / Bemerkungen
Allgemeines Handbuch für Batch Jobs, gültig für alle bwHPC-Cluster
Handbuch (Erweiterung) mit speziellen Befehlen für den bwUniCluster
Referenz zum Befehl qsubDokumentation des Herstellers zu Torque
Referenz zum Befehl msubDokumentation des Herstellers zu Moab