Resource Management - Moab & Torque
Beschreibung
Zur Ressourcenplanung und -verteilung auf den bwHPC-Clustern, sowohl bei der Abarbeitung von Batch-Jobs (im nicht-interaktiven Modus) als auch für die Zuteilung von Resssourcen für den interaktiven Modus verwenden die Cluster im bwHPC-Verbund sogenannte "Grid-Management-Software/Tools", unter anderem Moab (workload management solution) und Torque (resource manager).
Wichtigste Konsequenz für Sie als Nutzer der bwHPC-Cluster ist, dass Sie Ressourcen (CPUs, Rechenzeit) "nicht einfach so" belegen können/dürfen, sondern bei der Ressourcenverwaltung "anfragen" müssen, indem Sie
- im nicht-interaktiven (Batch-)Modus einen Auftrag (Batch) an die Ressourcenverwaltung abschicken
- für eine Sitzung im interaktiven Modus entsprechende Ressourcen zur Nutzung/Belegung angfragen
Einige wichtige Befehle
Befehl | Schalter | Parameter | Erläuterung | Weitere Links |
---|---|---|---|---|
canceljob | <JobID> | Beendet/Storniert Job <JobID> | ||
checkjob | <JobID> | Zeigt Status von <JobID> an | ||
-v | <JobID> | "verbose"-Modus mit mehr Information | ||
-v | <JobID> > Checkjob_<JobID>.txt | Leitet das Ergebnis der Statusabfrage in eine Datei namens Checkjob_JobID.txt um. Beispiel: checkjob -v 12345 > Checkjob_12345.txt | ||
module | avail | Zeigt alle verfügbaren Softwaremodule an. | ||
avail | <category> | Zeigt alle verfügbaren Softwaremodule in der Kategorie <category> an. | ||
help | Zeigt allgemeine Hilfe zur Handhabung von Modulen an (Liste der Schalter/Parameter). | |||
help | <modulefile> | Hilfe zu Softwaremodul <modulefile>. Beispiel: "module help math/stata/14" zeigt Informationen über Stata 14 an. | ||
list | Listet alle geladenen Module auf. | |||
load | <category>/<software_name> | Lädt die Default-Version des Softwaremoduls <software_name>. Beispiel: "module load math/stata" lädt die aktuelle/Default-Version von Stata. Entspricht "module load math/stata/14", wenn Version 14 die aktuelle ist. | ||
load | <category>/<software_name>/<version> | Lädt die Version <version> des Softwaremoduls <software_name>. Beispiel: "module load math/stata/14". | ||
show | <modulefile> | Zeigt die Startparameter zu Softwaremodul <modulefile> an. Beispiel: "module show math/stata/14" zeigt die Startparameter von Stata 14 an. | ||
unload oder remove | <modulefile> | Entlädt / Entfernt Softwaremodul <modulefile> aus der Liste der geladenen Softwaremodule. | ||
msub | Übergibt/Definiert einen Job an/für Moab. | Referenz | ||
-I (großes "i") | Job läuft im interaktiven Modus. Schließen Sie nach der Anforderung eines interaktiven Jobs die Terminalsitzung (PuTTY) nicht, sondern warten Sie, bis die Zuweisung durch Moab erfolgt ist und die Bestätigung zu sehen ist: "salloc: Granted job allocation ..." | |||
-V | Alle Umgebungsvariablen werden auf den Node mit der interaktiven Sitzung übertragen. | |||
-l (kleines "L") | nodes=x:ppn=y walltime=hh:mm:ss pmem=nnnn[kb|mb|gb] mem=nnnn[kb|mb|gb] naccesspolicy=[singlejob] | Fordert Ressourcen an. Bei der Eingabe an der Konsole werden mehrere Parameter werden durch Kommas getrennt. | Referenz zu Torque | |
-q | develop [node=thin] singlenode [node=thin] multinode [node=thin] verylong [node=thin] fat [node=fat] | Ordnet Job einer Queue (=vordefiniertes Set von Ressourcen) zu. Die Queues sind clusterspezifisch definiert: | ||
qsub | Übergibt/Definiert einen Job an/für Torque. Sollte laut ZDV und RUM funktionieren, führt aber zu einer Fehlermeldung. | Referenz | ||
showbf | Referenz | |||
showq | Zeigt alle Jobs an. | |||
-r | Zeigt laufende Jobs an. | |||
-i | Zeigt wartende ("eligible / idle") Jobs an. | |||
-b | Zeigt blockierte Jobs an. | |||
-c | Zeigt kürzlich beendete Jobs an. | |||
showstart | <JobID> | Zeigt die voraussichtliche Start- und Endzeit von Job <JobID> an. |
Beispiele
Befehl | Erläuterung |
---|---|
checkjob -v 12345 > Status_von_Job_12345.txt | Liest den Status von Job 12345 aus und speichert das Ergebnis in der Datei "Status_von_Job_12345.txt" |
msub -I job_abc.sh (großes "i") | startet Job job_abc.sh im interaktiven Modus |
msub -I -V -l nodes=1:ppn=1,walltime=02:00:00 | Startet interaktive Session mit einer CPU, die zwei Stunden läuft. Standard-Speicherzuweisung: 5 GB. |
Links
Ressource | Hinweise / Bemerkungen |
---|---|
Allgemeines Handbuch für Batch Jobs, gültig für alle bwHPC-Cluster |
|
Handbuch (Erweiterung) mit speziellen Befehlen für den bwUniCluster |
|
Referenz zum Befehl qsub | Dokumentation des Herstellers zu Torque |
Referenz zum Befehl msub | Dokumentation des Herstellers zu Moab |