Ziel unserer Arbeit ist es, eine Cloud-Infrastruktur für Arbeitsgruppen im Kontext des Exzellenzclusters "Maschinelles Lernen", dem Tübingen AI Center und der Cyber Valley-Initiative bereitzustellen. Es soll eine Plattform entstehen, die kollaboratives Arbeiten, hoch-performante Berechnungen so wie ein modernes Datenmanagement ermöglicht.
Unsere Hauptaufgabe ist dabei die Hardware- und Software-Grundstruktur der Cloud, sowie alle zusätzlichen Komponenten, aufzubauen, zu pflegen und zu erweitern. Neben dem Betrieb der Hardware in einem eigens dafür vorgesehenen Serverraum und der Bereitstellung geeigneter Anwendungs- und Softwarelösungen, gehört auch die technische Betreuung der Nutzer zu unserem Arbeitsauftrag.
Den Kern der Infrastruktur bildet der Ressourcenmanager Slurm. Die nötige Rechenleistung wird sowohl von Hochleistungs-GPUs als auch von leistungsstarken CPU-Rechenknoten bereitgestellt. Derzeit bietet die ML Cloud Nvidia 2080ti, A100, H100 Rechenknoten.