Teilnehmer
- Benjamin Juhl
- Christian Iwainsky
- Alex Wiens
- Robert Schade
- Tobias Poschwatta*
- Thomas Zeiser
- Thobias Watermann
- Jan Eitzinger
Formales
Monitoring Setup
Metriken für Accelerators, z.B. GPUs
- Grobe Metriken in ClusterCockpit/LIKWID
- Applikationskontext nötig um an Metriken zu kommen
- NVIDIA Data Center GPU Manager (DCGM)
- NVIDIA System Management Interface (nvidia-smi)
- Metriken:
- GPU Utilization
- PCI-Express Bandwidth
- Memory Used
- Memory Utilization
- SM-Clock
- Number of processors
- Power
- Temperature
- Optional / Auf dem Schirm haben
JobArchiv Format
TODOs
WP1 Monitoring Setup
- TODO Alle: Sicherstellen, dass Monitoring Daten als JobArchiv JSON exportieren kann.
- TODO Jan Eitzinger / Robert Schade: ClusterCockpit: Export aller Metriken im JobArchiv-Format per API (im Moment nur einzelne Metriken)
- TODO Christian Iwainsky: GEOPM testen
- TODO Christian Iwainsky: Prototypische Implementation eines Exports, z.B. Variorum Plugin für GEOPM
- Treffen zum Informationsaustausch zu GEOPM
WP2 Application Detection
- TODO Tobias Poschwatta: ZIB Implementation nach Pathojobs Gitlab kopieren
- TODO Robert Schade: PC2 Implementation nach Pathojobs Gitlab kopieren
WP3 Data Analysis / Patterns
- TODO Alle: Patterns aus dem HPC Wiki anschauen
WP4 Rule Format / Rule Evaluation Method
- TODO: Implementation: Import der Monitoring Daten
- TODO: Implementation: Beispielhaft einfache Regeln anwenden
- Erwartet bis April
WP5 Templates for Action Plans
- Erstmal auf Ergebnisse der anderen WP warten.
Entscheidungen
Notizen