|
|
Teilnehmer
|
|
|
--------------------------
|
|
|
# Teilnehmer
|
|
|
* Benjamin Juhl
|
|
|
* Christian Iwainsky
|
|
|
* Alex Wiens
|
... | ... | @@ -9,11 +8,61 @@ Teilnehmer |
|
|
* Thobias Watermann
|
|
|
* Jan Eitzinger
|
|
|
|
|
|
TODOs
|
|
|
--------------------------
|
|
|
|
|
|
Entscheidungen
|
|
|
--------------------------
|
|
|
# Formales
|
|
|
* Gruppe im RWTH Gitlab: https://git-ce.rwth-aachen.de/pathojobs
|
|
|
* Nächstes Meeting 15. März, eventuelle Konflikte
|
|
|
|
|
|
# Monitoring Setup
|
|
|
|
|
|
## Metriken für Accelerators, z.B. GPUs
|
|
|
* Grobe Metriken in ClusterCockpit/LIKWID
|
|
|
- Applikationskontext nötig um an Metriken zu kommen
|
|
|
* NVIDIA Data Center GPU Manager (DCGM)
|
|
|
* NVIDIA System Management Interface (nvidia-smi)
|
|
|
* Metriken:
|
|
|
- GPU Utilization
|
|
|
- PCI-Express Bandwidth
|
|
|
- Memory Used
|
|
|
- Memory Utilization
|
|
|
- SM-Clock
|
|
|
- Number of processors
|
|
|
- Power
|
|
|
- Temperature
|
|
|
* Optional / Auf dem Schirm haben
|
|
|
|
|
|
## JobArchiv Format
|
|
|
* Spezifikation: https://github.com/ClusterCockpit/cc-backend/tree/master/pkg/schema/schemas
|
|
|
* Versionierung der Spezifikation fehlt noch
|
|
|
* Kommende Änderung abwarten: Unit Schema für alle Metriken (Branch: import-data-sanitation)
|
|
|
|
|
|
|
|
|
# TODOs
|
|
|
## WP1 Monitoring Setup
|
|
|
* TODO Alle: Sicherstellen, dass Monitoring Daten als JobArchiv JSON exportieren kann.
|
|
|
* TODO Jan Eitzinger / Robert Schade: ClusterCockpit: Export aller Metriken im JobArchiv-Format per API (im Moment nur einzelne Metriken)
|
|
|
* TODO Christian Iwainsky: GEOPM testen
|
|
|
* TODO Christian Iwainsky: Prototypische Implementation eines Exports, z.B. Variorum Plugin für GEOPM
|
|
|
* Treffen zum Informationsaustausch zu GEOPM
|
|
|
|
|
|
## WP2 Application Detection
|
|
|
* TODO Tobias Poschwatta: ZIB Implementation nach Pathojobs Gitlab kopieren
|
|
|
* TODO Robert Schade: PC2 Implementation nach Pathojobs Gitlab kopieren
|
|
|
|
|
|
## WP3 Data Analysis / Patterns
|
|
|
* TODO Alle: Patterns aus dem HPC Wiki anschauen
|
|
|
|
|
|
## WP4 Rule Format / Rule Evaluation Method
|
|
|
* TODO: Implementation: Import der Monitoring Daten
|
|
|
* TODO: Implementation: Beispielhaft einfache Regeln anwenden
|
|
|
* Erwartet bis April
|
|
|
|
|
|
## WP5 Templates for Action Plans
|
|
|
* Erstmal auf Ergebnisse der anderen WP warten.
|
|
|
|
|
|
|
|
|
# Entscheidungen
|
|
|
|
|
|
|
|
|
# Notizen
|
|
|
|
|
|
Notizen
|
|
|
-------------------------- |
|
|
\ No newline at end of file |