Teilnehmer
- Alex Wiens*
- Christian Iwainsky
- Benjamin Juhl
- Tobias Poschwatta
- Robert Schade
- Thobias Watermann
Abwesend
- Thomas Zeiser
- Jan Eitzinger
Formales
- Zusätzliches Meeting zum Betrieb von GEOPM geplant
Monitoring Setup
GEOPM
- Christian hat GEOPM Betrieb getestet
- erste Schritte zum JSON Export
- weitere Arbeit daran noch notwendig
JobArchiv JSON Format
-
Zeitreihendarstellung
- GEOPM unterstützt ein Hook basiertes Sampling (ähnlich wie LIKWID Marker-API)
- ClusterCockpit geht von regelmäßigem Sampling aus und das JobArchiv Format enthält keine Timestamps
- "series" Feld enthält Objekte mit Arrays von Samplingwerten, siehe https://github.com/ClusterCockpit/cc-backend/blob/master/pkg/schema/schemas/job-metric-data.schema.json
-
Regelauswertungsprogramm
- Wenn "timestep" gleich "0", dann soll es JSON Zusatzfelder geben mit Timestamps
- Unterstützung unterschiedlicher Samplingraten
ClusterCockpit Export
- Jede Metrik einzeln per API
- JobArchiv Format direkt vom ClusterCockpit Server kopieren
- Export mit einem API-Call wünschenswert
Application Detection
- ZIB Programm bekommt noch Änderungen und kommt dann in PathoJobs Git
- PC2 Programm ist im Git
- ZIB Regeln kommen als Javascript ins Git
Patterns aus Wiki und Whitepaper
- Whitepaper: https://blogs.fau.de/prope/files/2020/12/prope-whitepaper-november-2020.pdf
- Wenig zum Thema Patterns
- Wiki: https://hpc-wiki.info/hpc/Performance_Pattern_List
- Zum Teil starker Fokus auf Performance Engineering statt auf (pathologische) Userfehler
- IO/GPU Aspekte fehlen
- zum Teil sehr spezifische Fälle
- Weitere Realworld Patterns:
- angeforderte Ressourcen werden nicht ausgelastet
- Patterns aus dem "Clusterbetrieb":
- User submitten exzessiv viele Jobs auf einmal (z.B. 10000 am Tag)
- User lassen Kontingent zu Beginn verfallen, welches zum Ende der Projektlaufzeit fehlt
- Wir sollten pathologische Patterns aus dem Betrieb auch formulieren, um sie im Blick zu haben, aber aus diesem Projekt auszugrenzen.
- Patterns formulieren VS Regeln formulieren
- Erst Patterns allgemeinsprachlich formulieren (auch notwendig für Präsentation für User)
- Dann präzisieren
- Schließlich in das Regelformat übersetzen
- Alle formulieren Patterns und wir sammeln diese im Wiki.
Regel Format / Evaluation
- Plan
- Regelformat in JSON
- Programm in Python für einfache Integration von weiteren Features
- Entwurf des Regelformats hängt ab von Patterns
- Wie "mächtig" muss das Regelformat sein?
TODOs
WP1 Monitoring Setup
- TODO Alle: Sicherstellen, dass Monitoring Daten als JobArchiv JSON exportieren kann.
- TODO Jan Eitzinger / Robert Schade: ClusterCockpit: Export aller Metriken im JobArchiv-Format per API (im Moment nur einzelne Metriken)
- TODO Christian Iwainsky: GEOPM weiter testen
- TODO Christian Iwainsky: Prototypische Implementation eines Exports, z.B. Variorum Plugin für GEOPM
- Treffen zum Informationsaustausch zu GEOPM
WP2 Application Detection
- TODO Tobias Poschwatta: ZIB Implementation nach Pathojobs Gitlab kopieren
- TODO Tobias Poschwatta: ZIB Regeln ins Wiki kopieren
WP3 Data Analysis / Patterns
- TODO ALLE: Pattern formulieren und ins Wiki eintragen
WP4 Rule Format / Rule Evaluation Method
- TODO: Implementation: Import der Monitoring Daten
- TODO: Implementation: Beispielhaft einfache Regeln anwenden
- Erster Versuch erwartet bis April
WP5 Templates for Action Plans
- Erstmal auf Ergebnisse der anderen WP warten.
Entscheidungen
- Regelauswertungsprogramm kommt mit nicht regelmäßigen und unterschiedlichen Samplingraten klar.