... | ... | @@ -12,32 +12,90 @@ |
|
|
|
|
|
|
|
|
# Formales
|
|
|
* Zusätzliches Meeting zum Betrieb von GEOPM geplant
|
|
|
|
|
|
# Monitoring Setup
|
|
|
|
|
|
## Metriken für Accelerators, z.B. GPUs
|
|
|
|
|
|
# Monitoring Setup
|
|
|
|
|
|
## JobArchiv Format
|
|
|
## GEOPM
|
|
|
* Christian hat GEOPM Betrieb getestet
|
|
|
* erste Schritte zum JSON Export
|
|
|
* weitere Arbeit daran noch notwendig
|
|
|
|
|
|
## JobArchiv JSON Format
|
|
|
* Zeitreihendarstellung
|
|
|
* GEOPM unterstützt ein Hook basiertes Sampling (ähnlich wie LIKWID Marker-API)
|
|
|
* ClusterCockpit geht von regelmäßigem Sampling aus und das JobArchiv Format enthält keine Timestamps
|
|
|
* "series" Feld enthält Objekte mit Arrays von Samplingwerten, siehe https://github.com/ClusterCockpit/cc-backend/blob/master/pkg/schema/schemas/job-metric-data.schema.json
|
|
|
|
|
|
* Regelauswertungsprogramm
|
|
|
* Wenn "timestep" gleich "0", dann soll es JSON Zusatzfelder geben mit Timestamps
|
|
|
* Unterstützung unterschiedlicher Samplingraten
|
|
|
|
|
|
## ClusterCockpit Export
|
|
|
* Jede Metrik einzeln per API
|
|
|
* JobArchiv Format direkt vom ClusterCockpit Server kopieren
|
|
|
* Export mit einem API-Call wünschenswert
|
|
|
|
|
|
# Application Detection
|
|
|
* ZIB Programm bekommt noch Änderungen und kommt dann in PathoJobs Git
|
|
|
* PC2 Programm ist im Git
|
|
|
* ZIB Regeln kommen als Javascript ins Git
|
|
|
|
|
|
# Patterns aus Wiki und Whitepaper
|
|
|
* Whitepaper: https://blogs.fau.de/prope/files/2020/12/prope-whitepaper-november-2020.pdf
|
|
|
* Wenig zum Thema Patterns
|
|
|
* Wiki: https://hpc-wiki.info/hpc/Performance_Pattern_List
|
|
|
* Zum Teil starker Fokus auf Performance Engineering statt auf (pathologische) Userfehler
|
|
|
* IO/GPU Aspekte fehlen
|
|
|
* zum Teil sehr spezifische Fälle
|
|
|
* Weitere Realworld Patterns:
|
|
|
* angeforderte Ressourcen werden nicht ausgelastet
|
|
|
* Patterns aus dem "Clusterbetrieb":
|
|
|
* User submitten exzessiv viele Jobs auf einmal (z.B. 10000 am Tag)
|
|
|
* User lassen Kontingent zu Beginn verfallen, welches zum Ende der Projektlaufzeit fehlt
|
|
|
* Wir sollten pathologische Patterns aus dem Betrieb auch formulieren, um sie im Blick zu haben, aber aus diesem Projekt auszugrenzen.
|
|
|
* Patterns formulieren VS Regeln formulieren
|
|
|
* Erst Patterns allgemeinsprachlich formulieren (auch notwendig für Präsentation für User)
|
|
|
* Dann präzisieren
|
|
|
* Schließlich in das Regelformat übersetzen
|
|
|
* Alle formulieren Patterns und wir sammeln diese im Wiki.
|
|
|
|
|
|
# Regel Format / Evaluation
|
|
|
* Plan
|
|
|
* Regelformat in JSON
|
|
|
* Programm in Python für einfache Integration von weiteren Features
|
|
|
* Entwurf des Regelformats hängt ab von Patterns
|
|
|
* Wie "mächtig" muss das Regelformat sein?
|
|
|
|
|
|
|
|
|
# TODOs
|
|
|
## WP1 Monitoring Setup
|
|
|
* TODO Alle: Sicherstellen, dass Monitoring Daten als JobArchiv JSON exportieren kann.
|
|
|
* TODO Jan Eitzinger / Robert Schade: ClusterCockpit: Export aller Metriken im JobArchiv-Format per API (im Moment nur einzelne Metriken)
|
|
|
* TODO Christian Iwainsky: GEOPM weiter testen
|
|
|
* TODO Christian Iwainsky: Prototypische Implementation eines Exports, z.B. Variorum Plugin für GEOPM
|
|
|
* Treffen zum Informationsaustausch zu GEOPM
|
|
|
|
|
|
## WP2 Application Detection
|
|
|
|
|
|
* TODO Tobias Poschwatta: ZIB Implementation nach Pathojobs Gitlab kopieren
|
|
|
* TODO Tobias Poschwatta: ZIB Regeln ins Wiki kopieren
|
|
|
|
|
|
## WP3 Data Analysis / Patterns
|
|
|
|
|
|
* TODO ALLE: Pattern formulieren und ins Wiki eintragen
|
|
|
|
|
|
## WP4 Rule Format / Rule Evaluation Method
|
|
|
|
|
|
* TODO: Implementation: Import der Monitoring Daten
|
|
|
* TODO: Implementation: Beispielhaft einfache Regeln anwenden
|
|
|
* Erster Versuch erwartet bis April
|
|
|
|
|
|
## WP5 Templates for Action Plans
|
|
|
* Erstmal auf Ergebnisse der anderen WP warten.
|
|
|
|
|
|
|
|
|
# Entscheidungen
|
|
|
|
|
|
* Regelauswertungsprogramm kommt mit nicht regelmäßigen und unterschiedlichen Samplingraten klar.
|
|
|
|
|
|
# Notizen
|
|
|
|
|
|
|