Teilnehmende
- Tobias Poschwatta
- Christian Iwainsky
- Benjamin Juhl
- Alex Wiens
Posterupdate
- Reviediertes Poster für die Shepherd-Überarbeitung
- Alex Wiens: Bericht über die "Statistiken" in Paderborn (noch mit manueller Auswertung)
- Filter: Jobs < 10 Min werden ignoiert
- Kategorien für Regeln
- Nicht Evaluiert
- Evaluiert mit Match
- Evaluiert ohne Match
- Erlangen hat an ClusterCockpit gearbeitet, über REST API können nun Job-Archive angefragt und MetaData geupdated werden
- Wie geht man mit Jobs < 10min aus; Filtern bzw. in der Masse flaggen?
- Bis zur Posterabgabe (22. April):
- Job-Statistiken der Zentren erstellen
- Jobübergreifendes Monitoring:
- Analyse auf verschiedenen Ebenen:
- Nutzer-Ebene: Jobs eines Nutzers analysieren
- Projekt-Ebene: Jobs eines Projektes analysieren
- Sliding-Window Ansatz:
- Analyse in einem bestimmten Interval durchführen (z.B. nach jedem Job, stündlich, wöchentlich)
- Rückblick auf bestimmtes Subset von Jobs (z.B. letzte T-Tage oder letzte N-Jobs)
- Diskussion: Dynamische Analyse der letzten max. N-Jobs oder T-Tage, was immer Größer/Kleiner ist?
- Was ist hier Sinnvoll?
- Seit der letzten Benachrichtigung?
- Nur neue Jobs seit der Benachrichtigung?
- Ergebnisse der Job-Analyse aus ClusterCockpit abfragen ODER einen Cache erstellen?
- Ersteres Testen; wenn das zu langsam ist, dann einen separaten Cache erzeugen
- Metriken:
- Anzahl der Kurzläufer
- Viele Pathologien in den letzten X Jobs
- Sinkende Effizienz über Zeit