Senior Incident Management IT-Infrastruktur (Energiehandel)
Freiberuflich in: Remote & Karlsruhe
Dauer: 11 Monate
0% Auslastung
Start: 01.02.2025
Dauer: 11 Monate +
Auslastung: 4-5 Tage pro Woche (210 PT)
Lokation: Je nach Bedarf Remote & Karlsruhe
Projektbeschreibung:
Die Serviceobjekte umfassen eine Reihe von IT-Systemen, Anwendungen und Schnittstellen, die das Energiehandelsgeschäft unterstützen. Die Umgebung umfasst Hardware und Software, die üblicherweise im Bankwesen und im Handel eingesetzt werden, wobei der Schwerpunkt auf der IT-Infrastruktur des Energiehandels liegt. Die Dienstleistung wird auf Systemen erbracht, die eine hohe Verfügbarkeit und Zuverlässigkeit erfordern, um minimale Ausfallzeiten und den Schutz der Dienstleistungsqualität zu gewährleisten. Dem ausgewählten Bieter werden visuelle Darstellungen der Systemarchitektur und der Schnittstellen zur Verfügung gestellt, um ein umfassendes Verständnis der Betriebsumgebung zu ermöglichen.
Nachträgliche Änderungen, die keine Preisanpassungen oder Änderungen des Leistungsumfangs beinhalten, können während der Vertragslaufzeit vereinbart werden.
Die Ressource wird für verschiedene Aufgaben verantwortlich sein, darunter die Identifizierung und Protokollierung von Vorfällen, die Klassifizierung und Priorisierung von Vorfällen, die Untersuchung und Diagnose von Vorfällen, die Behebung von Vorfällen und die Wiederherstellung, die Dokumentation und Berichterstattung, die Koordination und Kommunikation, das Eskalationsmanagement, die Überprüfung nach Vorfällen und die kontinuierliche Verbesserung sowie die Planung und Schulung der Reaktion auf Vorfälle. Die Tickets werden vom Auftragnehmer selbstständig aus den Ticketkanälen oder dem Backlog übernommen. Aufgrund der Komplexität der zu übertragenden Aufgaben geht der Auftraggeber davon aus, dass zur Erfüllung der vereinbarten Vertragsleistungen die Erfahrungsstufe „Senior" erforderlich ist.
Aufgaben Wissenstransferphase:
* Vermittlung von Kenntnissen über die in dieser Leistungsbeschreibung aufgeführten Anwendungen einschließlich der Leistung selbst, der verwendeten Technologien und der Architekturrichtlinien und -prinzipien
* Transfer von Wissen über die Geschäftsprozesse und die einzelnen, abhängigen Anwendungen
* Vereinbarung oder Bestätigung von Kontroll-KPIs und Quality Gates
* Nach Abschluss der Übergangsphase ist der Auftragnehmer in der Lage, alle Entwicklungs- und Betriebsleistungen selbständig zu erbringen
* Wir gehen davon aus, dass ein vollständiger Übergang in maximal 6 Monaten erfolgen wird
Aufgaben Incident Management innerhalb des trading*serviceHUB:
* Identifizierung und Protokollierung von Vorfällen
* Klassifizierung und Priorisierung von Vorfällen
* Vorfalluntersuchung und -diagnose
* Behebung und Wiederherstellung von Vorfällen
* Dokumentation und Berichterstattung
* Koordinierung und Kommunikation
* Eskalationsmanagement
* Überprüfung nach einem Zwischenfall und kontinuierliche Verbesserung
* Planung und Schulung zur Reaktion auf Vorfälle
Weitere Aufgaben:
* Erkennung und Protokollierung von Vorfällen:
* Erkennen und Protokollieren aller Vorfälle, die die IT-Servicequalität beeinträchtigen oder unterbrechen könnten
* Sicherstellen, dass Vorfälle standardisiert erfasst werden und ausreichende Details für Analysen und Maßnahmen bereitstellen
* Erstellung und Pflege eines umfassenden Vorfallsprotokolls zur Identifizierung von Mustern und Trends
* Effiziente Ressourcenzuweisung basierend auf der Analyse der Vorfallsprotokolle
* Klassifizierung und Priorisierung von Vorfällen:
* Kategorisierung von Vorfällen nach Art, Auswirkung und Dringlichkeit
* Bestimmung der Schwere von Vorfällen und Zuweisung von Prioritäten für eine rechtzeitige Reaktion
* Sofortige Bearbeitung kritischer Vorfälle und schrittweise Behandlung weniger kritischer Vorfälle
* Priorisierung von Vorfällen zur Optimierung der Ressourcenzuweisung und Lösungszeit
* Untersuchung und Diagnose von Vorfällen:
* Durchführung einer detaillierten Analyse zur Identifikation der Ursachen von Vorfällen
* Sammlung relevanter Daten und Befragung betroffener Parteien, um den Vorfall zu verstehen
* Bereitstellung von Empfehlungen zur Verhinderung ähnlicher Vorfälle und Verbesserung der Systemstabilität
* Dokumentation der Untersuchungsergebnisse und Weitergabe von Erkenntnissen an relevante Teams
* Lösung und Wiederherstellung von Vorfällen:
* Durchführung empfohlener Korrekturmaßnahmen zur Behebung des Vorfalls
* Reparatur fehlerhafter Komponenten, Anwendung von Patches und Neukonfiguration von Systemen, um den Normalbetrieb wiederherzustellen
* Umgang mit Datenverlust oder -beschädigung und Sicherstellung der Datenintegrität
* Minimierung von Ausfallzeiten, Koordination mit Teams und vollständige Servicewiederherstellung sicherstellen
* Dokumentation und Berichterstattung:
* Sorgfältige Aufzeichnung von Vorfallsdetails, Zeitplänen, Diagnoseschritten, Lösungen und Ergebnissen
* Erstellung eines umfassenden historischen Protokolls und Wissensaustausch unter Teammitgliedern
* Erstellung strukturierter Berichte, Verfolgung von Leistungskennzahlen und Identifizierung wiederkehrender Probleme
* Bereitstellung datengestützter Einblicke zur Unterstützung der Entscheidungsfindung und Bewertung von Vorfallmanagementstrategien
* Koordination und Kommunikation:
* Überwachung des Vorfallmanagementprozesses mit klaren Rollen und Verantwortlichkeiten
* Agieren als Kommandozentrale zur Koordination technischer, operativer und leitender Teams
* Förderung funktionsübergreifender Zusammenarbeit, Sicherstellung klarer Kommunikation und Information aller Beteiligten
* Durchführung von Nachbesprechungen, Analyse der Leistung, Identifikation von Verbesserungsbereichen und Weitergabe von Lernerfahrungen
* Eskalationsmanagement:
* Implementierung eines robusten Eskalationsprozesses mit klaren Kriterien und Schwellenwerten
* Sicherstellen der rechtzeitigen Eskalation von Vorfällen an die entsprechenden Ebenen basierend auf ihrer Schwere
* Einbindung der Geschäftsleitung und relevanter Stakeholder bei Bedarf mit rechtzeitigen Updates
* Verfolgung von Eskalationen, Dokumentation der Vorfallsdetails und Nutzung der Informationen für Nachbesprechungen und Verbesserungen
* Nachbesprechung von Vorfällen und kontinuierliche Verbesserung:
* Durchführung gründlicher Ursachenanalysen (RCA) für P1-Vorfälle unter Beteiligung aller relevanten Teams
* Entwicklung und Umsetzung effektiver Korrekturmaßnahmen basierend auf den RCA-Ergebnissen
* Überwachung der Wirksamkeit der Korrekturmaßnahmen, Analyse von Vorfallstrends und Empfehlung von Prozessverbesserungen
* Pflege umfassender Dokumentation und regelmäßige Berichterstattung über RCA-Ergebnisse, Korrekturmaßnahmen und Fortschritte bei der kontinuierlichen Verbesserung
* Planung und Schulung der Vorfallsreaktion:
* Festlegung klarer Eskalationskriterien basierend auf Schweregrad und Auswirkungen
* Sicherstellung der prompten Eskalation von Vorfällen, die die definierten Kriterien erfüllen
* Entwicklung und Bereitstellung von Schulungsprogrammen, um das Bewusstsein der Teams und die Einhaltung der Eskalationsprotokolle sicherzustellen
* Durchführung regelmäßiger Übungen, Aktualisierung mit Branchentrends und Förderung einer Kultur des kontinuierlichen Lernens
Anforderungen:
* Fundierte Kenntnisse und Erfahrungen in der IT-Infrastruktur des Energiehandelsgeschäfts
* Umfassende IT-Kenntnisse
* Die Rolle erfordert ein ruhiges Auftreten unter Druck, schnelle Entscheidungsfindung, klare Kommunikation, Geduld, Einfühlungsvermögen, analytisches Denken, Einfallsreichtum
* Fließende Englisch- und Deutschkenntnisse