Hintergrund zum CrowdStrike Vorfall
Bei einem großen US-amerikanischen Hersteller von Bauprodukten kam es aufgrund eines weit verbreiteten CrowdStrike-Problems vor zwei Wochen zu einem kritischen Systemausfall , das sich weltweit auf virtuelle Maschinen (VMs) auswirkte. Dank der Managed Services von Magic Software konnte der Notfall von unserem engagierten Team in Indien schnell gemanagt und gelöst werden, während es in den USA noch Nacht war.
Systemausfall bei großem Bauproduktehersteller: CrowdStrike-Problem legt VMs lahm
Um ca. 10:27 Uhr IST erkannte das proaktive Überwachungssystem von Magic Software eine Störungsmeldung einer VM des Herstellers. Die Fehlfunktion der betroffenen VM führte dazu, dass die von ihr gehostete Anwendung nicht mehr verfügbar war, wodurch kritische Abläufe in der Produktion, die rund um die Uhr läuft, zum Stillstand kamen.
Rasches Handeln: Das engagierte Team von Magic Software in Indien übernimmt
Erkennung der Warnmeldung: Das Überwachungssystem meldete die Nichtverfügbarkeit der VM, woraufhin das Magic Software-Team sofortige Maßnahmen ergriffen hat.
Schnelle Koordinierung: Innerhalb weniger Minuten kontaktierte das indische Support-Team die DevOps- und Infrastruktur-Teams, um die Ursache zu ermitteln. Es wurde schnell festgestellt, dass der Ausfall auf ein Problem mit den Cloud-Servern von CrowdStrike zurückzuführen war, wodurch die VMs nicht verfügbar waren.
Technische Herausforderungen: Das Team sah sich mit der Schwierigkeit konfrontiert, dass die VMs nicht normal im abgesicherten Modus booten konnten, was die Bereinigung problematischer CrowdStrike-Patches erschwerte.
Koordinierte Planung und Umsetzung: So wurde der Systemausfall bewältigt
Hauptplan: Das Team schlug einen schnellen Lösungsweg ein, indem es die betroffenen Festplatten deaktivierte, die Patches bereinigte und dann die Festplatten wieder an die VMs anschloss. Mit dieser Methode wurden die von den CrowdStrike-Agent-Files verursachten Probleme erfolgreich umgangen.
Backup-Pläne: Gleichzeitig wurde eine saubere Kopie der betroffenen VM aus dem Backup-System wiederhergestellt, um eine Ausweichmöglichkeit zu schaffen. Obwohl dieser Plan nicht benötigt wurde, war das Team gut auf Eventualitäten vorbereitet.
Kontinuierliche und transparente Kommunikation: Während des gesamten Prozesses kommunizierte der Customer Success Manager regelmäßig mit den Verantwortlichen des Herstellers und lieferte regelmäßige Updates, um sie über die Fortschritte und Maßnahmen zu informieren.
Ergebnis: Systemstabilität und Betriebssicherheit wiederhergestellt
Innerhalb von ca. 6 Stunden stellte das Team von Magic Software die betroffenen Systeme wieder her, so dass die Ausfallzeit minimal war und der Kunde seine Produktion wieder aufnehmen konnte. Die Abläufe in der Fabrik liefen wieder normal, wobei die Stabilität kontinuierlich überwacht wurde.
Positive Rückmeldung des Kunden: Schaden hält sich in Grenzen
Betriebliche Kontinuität: Die schnelle Reaktion und Lösung des Problems stellte sicher, dass die Produktion des Herstellers, die auf einen kontinuierlichen Datenfluss angewiesen ist, nur minimal unterbrochen wurde.
Kosteneinsparungen: Durch die Verhinderung längerer Ausfallzeiten konnte der Hersteller erhebliche potenzielle Verluste bei den Produktions- und Betriebskosten vermeiden.
Kundenvertrauen: Die von Magic Software demonstrierte Transparenz und Effizienz stärkte das Vertrauen des Herstellers in die bereitgestellten Managed Services.
Wie Magic Software bei kritischen Notfällen unterstützt
Dieser Vorfall unterstreicht den entscheidenden Wert der Managed Services von Magic Software. Die Kombination aus proaktiver Überwachung, technischer Expertise und effektiver Kommunikation sorgte dafür, dass ein potenziell katastrophales Ereignis mit minimalen Auswirkungen bewältigt werden konnte. Dieser Anwendungsfall ist ein Beispiel für das robuste Supportsystem und die schnellen Problemlösungsmöglichkeiten, die Magic Software seinen Kunden bietet.
Mehr über FactoryEye erfahren >>