CrowdStrike BSOD
Wie Versio.io Kunden den durch CrowdStrike verursachten IT-Ausfall effizienter und zeitnaher lösen
Free trial In a nutshell NIS2 🇩🇪- Eine Übersicht zu dem durch CrowdStrike verursachten weltweiten IT-Ausfall am 19. Juli 2024?
- Was wird benötigt, um CrownStrike mit Versio.io zu erkennen?
- Wie Versio.io Kunden die betroffenen CrowdStrike-Server identifizieren?
- Häufig gestellte Fragen zum CrowdStrike BSOD-Problem von Versio.io Kunden
Globaler IT-Ausfall durch CrowdStrike
Was wird benötigt, um CrownStrike mit Versio.io zu erkennen?
Wie Versio.io Kunden die betroffenen CrowdStrike-Server identifizieren
CrowdStrike Nutzung in der IT-Landschaft automatisch erfassen
CrowdStrike Nutzung in der IT-Landschaft automatisch erfassen
Der OneImporter Agent der Versio.io Plattform ist in der Lage auf einem Server alle ausgeführten Prozesse zu erfassen. Dazu gehört u.a. auch der CrowdStrike Falcon Agent mit Namen "CSFalconService.exe", welcher den IT-Ausfall verursacht hat.
Die vollautomatisierte Inventarisierung sorgt dafür, dass Versio.io Kunden über exakte Daten zur Nutzung des CrowdStrike Falcon Agent verfügen. Neben den Prozesscharaketeristiken erkennt Versio.io automatisch das Produkt und dessen Versionsnummern.
Darüber hinaus kann der OneImporter mittels des "File-Importers"-Modules die problemausauslösende Datei "C:\Windows\System32\drivers\CrowdStrike\C-00000291*.sys" inventarisieren.
Server, auf denen der CrowdStrike Falcon Agent läuft, über Topologiekontext ermitteln
Server, auf denen der CrowdStrike Falcon Agent läuft, über Topologiekontext ermitteln
Die Versio.io Plattform ist in der Lage die Beziehungen zwischen erfassten Configuration Items automatisch zu erkennen. Aus der abgebildeten Topologiedarstellung geht hervor, dass der CrowdStrike Falcon Agent von einem Prozess namens "Services.exe" und dieser wiederum von "Wininit.exe" gestartet wurde. "Wininit.exe" ist der wichtigste Prozess eines Windows-Betriebssystem und hat deshalb eine direkte Relation zu der Server-Instanz "evp-node-1".
Auf dieser topologischen Basis ist nun für jeden CrowdStrike Falcon Agent transparent, auf welchem Server dieser ausgeführt wird.
Ermittlung aller Server, welche den CrowdStrike Falcon Agent nutzen
Ermittlung aller Server, welche den CrowdStrike Falcon Agent nutzen
Auf Basis der erfassten Prozessdaten und der Topologie können im Versio.io Reporting nun alle Prozesse nach "CSFalconService.exe" gefiltert und der ausführende Host angezeigt werden.
Damit stehen Versio.io Kunden nun elementare Informationen zum Umfang und den Servern zur Verfügumng, welche den CrowdStrike Falcon Agent nutzen. Hier wäre in gleicher Weise ein Reporting möglich, auf welchem Servern die Datei Datei "C-00000291*.sys" vorhanden ist.
Laufzeitverhalten der von CrowdStrike betroffenen Server mittels OneImporter Heartbeat ermitteln
Laufzeitverhalten der von CrowdStrike betroffenen Server mittels OneImporter Heartbeat ermitteln
Jeder Server unserer Kunden ist mit einem Versio.io OneImporter provisioniert. Dieser sendet dem Server in regelmäßigen Abstand Heartbeats zu. Der Heartbeat ist eine Nachricht, welche dem Versio.io Server anzeigt, dass der OneImporter funktionstüchtig ist. Anhand des Heratbeat-Status ist im OneImporter Dashboard zu erkennen, welche auf Windows-Betriebssytsmen ausgeführten OneImporter nicht mehr korrekt arbeitet. Auf Grund der hohen Stabilität des OneImporters ist in dem Zeitbereich des weltweiten IT-Ausfalls davon auszugehen, dass diese Windows Systeme Teil der CrowdStrike Problematik sind.
Fragen & Antworten
Waren die Versio.io Dienste vom Ausfall betroffen?
Die Dienste der Versio.io Plattform waren von der CrowdStrike-Problematik nicht betroffen, da die Plattform nur auf Linux-basierten Rechnern läuft. Alle OneImporter und OneGates Agenten können davon betroffen sein, wenn diese auf Windows-Systemen betrieben werden. Im OneImporter und OneGate Dashbaord können sie an dem Heartbeat der Agenten jedoch einfach erkennen, wenn diese nicht mehr funktionsfähig sind.
Was war die Ursache des Ausfalls?
CrowdStrike hat ein Update für Windows-PCs herausgegeben, das einen Defekt enthielt. Betroffene Server wurden in eine Boot-Schleife gezwungen, die das Einschalten verhinderte. Die Boot-Sequenz ist der erste Einschaltvorgang eines Servers, bei dem die auf dem Server laufenden Betriebssysteme, Anwendungen und Dienste zunächst online gebracht werden.
Warum war der Ausfall so schwerwiegend?
Wenn ein betroffener Server in einer Boot-Schleife festhängt, kann er keine Kommunikation und keine Dienste einrichten, d. h. er reagiert nicht auf Anfragen oder Befehle. Es ist, als wäre der Server ausgeschaltet. Um die Dienste wiederherzustellen, muss die Behebung einzeln und manuell durchgeführt werden. Der Behebungsprozess kann für jeden Server zudem komplex und zeitaufwändig sein und ein „Rollback“ auf einen früheren Zeitpunkt aus Sicherungskopien beinhalten. Insgesamt sind schätzungsweise 8,5 Millionen Windows-Geräte betroffen.
Gibt es einen Zeitplan für die Wiederherstellung der Dienste?
Da die Behebung manuell und zeitaufwändig ist, hängt die Wiederherstellung der Dienste davon ab, welche Server an den kritischsten Anwendungen beteiligt sind und welche Server vor weniger kritischen Diensten priorisiert werden. Dies kann bei vielen Organisationen Stunden oder Tage dauern. Versio.io Kunden können diesen Prozess beschleunigen, indem sie betroffene Hosts schnell finden und auf Basis des Schutzbedarfs die kritischsten zuerst priorisieren.
Wie hilft Versio.io unseren Kunden, die vom Ausfall betroffen sind?
Dieses Problem muss zwar manuell behoben werden, Versio.io erkennt jedoch, welche Server und welche Services betroffen sind. Mit diesen Informationen vereinfacht wir für unsere Kunden den Prozess um Pläne zu erstellen sowie Server und Dienste wiederherzustellen, die mit ihren wichtigsten Anwendungen (hoher Schutzbedarf) verbunden sind.
Sind viele Versio.io Kunden vom Ausfall betroffen?
Ja, denn dieser Ausfall war unvermeidbar, nachdem CrowdStrike das fehlerhafte Update herausgebracht hatte. Viele der weltweit größten und wichtigsten Unternehmen verwenden CrowdStrike für den Endpunktschutz. Glücklicherweise hilft Versio.io unseren Kunden dabei, betroffene Server schnell zu identifizieren und zu priorisieren, damit sie die Dienste für ihre wichtigsten Geschäftsfunktionen schnell wiederherstellen können. Da die IT-Teams genau wissen, welche Offline-Server mit bestimmten kritischen Geschäftsdiensten verbunden sind und welche genauen Abhängigkeitsbeziehungen bestehen, können sie schnell Pläne zur manuellen Behebung erstellen, um geschäftskritische Funktionen effizient wiederherzustellen. Versio.io Kunden sind mit diesem Verfahren bestens vertraut, da sie es verwenden, wenn Zero-Day-Laufzeitschwachstellen wie log4j entdeckt werden, die unmittelbar eine Bedrohung für große Teile ihrer Umgebung darstellen. In diesen Fällen von Schwachstellen hilft Versio.io den Kunden, den betroffenen Code sofort zu identifizieren und zu priorisieren.
Autoren | 19. Juli 2024
Keywords