Google entschuldigt sich und veröffentlicht Vorfallsbericht für stundenlangen Cloud-Ausfall

Google entschuldigte sich für einen größeren Ausfall, der laut Angaben des Unternehmens durch mehrere Schichten fehlerhafter Updates der letzten Zeit verursacht wurde.
Das Unternehmen veröffentlichte am späten Freitag einen Vorfallbericht , der die stundenlangen Ausfallzeiten am Donnerstag erläuterte. Weltweit funktionierten mehr als 70 Google-Cloud-Dienste nicht mehr ordnungsgemäß. Dutzende von Drittanbieterdiensten, darunter auch Cloudflare, waren dadurch außer Gefecht gesetzt oder gestört. , OpenAI und Shopify Auch Gmail, Google Kalender, Google Drive, Google Meet und andere Produkte von Erstanbietern funktionierten nicht richtig.
„Wir entschuldigen uns zutiefst für die Auswirkungen dieses Ausfalls“, schrieb Google im Vorfallbericht. „Google Cloud-Kunden und ihre Nutzer vertrauen Google ihr Geschäft an, und wir werden uns verbessern. Wir entschuldigen uns für die Auswirkungen, die dies nicht nur auf die Geschäfte unserer Kunden und deren Nutzer, sondern auch auf das Vertrauen in unsere Systeme hatte. Wir sind entschlossen, Verbesserungen vorzunehmen, um solche Ausfälle in Zukunft zu vermeiden.“
Thomas Kurian, CEO der Cloud-Einheit von Google, äußerte sich am Donnerstag ebenfalls in einem X-Post zu dem Ausfall und sagte: „Wir bedauern die dadurch für unsere Kunden entstandenen Störungen.“
Google hatte im Mai seinen „Quota Policy Checks“ eine neue Funktion zur Auswertung automatisierter eingehender Anfragen hinzugefügt. Diese wurde jedoch nicht sofort in der Praxis getestet, schrieb das Unternehmen im Vorfallbericht. Infolgedessen konnten die Systeme des Unternehmens die Daten der neuen Funktion, die auch leere Einträge enthielten, nicht richtig verarbeiten. Diese leeren Einträge wurden dann an alle Google Cloud-Rechenzentrumsregionen gesendet, was zu den Abstürzen führte, schrieb das Unternehmen.
Laut Angaben des Unternehmens fanden die Ingenieure das Problem innerhalb von zehn Minuten heraus. Der Vorfall dauerte jedoch noch sieben Stunden an, wobei der Absturz in einigen größeren Regionen zu einer Überlastung führte.
Bei der Veröffentlichung der Funktion verzichtete Google auf Feature Flags, eine zunehmend gängige Branchenpraxis, die eine langsame Implementierung ermöglicht, um die Auswirkungen bei auftretenden Problemen zu minimieren. Feature Flags hätten das Problem erkannt, bevor die Funktion allgemein verfügbar war, so Google.
Google werde künftig seine Architektur so anpassen, dass bei einem Systemausfall der Betrieb ohne Absturz gewährleistet sei, teilte das Unternehmen mit. Zudem werde man alle Systeme prüfen und die Kommunikation verbessern, „sowohl automatisiert als auch menschlich, damit unsere Kunden schnellstmöglich die Informationen erhalten, die sie brauchen, um auf Probleme zu reagieren“.
– Jordan Novet von CNBC hat zu diesem Bericht beigetragen.
CNBC