Was ist ein Error Budget?
Ein Error Budget definiert, wie viel Ausfallzeit oder Fehlerrate ein Service tolerieren darf, bevor Stabilisierung Vorrang vor neuen Features bekommt. Bei einem SLO von 99,9 % Verfügbarkeit sind das 8,76 Stunden pro Jahr. Ist das Budget aufgebraucht, wird die Entwicklung neuer Features gestoppt, bis die Zuverlässigkeit wiederhergestellt ist.
DevOps CoachingEin Error Budget ist die zulässige Menge an Unzuverlässigkeit, die ein Service innerhalb eines Zeitraums verbrauchen darf, ohne sein Zuverlässigkeitsziel zu verfehlen. Die Formel ist einfach: 100 Prozent minus dem Service Level Objective (SLO) ergibt das Fehlerbudget. Bei einem SLO von 99,9 Prozent beträgt es 0,1 Prozent — rund 43,8 Minuten pro Monat oder 8,76 Stunden pro Jahr.
Dieses Budget ist keine Schwäche, sondern eine bewusst eingeplante Reserve für Risiko und Innovation. Es leitet sich direkt aus dem SLO ab und macht Zuverlässigkeit zu einer steuerbaren Größe statt zu einem vagen Anspruch.
Der eigentliche Zweck des Error Budgets ist, den Dauerkonflikt zwischen Entwicklung und Betrieb objektiv aufzulösen. Solange Budget vorhanden ist, dürfen Teams neue Features ausrollen und experimentieren. Ist es aufgebraucht, kehrt sich die Priorität automatisch um: Stabilisierung geht vor neuen Funktionen, bis die Zuverlässigkeit wiederhergestellt ist. Diese Regel ersetzt politische Diskussionen durch eine datenbasierte Entscheidung und ist ein zentrales Werkzeug des Site Reliability Engineering.
In industriellen Kontexten hilft das Error-Budget-Konzept, realistische Zuverlässigkeitsziele zu setzen, statt reflexhaft 100 Prozent zu fordern — was technisch unbezahlbar und meist unnötig ist. Ein häufiger Stolperstein ist die Wahl eines SLO ohne Bezug zu den tatsächlichen Nutzeranforderungen: Ein zu hohes Ziel verbrennt das Budget sofort und blockiert jede Weiterentwicklung, ein zu niedriges schützt den Service nicht. Das Budget wirkt nur, wenn seine Konsequenzen von Management und Teams gemeinsam getragen werden.
Feature-Stopp bei verbrauchtem Budget
Ein Plattform-Team vereinbart, dass bei aufgebrauchtem Error Budget für vier Wochen keine neuen Features, sondern nur Stabilisierungsarbeit ausgerollt werden. Die Regel ist vorab verbindlich festgelegt und entzieht den Konflikt der Tagespolitik.
Differenzierte SLOs nach Kritikalität
Ein Industrieunternehmen setzt für die sicherheitskritische Steuerungsschicht ein SLO von 99,99 Prozent und für ein internes Reporting-Tool nur 99,5 Prozent. So fließt das knappe Engineering-Budget dorthin, wo Zuverlässigkeit wirklich zählt.
- Wie hängt das Error Budget mit dem SLO zusammen?
- Das Error Budget ist die zulässige Abweichung vom SLO, also 100 Prozent minus Zielwert. Bei 99,9 Prozent Verfügbarkeit liegt das Budget bei 0,1 Prozent — knapp 8,76 Stunden Ausfall pro Jahr. Es ist damit die quantifizierte Toleranz für Fehler.
- Was passiert, wenn das Error Budget aufgebraucht ist?
- Üblicherweise wird die Auslieferung neuer Features gestoppt und das Team konzentriert sich auf Stabilisierung, bis die Zuverlässigkeit wieder im Zielkorridor liegt. Diese Konsequenz muss vorab vereinbart und vom Management mitgetragen werden, sonst bleibt das Budget folgenlos.
- Warum strebt man nicht einfach 100 Prozent Verfügbarkeit an?
- Jede zusätzliche Neun in der Verfügbarkeit kostet überproportional mehr Aufwand, während der Nutzen für die meisten Services gegen null geht. Ein bewusst gewähltes Error Budget erlaubt Innovation und Risikobereitschaft, die bei einem 100-Prozent-Anspruch komplett blockiert wären.
- Wer entscheidet über das Error Budget?
- Das Error Budget wird von Entwicklung, Betrieb und Management gemeinsam getragen. Site-Reliability-Engineering-Teams überwachen seinen Verbrauch, doch die Konsequenz bei Erschöpfung — etwa ein Feature-Stopp — muss vorab verbindlich vereinbart sein, sonst bleibt das Budget folgenlos.
Erstgespräch.
Kostenlos.
90 Tage zum Ergebnis.
Wir klären gemeinsam, wie Sie in 90 Tagen die ersten messbaren Industrial-DevOps-Erfolge erzielen.
Industrie · Automotive · Finance
