Deutsch

DS-Metriken: Ausgelieferte Modelle, geschäftliche Auswirkung, Modellverfall

Sie haben sechs Wochen damit verbracht, den AUC von 0,84 auf 0,89 zu heben. Ihr VP betrachtet die Folie, nickt und fragt: „OK, was hat uns das gebracht?" Sie haben keine Zahl. Der Raum wird still aus dem falschen Grund.

Das ist die Lücke, in die die meisten Data Scientists fallen. Wir messen Modellgenauigkeit. Der CFO misst Dollar. Wenn diese beiden Spalten in einem QBR-Slide nicht übereinstimmen, fragen Headcount-Reviews nicht nach „Was war Ihr F1?" Sie fragen „Was hat das DS-Team ausgeliefert?" Wenn Sie Modellarbeit nicht in Geschäftssprache übersetzen können, werden Sie vor dem Ingenieur, der einen Button ausgeliefert hat, gestrichen.

Also lassen Sie uns die Metriken korrigieren. Fünf davon. Jede ist in einem Raum mit einem Finance-Partner vertretbar, der noch nie ein Jupyter-Notebook geöffnet hat und das auch nicht vorhat.

Warum das jetzt wichtig ist

Jedes DS-Team, das ich einen Budget-Zyklus überstehen gesehen habe, hatte dieselbe Eigenschaft: Sein Lead konnte Dollar-Zahlen nennen. Nicht „wir haben die Präzision um 3 Punkte verbessert." Nicht „wir haben 12 Experimente ausgeliefert." Dollar. Stunden. Deflektierte Tickets. Zurückgewonnene Marge.

Die Teams, die gestrichen wurden, sprachen über Modellqualität isoliert. Sie hatten schöne Konfusionsmatrizen und keinen Nachweis, dass sich irgendeine Entscheidung im Unternehmen wegen eines Modells geändert hatte.

Headcount-Gespräche im Jahr 2026 sind schärfer als noch vor drei Jahren. Die Billiggeld-Ära hat DS-Teams dazu gebracht, Inputs zu messen (Paper, Experimente, AUC). Die aktuelle Ära zählt nur Outputs, die in einer GuV auftauchen. Wenn Sie unter den alten Regeln aufgewachsen sind, müssen Sie sich schnell umerziehen. Die folgenden Metriken sind der Weg.

Die 5 Metriken, die wirklich zählen

1. Ausgelieferte Modelle in der Produktion

Die Anzahl der Modelle, die echten Produktionstraffic bedienen, an eine echte Entscheidung geknüpft sind und einem echten On-Call-Verantwortlichen gehören.

Nicht Notebooks. Nicht „in Staging deployt." Nicht „einmal einen Backfill durchgeführt und die Ergebnisse per E-Mail an Operations gesendet." Ein Modell, das Anfragen bedient, ein Runbook hat und etwas Sichtbares kaputt macht, wenn es ausfällt.

Ziel: 2-4 ausgelieferte Modelle pro IC pro Jahr.

Diese Zahl klingt niedrig. Das ist sie nicht. Ein ausgeliefertes Modell bedeutet: Datenpipeline in der Produktion, Trainingspipeline in der Produktion, Serving-Stack in der Produktion, Überwachung in der Produktion, nachgelagerter Konsument eingebunden. Die meisten Data Scientists überschätzen, wie viele sie tatsächlich gemacht haben, weil sie Notebooks zählen. Zählen Sie, was On-Call-pflichtig ist. Die Zahl wird schnell ehrlich.

Wenn Sie letztes Jahr null ausgeliefert haben, ist das das Gespräch. Warum? War es die Plattform? War es der Umfang? War es ein Stakeholder, der Ihren Output nie integriert hat? Jede Antwort zeigt auf eine andere Lösung, und keine von ihnen lautet „ich brauche ein besseres Modell."

2. Geschäftliche Auswirkung in Dollar

Jedes ausgelieferte Modell bekommt eine Dollar-Zahl angehängt. Erhöhter Umsatz, gesparte Kosten, zurückgegebene Stunden (multipliziert mit dem Vollkostenstundensatz), verhinderte Abwanderung, aufgedeckter Betrug.

Ziel: Jedes ausgelieferte Modell mindestens 250.000 $ annualisierte Auswirkung, sonst abschalten.

Die 250.000 $-Untergrenze ist grob. Passen Sie sie an die Unternehmensgröße an. Ein 30-köpfiges Startup kann 50.000 $-Modelle verteidigen, wenn sie günstig zu betreiben sind; ein börsennotiertes Unternehmen sollte sich unter 500.000 $ nicht damit befassen. Das Prinzip bleibt: Jedes Modell hat eine Zahl, und wenn die Zahl klein ist, verschwindet das Modell oder der Headcount, den es verbraucht.

So berechnen Sie es tatsächlich (nicht theoretisch auf einer Folie):

  • Umsatzmodell: Lift bei der Conversion-Rate × Baseline-Traffic × durchschnittlicher Bestellwert × annualisiert. Holen Sie Finance-Einverständnis zur Baseline, bevor Sie ausliefern. Vorab-Einverständnis ist alles; nachträgliche Lift-Ansprüche werden für immer hinterfragt.
  • Kostenmodell: Deflektierte Tickets × Kosten pro Ticket. Gesparte Stunden × Vollkostensatz. Vermiedene Lagerwertverluste. Holen Sie sich eine Zahl von Finance für Kosten-pro-Ticket, und raten Sie nicht.
  • Risikomodell: Aufgedeckter Betrug × durchschnittlicher Verlust pro Fall. Vermiedene Forderungsausfälle × Abschreibungsrate.

Was auch immer Sie berechnen, setzen Sie die Methodik in eine Fußnote auf der Folie. „Lift gemessen gegenüber der vor dem Launch genehmigten Baseline, genehmigt von FP&A am 14.02.2026." Dieser Satz ist mehr wert als die Zahl selbst, weil er bedeutet, dass die Zahl nächstes Quartal nicht wieder hinterfragt wird.

3. Modellverfallrate

Der prozentuale Rückgang Ihrer Produktionsmetrik gegenüber Ihrer Trainingszeit-Metrik, monatlich gemessen.

Die meisten Modelle verlieren in den ersten 90 Tagen der Produktion 5-20% ihrer Headline-Metrik. Drift in den Eingabeverteilungen, Datenleckage, die im Offline-Eval nicht auftauchte, Saisonalität, die die Trainingsdaten nicht abdeckten. Normales Zeug. Die Gefahr ist nicht der Verfall. Es ist der stille Verfall.

Ziel: Alles, das ohne Neutrainings-Plan mehr als 15% pro Quartal verfällt, ist eine Verbindlichkeit. Entweder reparieren oder abschalten.

Ein ausgearbeitetes Beispiel. Angenommen, Ihr Betrugsmodell wurde mit 0,91 AUC trainiert. Nach der Auslieferung:

  • Monat 1: 0,89 AUC in der Produktion. Rückgang = (0,91 - 0,89) / 0,91 = 2,2%. Im Rauschbereich.
  • Monat 2: 0,86. Rückgang = 5,5%. Beobachten.
  • Monat 3: 0,81. Rückgang = 11,0%. Sie haben ein Problem; untersuchen Sie.
  • Monat 4: 0,76. Rückgang = 16,5% gegenüber Training. Verbindlichkeit.

Wenn Sie keine Neutrainings-Pipeline haben, die das in Monat 2 auffangen kann, bauen Sie eine, bevor Sie ein neues Modell bauen. Ein Modell, das still verfällt, ist schlimmer als kein Modell. Es gibt dem Unternehmen falsches Vertrauen.

Das einzeilige Dashboard, das Ihr VP dazu möchte: „X von N Produktionsmodellen haben Drift-Alerts eingerichtet und einen Neutrainings-SLA. Y von N nicht." Dieses Verhältnis sagt ihnen, wie viel Oberfläche tatsächlich unter Kontrolle ist.

4. Zeit von Experiment bis Produktion

Tage zwischen „Das Notebook funktioniert" (Offline-Eval übersteht die Messlatte) und „Produktionstraffic trifft das Modell."

Ziel: unter 45 Tagen. 60 Tage sind für ein schwieriges Modell akzeptabel. Über 90 Tage bedeutet, die Plattform ist kaputt, nicht Sie.

Das ist die Metrik, die die meisten Data Scientists nicht auf eine Folie setzen, weil sie sie langsam aussehen lässt. Setzen Sie sie trotzdem auf die Folie. Wenn Ihre Zahl 120 Tage beträgt, ist das ein Plattform-Gespräch, kein Leistungsgespräch. Die Lösung sind Feature Stores, Trainingspipelines, Modellregister und Deploy-Automatisierung, nicht „der Data Scientist muss härter arbeiten."

Wenn ein VP diese Zahl sieht und sie schlecht ist, sollte er ein Organisationsdesign-Gespräch führen: Brauchen wir einen ML-Plattform-Ingenieur? Müssen wir die Deployment-Toolchain konsolidieren? Müssen wir aufhören, jedem Team zu erlauben, seinen eigenen maßgefertigten Serving-Stack auszuliefern?

Das erste Mal, dass ich in ein QBR ging und Durchlaufzeit auf die Folie setzte, war die erste Reaktion meines VP defensiv. Am Ende des Meetings hatte sie „ML-Plattform Q2-Priorität" auf das Whiteboard geschrieben. Diese Zahl entsperrte eine Einstellung.

5. Business-Partner-NPS

Eine vierteljährliche Zwei-Fragen-Umfrage an die PMs, Operations-Leiter und Analysten, die Ihre Modelle konsumieren.

  1. Auf einer Skala von 0-10, wie wahrscheinlich ist es, dass Sie einem Kollegen in einem anderen Unternehmen empfehlen, mit unserem DS-Team zusammenzuarbeiten?
  2. Warum?

Unter 30 (NPS) bedeutet, Sie lösen die falschen Probleme, Ihre Kommunikation ist schlecht, Ihre Lieferung ist unzuverlässig oder eine Kombination davon. Die Freitext-Antwort sagt Ihnen, welches.

Ziel: NPS mindestens 50, mit einer harten Untergrenze von 30. Unter 30 ist ein Signal für Neuprioritisierung, kein „nächstes Quartal besser machen"-Signal.

Warum das unter harte Metriken aufnehmen? Weil die vier obigen Metriken alle nachlaufend sind. Bis Verfall oder Anzahl der ausgelieferten Modelle Ihnen die Geschichte erzählt, sind zwei Quartale vergangen. Partner-NPS führt. Wenn der PM, den Sie unterstützen, aufhört, Sie für neue Arbeit zu beauftragen, haben Sie sechs Monate, bevor die Dollar-Zahl abflacht. NPS fängt das davor auf.

Führen Sie es durch. Senden Sie ein Formular, keine E-Mail. Anonymisieren Sie die Antworten. Lesen Sie den Freitext. Passen Sie an.

Die „hohe Genauigkeit, keine Auswirkung"-Diagnose

Hier ist der Moment, in dem Sie sich befinden werden: Ein Modell mit großartigen Offline-Metriken, das seit zwei Quartalen deployt ist und auf das kein Mensch auf der Geschäftsseite zeigen kann, der sagt, es habe etwas verändert. Führen Sie diese Checkliste durch, bevor Ihr VP es an Ihnen durchführt.

4-Fragen-Diagnose (kopieren Sie das in Ihr QBR-Vorbereitungsdokument):

[ ] 1. War der Modelloutput an eine spezifische Entscheidung geknüpft?
      (Nicht „hat die Strategie informiert." Eine spezifische Entscheidung:
       Rabatt ja/nein, Ticket-Priorität hoch/niedrig,
       Lead-Routing zu Mitarbeiter A oder Mitarbeiter B.)

[ ] 2. Hat sich diese Entscheidung tatsächlich wegen des Modells geändert?
      (Hat sich jemand anders verhalten? Ziehen Sie die Vorher-/Nachher-Daten.
       Wenn die Entscheidungsrate vor und nach dem Launch identisch ist,
       ist das Modell Dekoration.)

[ ] 3. War die geänderte Entscheidung Geld wert?
      (Entscheidungen können sich ohne Wert ändern. Wenn Mitarbeiter
       anfingen, Leads anders zu routen, sich aber die Conversion
       nicht bewegt hat, sind das 0 $.)

[ ] 4. Hat Finance der Methodik zugestimmt?
      (Holen Sie das schriftlich VOR dem QBR. „FP&A hat die
       Baseline am JJJJ-MM-TT genehmigt" ist der magische Satz.)

Wenn Sie bei einer der vier Fragen „nein" antworten, haben Sie keine Geschäftsauswirkungs-Metrik. Sie haben eine Geschichte. Geschichten überleben keinen CFO. Entweder korrigieren Sie die zugrunde liegende Lücke oder schalten Sie das Modell ab und geben Sie den Headcount frei.

Die Falle, in die die meisten Teams tappen, ist Frage 1: Sie liefern einen Propensity Score aus und nennen die Arbeit abgeschlossen. Ein Score ist keine Entscheidung. Der Score, der in einer Datenbank sitzt, ist nichts wert. Die Entscheidungsregel, die den Score konsumiert und das Verhalten verändert, ist der Ort, an dem die Dollar herkommen. Wenn diese Regel nicht existiert, ist das Modell ein Hobby.

Die QBR-Folie

Eine Folie. Fünf Zeilen. Letztes Quartal, dieses Quartal, Delta. Eine Modell-Geschichte mit einer Dollar-Zahl darunter.

So sieht meine aus (Zahlen sind illustrativ, Format ist real):

Metrik Q1 2026 Q2 2026 Delta
Modelle in der Produktion 7 9 +2
Annualisierte geschäftliche Auswirkung 2,1 Mio. \(| 3,4 Mio.\) +1,3 Mio. $
Durchschnittlicher Modellverfall (letzte 90T) 11% 8% -3 Pkte
Median Experiment-bis-Produktion 52 Tage 38 Tage -14 Tage
Business-Partner-NPS 41 56 +15

Q2-Highlight: Lead-Scoring v2 (ausgeliefert 14. April) Leitet eingehende Leads basierend auf Conversion-Propensity an Mitarbeiter weiter. Ersetzte Round-Robin. Gemessen gegenüber der vor dem Launch genehmigten Baseline (genehmigt von FP&A am 22.03.2026): Conversion-Rate 4,1% auf 5,6%. Annualisierte Auswirkung: 1,1 Mio. $ neuer Umsatz. Verfall-Alarme eingerichtet; Neutrainings-SLA 30 Tage.

Das ist die gesamte Folie. Fünf Zahlen. Eine Modell-Geschichte. Eine Fußnote mit Verweis auf die FP&A-Baseline. Kein AUC irgendwo auf der Seite.

Hätte ich AUC draufsetzen können? Klar. Das Modell liegt bei 0,87, oben von 0,81 in v1. Niemand in diesem Raum kümmert sich darum. Wenn sie es täten, würden sie fragen, und ich würde antworten. Sie werden nicht fragen. Sie werden fragen, ob die 1,1 Mio. $ real sind, wer die Baseline genehmigt hat und wie die On-Call-Rotation aussieht, wenn es kaputt geht.

Das ist das Gespräch, das eine Metrik starten soll. AUC startet dieses Gespräch nicht. Dollar schon.

Vanity-Metrik-Fallen

Fünf Metriken, die ich sehe, dass DS-Leads versehentlich optimieren, die produktiv aussehen und es nicht sind.

Anzahl an Veröffentlichungen. Paper sind großartig, um Senior-Data-Scientists in Forschungsorganisationen einzustellen. Sie sind nicht das, was Ihr VP in einer GuV-Überprüfung verteidigt. Wenn Sie in einem angewandten Team sind und Ihre Hauptmetrik Veröffentlichungen sind, spielen Sie das falsche Spiel. Der CFO liest kein NeurIPS.

Kaggle-Rang. Nützlich für die persönliche Marke. Nutzlos für die Unternehmensauswirkung. Ein Senior-Data-Scientist ohne Kaggle-Profil und vier ausgelieferte Umsatzmodelle schlägt einen Kaggle-Grandmaster mit zwei Notebooks jedes Mal bei der Frage, die zählt: Hat sich das Unternehmen verbessert.

Modell-AUC allein. AUC ist eine Modellqualitäts-Metrik. Modellqualität ist ein Mittel; Geschäftsergebnis ist das Ziel. AUC auf einer Folie ohne Dollar daneben lässt den Raum denken, Sie verbergen etwas. Oft tun Sie das, auch vor sich selbst.

Notebook-Anzahl. Ich habe DS-Lebensläufe gesehen, die „47 Experimente durchgeführt" auflisteten. Siebenundvierzig Experimente und null ausgelieferte Modelle ist ein schlechteres Signal als vier Experimente und vier ausgelieferte Modelle. Das Verhältnis von Auslieferungen zu Experimenten ist die echte Zahl.

„Gebaute Modelle." Achten Sie auf diese Formulierung. „Gebaut" ist nicht „ausgeliefert." „Gebaut und dem Team vorgestellt" ist nicht „ausgeliefert." „Gebaut und in ein Dashboard integriert, das PMs manchmal ansehen" ist nicht „ausgeliefert." Wenn ein Modell keinen Produktionstraffic bei einer echten Entscheidung bedient, liegt es in einer Schublade. Die Zahl, die auf die Folie geht, ist die Zahl, die sich tatsächlich in der Produktion befindet.

Das Muster bei allen fünf: Sie messen geleistete Arbeit, nicht gelieferten Wert. CFOs messen gelieferten Wert. Das sollten Sie auch.

In Ihren Kalender einplanen

Wenn Sie eines aus diesem Artikel mitnehmen:

  1. Bis Freitag: Zählen Sie Ihre ausgelieferten Modelle (echte Definition) und schreiben Sie die Dollar-Zahl für jedes auf.
  2. Bis zum nächsten QBR: Holen Sie FP&A-Genehmigung für eine Baseline für jedes Modell, das keine hat. Schriftlich.
  3. Jeden Monat: Protokollieren Sie die Produktions-vs.-Trainings-Metrik für jedes Modell. Wenn Verfall > 15%, eskalieren Sie.
  4. Jeden Quartal: Senden Sie die 2-Fragen-NPS-Umfrage. Lesen Sie den Freitext.
  5. Jedes QBR: Bringen Sie die 5-Zeilen-Folie mit. Beginnen Sie mit Dollar, nicht mit AUC.

Der Job ist nicht Modellqualität. Der Job ist ausgelieferte Auswirkung. AUC ist ein Mittel; Dollar sind das Ziel. Wenn Sie die Dollar-Zahl für jedes Modell, das Sie ausgeliefert haben, nicht nennen können, haben Sie keine Metrik. Sie haben ein Hobby.

Mehr erfahren