Deutsch

KI im Engineering-Manager-Workflow: Was wirklich hilft, was still kaputtgeht

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

Jede IDE, jeder Projekt-Tracker und jeder standup-Bot liefert mittlerweile einen "KI-Assistenten". Die meisten produzieren selbstsicher falsche Schätzungen, pressen 1:1-Notizen zu beigefarbener Masse zusammen und überspringen den Teil der Arbeit, auf den es wirklich ankommt: Urteilsvermögen. Das Versprechen von "KI für Manager" hat mich inzwischen eher skeptischer gemacht.

Ich bin nicht gegen KI. Ich nutze Claude und Cursor täglich. Ich habe meinen Vorbereitungsaufwand deutlich reduziert. Aber ich bin auch mehr als einmal damit auf die Nase gefallen, einer Zusammenfassung zu vertrauen, die richtig klang und subtil falsch war. Ein 1:1-Brief, der einen angespannten Konflikt als "Priorisierung besprochen" zusammenfasste. Ein Sprint-Bericht, der fröhlich übersah, dass zwei Ingenieure aufgehört hatten, gegenseitig PRs zu reviewen. KI sagt Ihnen nicht, was sie nicht sieht.

Das ist das Playbook, das ich mir vor zwei Jahren gewünscht hätte. Wo KI im Arbeitsalltag eines EM ihren Nutzen hat, wo sie still Schaden anrichtet, wenn man sie lässt, und ein 30-Tage-Plan, um sie einzuführen, ohne die Teile des Jobs zu verlieren, die in Ihrer Hand bleiben müssen.

Warum das jetzt wichtig ist

Sie sind die letzte Verteidigungslinie gegen KI-Schrott, der Ihr Team erreicht. Wenn Sie nicht zwischen einer nützlichen KI-Zusammenfassung und einer halluzinierten unterscheiden können, passiert eines von zwei Dingen, und beide sind schlecht.

Sie lehnen die Tools komplett ab, und Ihre Kollegen sparen still vier Stunden pro Woche, während Sie das nicht tun. Oder Sie vertrauen ihnen zu sehr, gehen mit einem KI-generierten "Themen"-Dokument in eine Leistungskalibrierung, wiederholen die halluzinierte Rahmung im Raum und empfehlen eine Beförderung auf Basis von etwas, das das Modell aus einem einzigen Slack-Thread erfunden hat.

Beides ist für einen Manager von 6-10 Ingenieuren inakzeptabel. Die Aufgabe besteht darin zu wissen, welche Workflows gut genug für KI sind und welche Sie in jedem Fall selbst behalten.

Wo KI wirklich hilft

Diese fünf Workflows haben ein Jahr überlebt, in dem ich versucht habe, sie zu brechen. Sie sind nicht aufregend, aber sie bringen echte Zeit zurück.

1:1-Vorbereitung

Vor jedem 1:1 lade ich die Notizen der letzten Woche des jeweiligen Ingenieurs, seine zusammengeführte PR-Liste und die Slack-Threads, in denen er aktiv war, in Claude. Prompt:

Hier sind die Notizen der letzten Woche, zusammengeführte PRs und Slack-Threads für [Name]. Fassen Sie zusammen, was sich seit unserem letzten 1:1 geändert hat, in maximal 5 Punkten. Markieren Sie alles, was nach Reibung, blockierter Arbeit oder Verschiebung des Umfangs klingt. Spekulieren Sie nicht über Gefühle. Wenn ein Thread unklar ist, sagen Sie das.

Der Satz "Spekulieren Sie nicht über Gefühle" ist entscheidend. Ohne ihn wird das Modell Ihnen hilfreich mitteilen, jemand wirke "frustriert" aufgrund von drei kurzen Nachrichten. Sie gehen hinein und fragen danach, und der Ingenieur schaut Sie an, als hätten Sie den Verstand verloren.

Was ich zurückbekomme, ist eine 90-sekündige Lektüre, die Dinge auffängt, die ich übersehen habe. Meine eigenen Fragen schreibe ich trotzdem selbst. Die KI stellt nur sicher, dass ich nicht mit "Na, wie läuft's?" eröffne, weil ich vergessen habe, dass die Person am Donnerstag die Migration veröffentlicht hat.

Leistungsbeurteilung: Rohentwurf

Sechs Monate 1:1-Notizen sind viel Papier. Einmal pro Zyklus füttere ich diese Notizen (und nur diese, kein Slack, keine PRs, das ist ein separater Durchgang) mit einem Clustering-Prompt in Claude:

Cluster diese 1:1-Notizen in 3-5 Themen. Geben Sie mir zu jedem Thema 2-3 konkrete Momente aus den Notizen, die es stützen. Nutzen Sie direkte Zitate aus den Notizen, wo möglich. Generieren Sie keine Themen, die nicht durch mindestens zwei verschiedene Notizen belegt sind.

Das ist hilfreich. Es ist kein Entwurf. Es bringt Muster ans Licht, derer ich mir schon halbwegs bewusst war, und erinnert mich an spezifische Momente, die ich vergessen hatte. Danach schreibe ich die eigentliche Beurteilung in meiner eigenen Stimme, mit meinen eigenen Beispielen. Die KI-Ausgabe wandert in eine Notiz und wird gelöscht.

Eine KI-verfasste Leistungsbeurteilung ist der schlimmste Schrott. Sie klingt professionell und bedeutet nichts. Der Ingenieur, der sie liest, wird es merken.

PR-Kommentar-Zusammenfassungen und Code-Review-Delegation

Ich reviewe die tägliche Arbeit meines Teams nicht selbst, aber ich lese diffs, um auf dem Laufenden zu bleiben. Wenn ein PR kontrovers ist, öffne ich Claude mit dem diff und frage:

Fassen Sie die Meinungsverschiedenheit in diesem PR-Thread zusammen. Was ist die grundlegende Architektur-Frage, die diskutiert wird? Was sind die stärksten Argumente auf jeder Seite?

Nützlich, wenn ich zu einem Designentscheid beitragen muss, ohne 80 Inline-Kommentare erneut zu lesen. Mehr zum Cursor und Claude-Muster unten.

Sprint-Analyse: Anomalieerkennung

Die meisten Sprint-Dashboards sind Rauschen. Was ich will, ist: "Dieser Sprint sieht seltsam aus, hier ist was." Ich füttere Cycle-Time-, Review-Latenz- und Ticket-Status-Daten mit einem Prompt in Claude:

Vergleichen Sie die Metriken dieses Sprints mit den vorangegangenen 4. Markieren Sie jede Zahl, die mehr als 1,5 Standardabweichungen vom gleitenden Durchschnitt abweicht. Raten Sie nicht nach Ursachen. Sagen Sie mir nur, was anomal ist.

Der Satz "Raten Sie nicht nach Ursachen" leistet echte Arbeit. Ohne ihn wird das Modell Ihnen selbstsicher mitteilen, "das Team leidet unter Burnout", weil die Review-Latenz gestiegen ist, während tatsächlich ein Senior-Ingenieur im PTO war. KI ist gut darin zu sagen: "Diese Zahl sieht seltsam aus." Sie ist schlecht darin zu sagen: "Und hier ist warum."

Das Warum ist Ihre Aufgabe. Sie gehen und reden mit Menschen.

Kalender-Vorbereitung

Der kleinste Gewinn und der, den ich als letztes aufgeben würde. Fünf Minuten vor einem Meeting, auf das ich mich nicht vorbereitet habe, füge ich die Agenda (oder nur Titel und Teilnehmer) und das neueste Dokument in Claude ein:

90-Sekunden-Brief: Worum geht es in diesem Meeting wahrscheinlich, was sind die wahrscheinlichen Spannungen, worauf sollte ich vorbereitet sein zu reagieren. Seien Sie konkret. Wenn Sie es nicht wissen, sagen Sie das.

Es ist nicht magisch. Es ist ein erzwungener Moment des "Was gehe ich da rein" anstatt kalt anzukommen und die ersten zehn Minuten damit zu verbringen, aufzuholen.

Wo KI still versagt

Das sind die Workflows, wo KI so aussieht, als würde sie helfen, und es nicht tut. Bei manchen habe ich gesehen, wie sie anderen Managern geschadet haben. Bei manchen habe ich mich selbst damit verbrannt.

Ermessensentscheidungen. Braucht dieser Ingenieur ein herausforderndes Projekt oder mehr Unterstützung? Ist dieses Team bereit für eine Umstrukturierung oder noch ein Quartal entfernt? KI gibt Ihnen eine ausgewogene Antwort, die klug klingt. Ihre Aufgabe ist es, zu entscheiden. Das Modell hat kein Eigeninteresse und kennt Ihr Team nicht.

Kritisches Feedback übermitteln. Die Worte müssen von Ihnen kommen, in Ihrer Stimme, ihnen ins Gesicht. Nicht per Slack. Nicht in einem Dokument. Nicht über einen "KI-assistierten Entwurf", den Sie anpassen. Wenn Sie es nicht ohne Skript sagen können, glauben Sie es nicht genug, um es zu übermitteln, und die Person auf der anderen Seite wird das spüren.

Personalentscheidungen. KI-Screening-Tools tendieren zu Voreingenommenheit. Sie bevorzugen Kandidaten, die dem Trainingsset ähneln, und verschleiern diese Voreingenommenheit durch einen selbstsicher klingenden Score. Ich habe ein Tool gesehen, das eine Senior-Ingenieurin herabstufte, weil ihr Lebenslauf eine zweijährige Lücke (Pflege) aufwies. Nutzen Sie KI zum Planen, für Notizen bei einer Panel-Besprechung, um Ablehnungs-E-Mails zu verfassen. Lassen Sie KI keine Menschen filtern.

Leistungsgespräche. PIP, Beförderungsabsagen, Umfang von Änderungen, Vergütungsgespräche. Diese sind rechtlich heikel, emotional belastend und erfordern Präzision in Ihren eigenen Worten. Ich habe noch kein KI-assistiertes PIP-Dokument gesehen, das nicht kalt oder falsch klingt, manchmal beides.

Strategische Entscheidungen. Welche Wette, welcher Kompromiss, welche Reihenfolge. KI gibt Ihnen plausible Optionen. Sie gibt Ihnen nicht die Option, die Ihr Team tatsächlich umsetzen kann, die in Ihre politische Realität passt, die Ihr Director absegnen wird. Diese Synthese ist die Aufgabe. Dafür werden Sie bezahlt.

Die "KI-Beförderungsunterlagen"-Falle

Ein Ingenieur übergibt Ihnen Beförderungsunterlagen. Die Verben sind generisch ("vorangetrieben", "gefördert", "maßgeblich gestaltet"). Die Wirkungsaussagen sind verdächtig ausgewogen: drei Punkte, jeder zwei Zeilen, jeder mit einer Zahl. Es gibt keine eigene Stimme. Das Ganze liest sich wie eine LinkedIn-Empfehlung für jemand anderen.

Es ist Claude. Man kann es erkennen. Ihr skip-level kann es erkennen.

Folgendes ist zu beachten: Es bedeutet meistens nicht, dass die Arbeit schlecht war. Es bedeutet, dass die Selbstdarstellung des Ingenieurs hohl ist, was ein separates und coachbares Problem ist. Die Arbeit kann hervorragend sein. Die Geschichte ist kaputt.

Wie ich coache, ohne zu demütigen: Ich sage nicht "Ist das KI?" Ich frage: "Erklären Sie mir die wichtigste Wirkung in Ihren eigenen Worten." Wenn sie es können, ist die Geschichte real und sie haben nur das Schreiben ausgelagert. In Ordnung, aber ich werde sie dazu bringen, die nächste selbst zu schreiben, weil das Schreiben das Denken ist. Wenn sie es nicht können, ist das das eigentliche Problem, und wir arbeiten gemeinsam daran. So oder so spiele ich in keinem 1:1 den KI-Detektor-Cop.

Die Unterlagen müssen trotzdem neu geschrieben werden. KI-Prosa überlebt einen Kalibrierungsraum nicht. Die anderen Manager werden sie genauso lesen wie Sie, und Ihr Kandidat wird herabgestuft, weil er klingt wie alle anderen.

Cursor und Claude für Code-Review-Delegation

Hier ist das konkrete Muster. Ich werde es danach stark einschränken.

Schicht 1: Cursor im Agenten-Modus. Konfiguriert mit den Lint- und Style-Regeln des Teams. Fängt das Offensichtliche auf: fehlende Tests, tote Importe, Typfehler, Inkonsistenzen bei der Benennung. Der Ingenieur behebt das selbst, bevor er den PR öffnet.

Schicht 2: Claude auf dem diff. Wenn der PR geöffnet ist, läuft ein CI-Schritt (oder der Ingenieur manuell) den diff durch Claude:

Review diesen diff. Markieren Sie: (1) Funktionen über 50 Zeilen, (2) fehlende Testabdeckung auf neuen Verzweigungen, (3) jede Änderung an Authentifizierungs-, Abrechnungs- oder Datenlöschpfaden, (4) Stellen, an denen die Benennung unklar ist. Kommentieren Sie nicht den Stil; der ist bereits behandelt. Genehmigen oder blockieren Sie nicht. Markieren Sie nur.

Die Ausgabe erscheint als einzelner Kommentar im PR. Reviewer lesen ihn als Checkliste vor ihrem menschlichen Review.

Schicht 3: Menschliches Review. Der Reviewer konzentriert sich jetzt auf Architektur, Benennungsabsicht, ob das in die Systemrichtung passt, ob die Abstraktion stimmt. Die Dinge, die Geschmack erfordern.

Wo das versagt. Alles, was Authentifizierung, Abrechnung, Zahlungen, Datenlöschung oder PII berührt, bekommt einen sicherheitsgeschulten menschlichen Reviewer von Anfang bis Ende, keine KI im Entscheidungsprozess. Neue Domänen, in denen das Team noch nicht gebaut hat: dasselbe. Kritische Migrationen: dasselbe. Das Muster eignet sich für Routinecode; es eignet sich nicht für die Arbeit, die tatsächlich riskant ist.

Ich vertraue diesem Muster, weil ich gesehen habe, wie die Claude-Prüfung echte Bugs verfehlt hat, und ich weiß, was sie verfehlt. Wenn Sie noch nie mit den diffs gesessen und zugeschaut haben, wie es Fehler macht, haben Sie die Kalibrierung noch nicht, um es zu nutzen. Führen Sie es einen Monat lang mit vollem menschlichem Review darüber aus, bevor Sie zulassen, dass es Ihren Review-Zyklus verkürzt.

30-Tage-Einführungsplan

Wenn Sie bei null anfangen, führen Sie nicht fünf KI-Workflows auf einmal ein. Sie verlieren den Überblick, welche tatsächlich Zeit sparen und welche still Schrott produzieren, den Sie bereinigen. Einen nach dem anderen.

Woche 1: Nur ein Workflow. Wählen Sie die 1:1-Vorbereitung. Nutzen Sie sie für jedes 1:1 in dieser Woche. Schreiben Sie nach jedem 1:1 einen Satz: "Was hat die KI übersehen?" Bis Freitag haben Sie 6-10 Sätze, die Ihnen die blinden Flecken des Modells zeigen. Das ist die Grundlage für das Vertrauen.

Woche 2: Fügen Sie einen weiteren hinzu, entweder Sprint-Anomalieerkennung oder Kalender-Vorbereitung. Gleiche Übung. Vergleichen Sie die KI-Ausgabe mit Ihrem eigenen Bauchgefühl. Wo sie übereinstimmen, sparen Sie Zeit. Wo sie abweichen, liegt einer von Ihnen falsch; finden Sie heraus, wer.

Woche 3: Überprüfung. Ziehen Sie die Notizen heraus. Wo hat KI netto Zeit gespart, und wo haben Sie mehr Zeit damit verbracht, Schrott zu bereinigen, als Sie gebraucht hätten, um es selbst zu machen? Schließen Sie jeden Workflow in der zweiten Kategorie aus. Wenn die 1:1-Vorbereitung 20 Minuten pro Woche gespart hat und die Sprint-Analyse Sie 30 Minuten in Zweifeln gekostet hat, lassen Sie die Sprint-Analyse fallen.

Woche 4: Schreiben Sie das "KI-Nutzungsnormen"-Dokument Ihres Teams. Eine oder zwei Seiten, von Ihnen verfasst. Decken Sie ab, was empfohlen wird, was mit Vorbehalten erlaubt ist, was verboten ist. Teilen Sie es. Nehmen Sie Fragen entgegen.

Ein Einstieg für das Dokument:

KI-Nutzungsnormen: [Teamname]

Empfohlen: 1:1-Vorbereitungszusammenfassungen (privat für den Manager), Kalender/Meeting-Vorbereitungsbriefs, Code-Review-Erstdurchlauf (nur Cursor- und Claude-Markierungen, kein Auto-Approve), Sprint-Metrik-Anomalieerkennung, Dokumentzusammenfassung für Kontext, Entwurf nicht-sensibler E-Mails.

Erlaubt mit Vorbehalten: Leistungsbeurteilung: nur Themen-Clustering, nie der Entwurf. Gliederung der Beförderungsunterlagen, nur die Gliederung, das Schreiben muss vom Ingenieur kommen. Standup-Notizen-Zusammenfassung, wenn das Team zustimmt.

Verboten: KI als Endfassung einer Leistungsbeurteilung, eines Kalibrierungsdokuments oder eines PIP. KI als Worte eines harten Feedbacks, das einer Person übermittelt wird. KI-Screening von Kandidaten. KI-generierte Vergütungsbegründungen. Auto-Genehmigung von PRs, die Authentifizierung, Abrechnung oder PII berühren.

Warum: KI ist ein Junior-Assistent. Sie ist gut genug, um zu entwerfen, zusammenzufassen und zu markieren. Sie ist nicht gut genug, um Entscheidungen über Menschen zu treffen, und die Entscheidungen über Menschen sind das meiste, was wir tun.

Dieses Dokument ist das Artefakt, das Ihr Team braucht. Keine Tool-Liste. Ein gemeinsames Verständnis davon, was menschlich bleibt.

Optional: ACE Framework-Perspektive

Wenn Sie die KI-Einführung unternehmensweit verfolgen und jemand fragt, wo Engineering-Management im ACE Framework einzuordnen ist, hier ist die schnelle Zuordnung. Nutzen Sie sie sparsam; das Framework ist für Produktentscheidungen nützlicher als für persönliche Workflows.

Ingest: 1:1-Notizen, PR-Daten, Slack-Threads, Sprint-Metriken in einen einzigen Arbeitskontext ziehen
Analyze: Sprint-Anomalie-Clustering, Leistungsbeurteilung-Themen-Clustering, PR-Thread-Zusammenfassung
Predict: Cycle-Time-Prognosen und "Ist dieser Sprint gefährdet?". Mit extremer Vorsicht nutzen; das sind die halluzinationsanfälligsten Ausgaben.
Generate: nur Eingaben für Entwürfe, nie Endergebnisse. 1:1-Briefs, Kalender-Briefs, Anomalie-Berichte.
Execute: nicht. Lassen Sie Menschen bei jeder personenbezogenen Aktion auf dem Auslöser. Keine Ausnahmen.

Der Execute-Schritt ist der Punkt, an dem die meisten Team-KI-Einführungen schiefgehen. "Wir weisen Reviewer automatisch zu" ist in Ordnung. "Wir genehmigen PRs unter N Zeilen automatisch" ist der Beginn einer Incident-Review.

Häufige Fehler

KI-Schätzungen vertrauen. Sie klingen selbstsicher. Sie basieren auf einer Trainingsverteilung, die Ihre Codebasis nicht enthält. Bestenfalls eine Plausibilitätsprüfung.

KI Feedback schreiben lassen, das Sie übermitteln. Wenn Sie es nicht selbst schreiben können, sollten Sie es nicht übermitteln. Das Schreiben ist Teil des Glaubens daran.

1:1s in eine Form zusammenfassen, die das Signal verliert. Fünf-Punkte-Zusammenfassungen kollabieren ein angespanntes Gespräch zu "Priorisierung besprochen". Lesen Sie auch Ihre Rohnotizen.

Abhängigkeit von einem einzigen Tool. Preise ändern sich, Modelle werden eingestellt, Anbieter wechseln den Kurs. Die Fähigkeit ist der Workflow, nicht das Tool. Wenn Ihr gesamtes Vorbereitungssystem davon abhängt, dass Claude dauerhaft auf diesem Preissegment bleibt, haben Sie ein Kontinuitätsproblem.

Erfolgsmessung

Sie werden wissen, dass der Workflow funktioniert, wenn:

Sie 2-4 Stunden pro Woche bei Vorbereitung und Synthese sparen. Nicht 10. Wenn jemand Ihnen 10 verkauft, verkauft er Ihnen Schrott.
Ihr Team vertraut darauf, dass schwierige Gespräche von Ihnen kommen, in Ihren Worten, persönlich.
Kein KI-generierter Inhalt erreicht unbearbeitet eine Leistungsbeurteilung, Personalentscheidung oder Kalibrierungsrunde.
Sie können in je einem Satz artikulieren, welchen Workflows Sie KI vertrauen und welchen nicht.
Ihre direkt unterstellten Mitarbeiter können dasselbe über ihre eigene Arbeit articklieren, weil Sie das Normen-Dokument geschrieben haben und sie es gelesen haben.

Das ist der Maßstab. KI ist ein Junior-Assistent. Die Aufgabe (Urteilsvermögen, schwierige Gespräche, die Entscheidung, die sonst niemand treffen will) bleibt Ihre. Wenn ein Workflow Sie verlockt, das Urteilsvermögen auszulagern, ist das der Workflow, den Sie verbieten sollten.

Mehr erfahren

About the author

Camellia

Principal Product Marketing Strategist

Camellia is Principal Product Marketing Strategist at Rework, helping B2B buyers pick the right software with confidence. With 6+ years in product marketing and 150+ SaaS tools evaluated across CRM, project management, and sales engagement, Camellia turns competitive intelligence into clear, honest comparisons. Readers get vendor evaluations they can trust to cut through marketing noise and decide faster.

View full profile LinkedIn