Deutsch

KI im Controller-Workflow: Wo sie hilft, wo sie versagt und wie Sie Risiken vermeiden

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

Jede Buchhaltungsplattform auf dem Markt hat inzwischen einen „KI"-Button. Die meisten erzeugen Abstimmungen, die selbstsicher falsch sind, prüfungsrelevante Nuancen übersehen und Buchungen in einer Weise vornehmen, die eine ernsthafte PCAOB-Prüfung nicht überstehen würde. Die Demos der Anbieter sehen alle gut aus. Die 10-K-Korrekturen fallen leiser aus.

Die Aufgabe eines Controllers ist es, die letzte Verteidigungslinie zu sein, bevor die Finanzberichte herausgehen. KI ändert das nicht. Sie erhöht nur den Einsatz, denn jetzt verteidigen Sie Positionen, die ein Modell in Millisekunden, in großem Maßstab und ohne Verständnis dafür generiert hat, warum die Regel überhaupt existiert.

Das hier ist das Playbook, das ich einem Praktiker in die Hand geben würde, dem ein CFO gesagt hat, er solle „etwas mit KI machen", nachdem er einen McKinsey-Bericht gelesen hat. Es ist nicht KI-feindlich. Ich nutze sie täglich für die richtigen Dinge. Aber die Reihenfolge zählt: erst Kontrollen, dann Produktivität. Wer diese Reihenfolge umdreht, riskiert eine Korrektur.

Warum das gerade jetzt wichtig ist

Drei Kräfte treffen gleichzeitig auf Ihrem Schreibtisch aufeinander.

Abschlusszyklen werden komprimiert. Fünf Tage ist die neue Zehn. Drei Tage ist die neue Fünf. Der CFO möchte den Flux-Bericht an Tag zwei, nicht an Tag acht.

Prüfungsgebühren steigen. Die Stundensätze der Big Four sind in den letzten Jahren zweistellig gestiegen, und die Partner werden nicht geduldiger mit unordentlichen Arbeitspapieren.

Und Finanzteams werden aufgefordert, „mehr mit KI zu machen." Dieser Satz bedeutet in der Praxis: „Im nächsten Jahr werden weniger Personalanfragen genehmigt." Controller, die sich verweigern, werden übergangen. Controller, die blind adoptieren, riskieren eine Korrektur, eine Prüfungsfeststellung oder beides.

Der richtige Weg liegt in der Mitte: gezielt einführen, mit dem Fokus auf Kontrollen, bei einer kurzen Liste von Workflows, bei denen das Fehlerrisiko beherrschbar ist.

Wo KI wirklich hilft (die Grün-Liste)

Das sind die Workflows, bei denen ich echte Zeiteinsparungen ohne neue Kontrollrisiken gesehen habe. Der gemeinsame Nenner: KI entwirft, ein Mensch prüft und unterzeichnet, und der Schaden eines übersehenen Fehlers ist begrenzt.

Entwurf von Abweichungskommentaren. Nehmen Sie die Ist-Werte des letzten Quartals, die aktuellen Ist-Werte, das Budget und die Prognose. Füttern Sie ein Modell mit einem strukturierten Prompt: „Erläutern Sie wesentliche Abweichungen über X % Schwellenwert, nach GL-Kategorie gruppiert, im Ton des FP&A-Memo-Templates." Sie erhalten in zwei Minuten einen Erstentwurf des Flux-Berichts. Der Controller redigiert, fügt die qualitativen Informationen hinzu, die das Modell nicht kennen kann (das verschobene Geschäft, die verzögerte Personalaufnahme, die einmalige Rechtsgebühr). Was früher vier Stunden dauerte, wird zu 45 Minuten.

Kategorisierung von Lieferantenrechnungen. Das ist die Arbeit mit dem höchsten Volumen und dem geringsten Ermessen in der Abteilung. Ein modernes AP-Automatisierungswerkzeug mit einem gut eingestellten Modell kann GL-Konten und Kostenstellen mit Konfidenzwerten vorschlagen. Alles über einem Schwellenwert (etwa 95 %) wird automatisch in die Genehmigungswarteschlange mit vorausgefüllter Kodierung weitergeleitet. Alles darunter geht in eine manuelle Prüfungswarteschlange. Sie lassen KI keine Buchungen ohne Aufsicht vornehmen. Sie lassen sie vorschlagen, und ein Mensch entscheidet.

Plausibilitätsprüfungen für Abgrenzungsschätzungen. Betrachten Sie die Abgrenzungen der letzten zwölf Monate nach Kategorie. Lassen Sie das Modell alles markieren, bei dem die aktuelle Monatsabgrenzung mehr als X % vom gleitenden Durchschnitt abweicht, oder bei dem das Muster bricht (eine Abgrenzung, die neun Monate linear gewachsen ist, halbiert sich plötzlich). Es trifft keine Abgrenzungsentscheidung. Es zeigt auf die Positionen, die ein Mensch prüfen sollte. Das ist ein Prüfer-Extender, kein Prüfer-Ersatz.

Entwurf von Walkthrough-Dokumenten für Prüfungen. Nehmen Sie Ihre vorhandenen Prozessnotizen, Kontrollbeschreibungen und das Walkthrough-Memo vom letzten Jahr. Lassen Sie ein Modell den Erstentwurf des diesjährigen Walkthroughs im bevorzugten Format des Prüfers erstellen. Der Controller redigiert auf Richtigkeit, ergänzt die Änderungen seit dem letzten Jahr und sendet es an den Prüfer. Der Aufwand für die Erstellung von Dokumentation aus dem Nichts sinkt um etwa 70 Prozent.

Transaktionsanomalien-Erkennung. Doppelte Zahlungen, Buchungssätze, die an Wochenenden gebucht wurden, runde Beträge als Muster, Buchungen auf ungewöhnlichen GL-Kombinationen, Lieferanten, die plötzlich deutlich höhere Zahlungen erhalten als ihr gleitender Durchschnitt. Das ist Mustererkennung in großem Maßstab, und genau das können diese Modelle gut. Stimmen Sie die Falsch-Positiv-Rate ab, erstellen Sie sich einen täglichen Ausnahmebericht und bearbeiten Sie ihn vor dem Abschluss.

Beachten Sie den gemeinsamen Nenner bei allen fünf: KI erstellt einen Entwurf, ein Mensch prüft, und die Unterschrift des Menschen kommt auf das Arbeitspapier.

Wo KI versagt (die Rot-Liste)

Das sind die Workflows, bei denen die Fehlerbilder still, teuer und typischerweise erst während der Prüfung sichtbar werden. Ich würde KI bei diesen Arbeiten nicht ohne aktive menschliche Mitwirkung auf jedem Schritt einsetzen.

Ermessensentscheidungen zu Wesentlichkeit, Umfang und Managementschätzungen. Was für den Abschluss wesentlich ist, hängt von der Perspektive der Nutzer, qualitativen Faktoren, Trendimplikationen und SEC-Leitlinien ab, die in keinem Modell mit der erforderlichen Spezifität abgebildet sind. Gleiches gilt für Wertberichtigungen, Gewährleistungsrückstellungen und jede Schätzung, die einen Blick auf die Welt und die Bildung einer Ansicht erfordert. Ein Modell kann die Methodik zusammenfassen. Es kann die Position nicht verteidigen.

Technische Rechnungslegungspositionen. ASC-606-Umsatzabgrenzung bei einem nicht standardmäßigen Vertrag. ASC-842-Bilanzierung einer Mietvertragsänderung. Kaufpreisallokation bei einem Unternehmenszusammenschluss. Das Modell produziert etwas, das richtig klingt und manchmal richtig ist. Aber wenn es falsch liegt, liegt es auf eine Weise falsch, die schwer zu erkennen ist, es sei denn, Sie kennen die Antwort bereits. Wenn Sie die Antwort bereits kennen, brauchen Sie das Modell nicht. Wenn nicht, wird das Modell zum Konfidenz-Verstärker einer falschen Position. Das ist das schlimmste mögliche Fehlerbild in der technischen Rechnungslegung.

GAAP-Nuancen (die Lücke zwischen der Regel und ihrem Geist). Die Hälfte der praktischen Rechnungslegung ist „die Regel erlaubt technisch gesehen X, aber Ihr Prüfer wird kämpfen, und er wird Recht haben." Diese Lücke lebt in Gesprächen, Kommentarbriefen, dem Verhalten von Wettbewerbern und dem spezifischen Risikoappetit Ihres Prüfers. Nichts davon ist in den Trainingsdaten.

Prüfungsdokumentation. Das Arbeitspapier, das eine Ermessensposition verteidigt, braucht eine menschliche Unterschrift, menschliches Denken und einen Papierpfad, der zeigt, dass eine qualifizierte Person tatsächlich darüber nachgedacht hat. Halluzinierte Zitate in einem Arbeitspapier sind eine Feststellung in der Entstehung. Ich habe gesehen, wie Modelle ASC-Absatznummern erfunden haben, die nicht existieren, mit vollständiger Überzeugung. Stellen Sie sich vor, das übersteht die Prüfung und der Prüfer schlägt die Zitate nach.

Das Muster: Alles, was die Verteidigung einer Position vor einem menschlichen Prüfer mit Skepsis erfordert, sollte von einem Menschen verfasst sein. Nutzen Sie das Modell bestenfalls als Hilfsmittel beim Entwurf.

Die Werkzeuge, mit ehrlicher Einschätzung

So denke ich über den eigentlichen Stack nach, aufgeteilt in zwei Kategorien.

Generische KI-Assistenten (Claude, ChatGPT, Gemini). Nützlich für Memo-Entwürfe, Zusammenfassungen zur Auslegung von Richtlinien, Walkthrough-Dokumente, Narrativtexte für die Vorstandsvorbereitung und „Erklären Sie mir diesen Prüferkommentar in einfachen Worten." Sie sind nicht mit Ihrem GL verbunden. Sie kennen Ihre Rechnungslegungsrichtlinien nicht, sofern Sie sie nicht einfügen. Claude tendiert dazu, bei langen, strukturierten Finanzdokumenten besser zu sein und sich zu weigern, Zitate zu erfinden, wenn man es sorgfältig fragt. Welches Sie auch wählen: Verifizieren Sie alles über Ihr eigentliches Rechnungslegungsforschungswerkzeug (PwC Inform, EY Atlas, KPMG Accounting Research Online) für die maßgebliche Antwort. Der Assistent entwirft. Das Forschungswerkzeug entscheidet. Sie unterzeichnen.

Abschluss- und Abstimmungsplattformen (FloQast, BlackLine). Beide haben in den letzten 18 Monaten KI-Funktionen eingeführt. Der Abstimmungsabgleich ist wirklich nützlich und hat jahrelang unbemerkt im Hintergrund funktioniert, bevor jemand es KI nannte. Die Flux-Analyse-Funktionen verbessern sich. Die „Automatisches Erstellen Ihrer Abschlussaufgaben"-Funktionen sind mittelmäßig. Sie tendieren dazu, generische Aufgaben zu erzeugen, die den tatsächlichen Rhythmus Ihres Teams nicht widerspiegeln. Worauf Sie achten sollten: Jede Funktion, die Buchungssätze automatisch auf Basis von KI-Vorschlägen bucht. Dort würde ich die automatische Buchung deaktivieren, den Vorschlag behalten und zur manuellen Prüfung leiten, bis Sie ihn für mindestens zwei volle Abschlusszyklen rückgetestet haben. Der Anbieter wird Ihnen sagen, dass sein Modell gut eingestellt ist. Ihr Prüfer wird nicht darauf eingehen, was der Anbieter Ihnen gesagt hat.

Die „Alles-in-einer-Plattform"-Idee Ihres ERP. NetSuite, Sage Intacct und die größeren ERPs führen alle KI-Copiloten ein. Behandeln Sie sie genauso: nützlich für Entwürfe, gefährlich für Buchungen. Lesen Sie die Dokumentation zu dem, was jede Funktion auf GL-Ebene tut, bevor Sie sie aktivieren.

Die Falle „KI hat das falsch kategorisiert"

Das ist das spezifische Fehlerbild, das jeder Controller auswendig kennen muss, denn es ist das, das in einer Korrektur endet.

Das Szenario: Sie aktivieren KI-gestützte Transaktionskategorisierung für Lieferantenrechnungen. Das Modell ist zu 92 % genau, was sich gut anhört. Sie führen eine Stichprobe durch, die Stichprobe sieht gut aus, Sie gehen live. In den nächsten drei Monaten enthält die 8 % der falsch kodierten Buchungen ein paar Hundert Einträge, die auf die falsche Kostenstelle gebucht wurden, einige mit einem falschen GL-Konto (Betriebsausgaben statt aktiviert oder Umsatzkosten), und eine kleine Anzahl, bei der das Vorzeichen von Abgrenzungen umgekehrt wird.

Keine dieser Buchungen löst einzeln einen Alarm aus. Sie liegen unter der Wesentlichkeitsschwelle. Sie kommen durch den Abschluss. Und durch den nächsten. Und durch den übernächsten.

Dann kommt die Prüfung. Der Prüfer zieht eine Stichprobe. Die Stichprobe enthält einen der falsch kodierten Einträge. Der Prüfer fragt nach der Belegnachweisdokumentation. Die Dokumentation sagt „KI-kodiert, 92 % Konfidenz". Der Prüfer fragt nach der manuellen Prüfung. Es gibt keine manuelle Prüfung, weil der Schwellenwert auf automatische Buchung über 90 % gesetzt wurde.

Sie haben jetzt eine Kontrollfeststellung. Möglicherweise eine SOX-Kontrollschwäche. Möglicherweise eine Korrektur, je nach Aggregation. Mit Sicherheit eine lange Woche.

Die Erkenntnis: Konfidenzwerte sind keine Kontrollen. „85 % Konfidenz" oder „92 % Konfidenz" beschreibt den internen Zustand des Modells. Es beschreibt nicht, ob der Eintrag korrekt ist, und es gibt Ihnen keinen verteidigbaren Prüfungspfad. Echte Kontrollen erfordern manuelle Prüfung auf Schwellenwerten, die Sie verteidigen können, Funktionstrennung und Dokumentation, die eine Person namentlich nennt.

Menschliche Kontrollpunkte (die nicht verhandelbaren Punkte)

Wenn Sie nichts anderes aus diesem Artikel mitnehmen, nehmen Sie diese Liste mit. Das sind die Kontrollen, ohne die ich KI nicht im Abschlussprozess einsetzen würde.

Konfidenzwert für automatische Buchung ist 100 %, oder es gibt keine automatische Buchung. Alles darunter geht in eine Prüfungswarteschlange. Das Muster „automatische Buchung über 95 %" ist die Falle.
Funktionstrennung rund um KI-generierte Einträge. Die Person, die die KI-Ausgabe prüft, darf nicht dieselbe Person sein, die den KI-Prompt konfiguriert oder das Modell eingestellt hat. Ihr Prüfer wird danach fragen.
Anforderungen an den Prüfungspfad. Jeder KI-generierte Eintrag, Entwurf oder Vorschlag braucht einen protokollierten Datensatz: Prompt oder Eingabedaten, Modell und Version, Zeitstempel, Prüfer-ID, Genehmigen/Ablehnen/Bearbeiten-Entscheidung. Wenn Ihr Werkzeug das nicht erzeugt, werden Sie ein schwieriges Gespräch bei der Prüfung haben.
Vierteljährlicher Rücktest. Ziehen Sie eine Stichprobe KI-kategorisierter Einträge aus dem Vorquartal. Lassen Sie einen Senior-Buchhalter sie blind neu prüfen. Verfolgen Sie die tatsächliche Genauigkeitsrate, aufgeschlüsselt nach Kategorie. Driftet die Rate, stimmen Sie nach oder entfernen Sie die Funktion. Das ist Ihr Äquivalent zur jährlichen Prüfung der Schätzungsgenauigkeit durch das Management.
Eine dokumentierte schriftliche Richtlinie. Welche Workflows KI nutzen, welche Kontrollen gelten, wer prüft, welcher Rücktest-Rhythmus gilt, wer die Richtlinie verantwortet. Ihr Prüfer wird danach fragen. Ihr SOX-Berater wird danach fragen. Wenn Sie das nicht haben, haben Sie kein Kontrollumfeld um KI. Sie haben eine Stimmung.

Diese Punkte sind nicht optional, und sie sind nicht langsam. Das erste Mal durch sie zu gehen dauert eine Woche. Danach sind es Checklisten.

Ihr 30-Tage-KI-Einführungsplan

Widerstehen Sie dem Drang, drei Dinge auf einmal einzuführen. Das Muster, das funktioniert:

Woche 1: Wählen Sie einen Workflow und erstellen Sie eine Ausgangsmessung. Wählen Sie einen risikoarmen Workflow aus der Grün-Liste. Ich würde mit dem Entwurf von Abweichungskommentaren oder der Kategorisierung von Lieferantenrechnungen beginnen. Messen Sie den aktuellen Zeitaufwand: Wie lange dauert das tatsächlich heute, in Stunden pro Abschluss? Dokumentieren Sie den aktuellen Prozess. Sie können die Einsparungen nicht messen, wenn Sie den Ausgangspunkt nicht gemessen haben.

Woche 2: Pilotphase mit Parallelbetrieb. KI entwirft, der Controller führt die Arbeit parallel auf die alte Weise durch und vergleicht dann. Ja, das ist mehr Arbeit im ersten Monat. Ja, das ist der einzige Weg zu wissen, ob das Werkzeug wirklich genau ist. Nach dem ersten Parallelbetrieb haben Sie Belege: tatsächliche Genauigkeitsrate, Zeiteinsparung, Fehlermuster. Ohne das vertrauen Sie der Demo des Anbieters, was dasselbe ist wie keine Kontrolle zu haben.

Woche 3: Schreiben Sie die Leitplanken. Legen Sie den Konfidenzwert fest. Schreiben Sie die Prüfungscheckliste. Definieren Sie die Funktionstrennung. Dokumentieren Sie die Anforderungen an den Prüfungspfad. Holen Sie die Freigabe Ihrer Prüfungsgesellschaft ein, wenn Sie börsennotiert sind, oder von Ihrem externen Berater, wenn Sie privat sind. Das ist die Woche, die die meisten Teams überspringen. Tun Sie das nicht.

Woche 4: Produktionsumstellung für diesen einen Workflow. Umstellen mit den Leitplanken. Den nächsten Abschluss mit vollständig funktionierenden Kontrollen durchführen. Die Ausnahmerate beobachten. Den nächsten Workflow erst auswählen, nachdem dieser einen Abschluss sauber durchlaufen hat.

Das ergibt ein Quartal, um drei Workflows sicher hinzuzufügen. Verglichen mit dem „gehen Sie in sechs Wochen mit acht Dingen live"-Plan, den der Berater Ihnen vorgeschlagen hat, ist das langsam. Verglichen mit einer Korrektur ist das sehr schnell.

Optional: Die ACE-Framework-Perspektive

Für Controller, die über KI systematisch statt werkzeugweise nachdenken möchten, ist das ACE-Framework eine nützliche Überlagerung. Es ordnet KI-Fähigkeiten in fünf Schichten ein: Ingest, Analyze, Predict, Generate, Execute.

Die meisten Buchhaltungs-KI-Systeme von heute befinden sich in Generate (Entwurf von Memos, Walkthrough-Dokumenten, Flux-Berichten) und Analyze (Abweichungsmarkierung, Anomalieerkennung, Trendabweichung). Diese Schichten sind dort, wo die Zeiteinsparungen real sind und die Fehlerbilder beherrschbar, weil ein Mensch prüft, bevor irgendetwas Geld bewegt oder die Bücher trifft.

Die Execute-Schicht (automatisches Buchen, automatisches Genehmigen, automatisches Kategorisieren ohne Prüfung) ist dort, wo das regulatorische und Prüfungsrisiko lebt. Da wird eine Modellentscheidung zur Finanzabschlussentscheidung ohne Mensch dazwischen. Der Großteil meiner Vorsicht oben bezieht sich auf diese Grenze. Wenn Sie Ihren KI-Rollout gegen ACE abbilden, lautet die Regel: Steigen Sie von Ingest und Analyze aus auf, gehen Sie sorgfältig in Generate vor, und behandeln Sie Execute als separates, prüfungsreifes Gespräch.

Das Fazit

KI ersetzt nicht das Urteilsvermögen des Controllers. Sie verändert, worauf Ihr Urteilsvermögen angewendet wird.

Die Routinearbeit (Rechnungen kategorisieren, Flux-Kommentare entwerfen, die erste Version des Walkthrough-Memos schreiben) wird zunehmend maschinenunterstützt. Die Stunden, die Sie dort sparen, verschwinden nicht. Sie fließen in die Arbeit, die KI nicht berühren kann: die technischen Rechnungslegungspositionen, die Prüfergespräche, die Geschäftspartnerschaft mit dem operativen Bereich, die Kontrollgestaltung, die Korrektur, mit der ein Kollege in einem anderen Unternehmen gerade zu kämpfen hat, weil er diese Grenzen nicht gezogen hat.

Die Controller, die in den nächsten fünf Jahren erfolgreich sein werden, sind nicht diejenigen, die KI abgelehnt haben. Und nicht diejenigen, die alles übernommen haben, was der Anbieter angeboten hat. Es sind diejenigen, die die Workflows sorgfältig ausgewählt, die Leitplanken zuerst aufgebaut und die zurückgewonnenen Stunden für Arbeit eingesetzt haben, für die tatsächlich ein CPA im Stuhl sitzen muss.

Lassen Sie nicht die Demo des Anbieters Ihr Kontrollumfeld bestimmen. Bestimmen Sie es selbst, schreiben Sie es nieder und lassen Sie die Werkzeuge den Kontrollen dienen, nicht umgekehrt.

Controller Playbooks