Deutsch

KI im Workflow des Growth Marketers

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

Es ist 9:14 Uhr an einem Dienstag. Das SDR-Tool hat Ihnen gerade eine E-Mail über seinen „neuen KI-Agenten für Growth Marketing" geschickt. Die Betreffzeile enthält das Wort unlock. Sie haben sie nicht geöffnet. Seit zwanzig Minuten arbeiten Sie in einem Claude-Tab, haben eine CSV-Datei mit 14.000 Signup-Events hineingekopiert und fragen die KI, wo der merkwürdige Drop-off zwischen Stufe drei und Stufe vier der Aktivierung liegt. Sie hat zwei gefunden. Einer ist real. Beim anderen haben Sie vergessen, interne Nutzer herauszufiltern. Dieser Tab (den auf dem Team niemand sieht, der in keinem Anbieter-Pitch-Deck auftaucht) ist Ihr eigentlicher KI-Workflow.

Die Stellenbeschreibung Growth Marketing Manager, auf die Sie eingestellt wurden, sagt, Sie sollten „KI-affin" sein. Niemand hat Ihnen erklärt, was das um 9 Uhr morgens an einem Dienstag bedeutet. Vendor-Demos lassen es klingen, als sei KI ein Knopf, den man drückt, um ein gewinnendes Experiment zu generieren, auszuführen und auszuliefern. Die Realität ist chaotischer und weitaus nützlicher: KI sind fünf Prompts, die Sie in einem Notion-Dokument aufbewahren, und die Disziplin zu wissen, wann sie Sie anlügt. Das ist die Lücke, um die es hier geht. Der Unterschied zwischen Vendor-KI (dem Ding in der Betreffzeile) und Workflow-KI (dem Ding, das bereits in Ihrem Browser-Tab läuft).

Wenn Sie ein Growth IC sind, ein bis vier Jahre in der Rolle bei einem B2B SaaS- oder PLG-Unternehmen, ist dies die ehrliche Karte. Wo sie Ihnen Stunden spart. Wo sie still Unsinn produziert. Der Stack, den Sie tatsächlich nutzen würden, nicht der Gartner-Quadrant.

Wo KI wirklich hilft

Vergessen Sie die Feature-Liste. Denken Sie in Momenten: den konkreten Punkten in Ihrer Woche, an denen das Einfügen von Kontext in ein Modell die nächsten dreißig Minuten verändert.

Hypothesengenerierung. Das ist die größte Entlastung und diejenige, die in Vendor-Präsentationen am wenigsten vorkommt. Fügen Sie Ihren Aktivierungsfunnel und Ihre Kohortenbindungskurve aus Woche 4 in Claude ein. Fragen Sie: „Was sind die zehn merkwürdigsten Muster in diesen Daten und was würden Sie als Nächstes testen?" Sie werden sieben der Vorschläge verwerfen. Sie werden offensichtlich, generisch oder falsch sein. Die anderen drei werden Tests sein, auf die Sie selbst nicht gekommen wären, meistens weil sie eine Grenze überschreiten, die Ihr Team implizit als das Problem eines anderen definiert hat (ein Nudge auf der Preisseite, der „Marketings Sache" ist, eine Re-Engagement-E-Mail-Schranke, die „Lifecycles Sache" ist). KI überschreitet Grenzen schamlos. Das ist der Wert.

Lifecycle-Textvarianten. Geben Sie ihr das Segment, das Auslöseereignis, die Kopie der vorherigen Version und das Ziel. Fordern Sie fünf Varianten in fünf verschiedenen Tonalitäten an. Sie behalten eineinhalb davon. Das ist schneller als ein Copywriter für eine Reaktivierungs-E-Mail an Tag 3 zu briefen, die ohnehin niemand genau lesen wird. Die ehrliche Einordnung: KI-Texte sind in Ordnung für den Long Tail der Lifecycle-Nachrichten, bei denen der marginale ROI einer menschlich geschriebenen Variante den Kalenderaufwand nicht rechtfertigt. Sie sind nicht in Ordnung für Ihren Aktivierungs-Hero-Text oder Ihre Homepage. Passen Sie das Werkzeug dem Einsatz an.

Kohorten-Plausibilitätsprüfung. Fügen Sie das SQL oder das Diagramm ein und fragen: „Was ist an dieser Analyse falsch?" Das ist der Einsatz, den ich am häufigsten nutze. Er fängt die offensichtlichen Fehler vor dem Readout ab: Survivorship Bias in Ihrer Bindungskurve, Wochenend-Saisonalität, die Sie nicht normalisiert haben, die Kohorte, die sich als zu 80 Prozent ein großer Kunde herausstellt, der zufällig in dieser Woche onboarding war. Die meisten davon würden Sie im Peer-Review irgendwann finden. KI findet sie um 9:30 Uhr anstatt in einem Slack-Thread am Donnerstag.

Verhaltensbasiertes Musterjagen in Event-Daten. 5.000 Zeilen Events für abgewanderte gegenüber gebundenen Nutzern einfügen, nach Unterschieden fragen. Keine Prognose. Kein „Sagen Sie vorher, wer abwandern wird." Ein Hypothesengenerator. Das Ergebnis ist eine Liste wie „Nutzer, die gebunden blieben, haben viermal häufiger ein Teammitglied in den ersten 24 Stunden eingeladen", die man dann in seinem Analytics-Tool ordnungsgemäß validiert. Behandeln Sie KI als das, was die Frage aufwirft, nicht als das, was sie beantwortet.

Readout-Zusammenfassungen. Ein zwölf-Tab-Spreadsheet-Readout in einen dreiabsätzigen Slack-Post verwandeln, den der Head of Growth tatsächlich liest. Das ist die eine Aufgabe, die ChatGPT beim ersten Versuch gut macht. Testname, Hypothese, Zahlen und Ergebnis eingeben. „Drei Absätze, einfaches Deutsch, mit dem Ergebnis beginnen, kein Fachjargon" anfragen. Fertig. Sie haben gerade fünfzehn Minuten zurückgewonnen, und die Nachricht ist besser als die, die Sie um 17 Uhr müde schreiben würden.

Fünf Prompts, die ich in Notion aufbewahre

Hypothesengenerator. „Hier ist unser Aktivierungsfunnel und die 4-Wochen-Bindungsrate nach Kohorte. Gib mir die 10 merkwürdigsten Muster und einen Test für jedes."

Textvarianten. „Reaktivierungs-E-Mail an Tag 3. Segment: . Vorherige Version: [Y]. Fünf Varianten in fünf Tonalitäten, maximal 80 Wörter je."

SQL-Plausibilitätsprüfung. „Hier ist das SQL und das Diagramm. Was ist an dieser Analyse falsch? Fünf Risiken nennen, nach Schweregrad geordnet."

Readout-Zusammenfassung. „Testergebnisse unten. Schreib einen 3-absätzigen Slack-Post für den Head of Growth. Mit dem Ergebnis beginnen. Kein Fachjargon."

Kohorten-Plausibilitätsprüfung. „Hier ist eine Bindungskurve. Welche Artefakte könnten sie aufblähen? Survivorship, Saisonalität, Kundenkonzentration, alles andere?"

Das ist der gesamte Stack. Fünf Prompts, ein Notion-Dokument.

Wo KI versagt (und Sie sich blamieren werden)

Die andere Hälfte von „KI-affin" ist zu wissen, wann man den Tab schließt. Modelle sind genau dort selbstsicher, wo sie es nicht sein sollten.

Kausalbehauptungen. KI erklärt Ihnen bereitwillig, „die E-Mail hat die Steigerung verursacht." Das kann sie nicht wissen. Sie hat keine Holdout-Gruppe. Sie kennt Ihre anderen Launches in dieser Woche nicht. Sie produziert einen sauberen, gut geschriebenen Absatz, der eine 12-prozentige Aktivierungssteigerung einer Textänderung zuschreibt, Sie fügen diesen Absatz in ein Readout ein, und jemand mit statistischem Hintergrund stellt eine Frage, die Sie versenkt. Die Regel ist einfach. KI urteilt nie über Kausalität. Fordern Sie immer eine Holdout-Gruppe, eine vorab registrierte Hypothese und ein Konfidenzintervall, bevor irgendetwas als „das hat das verursacht" ausgeliefert wird.

B2B-Nuancen. Das Modell weiß nicht, dass Ihr Käufer ein CFO mit einem 90-tägigen Beschaffungszyklus, drei internen Stakeholdern und einem Quartalshaushaltsreview ist, der an einem Donnerstag stattfindet. Die Ergebnisse lesen sich wie DTC-Growth-Hack-Twitter: „Dringlichkeit erzeugen", „Knappheit nutzen", „einen Countdown-Timer hinzufügen". Sie können dem Modell Ihren Kontext mit einem langen System-Prompt beibringen, aber es fällt bei jedem vierten Output wieder zurück. Für B2B-Lifecycle behandeln Sie KI als Junior-Texter, der noch nie in einem Verkaufsgespräch gesessen hat.

Kundenbindungsprognosen. KI passt eine Kurve an und projiziert die Monat-12-Kundenbindung aus Ihren Monat-3-Daten. Die Kurve ist falsch. Langfristige Kundenbindung folgt fast nie der Form, die KI anpassen möchte, und das Modell kennt den Unterschied zwischen PLG-Self-Serve- und Sales-Led-Mustern nicht. Verwenden Sie die native Kohortenprojektionsfunktion von Mixpanel, Amplitude oder PostHog oder lassen Sie Ihr Data-Team ein ordentliches Bindungsmodell ausführen. Kein LLM.

North-Star-Definition. Lassen Sie KI niemals Ihre Metrik auswählen. Der NSM ist ein Strategiegespräch mit Ihrem CEO, Ihrem CFO und Ihrem Product Lead. Er ist nachgelagert zum Geschäftsmodell, dem Käufer und dem Wettbewerbsvorteil. KI kennt nichts davon. Sie schlägt „wöchentlich aktive Nutzer" vor, weil das das ist, was die meisten Artikel in ihren Trainingsdaten gesagt haben, und das ist genau die Art von Metrik, die ein PLG-Unternehmen für zwei Quartale auf die falsche Wachstumsschleife optimieren lässt.

Wo KI Sie anlügt

Kausalbehauptungen. Selbstsichere Attribution ohne Holdout-Gruppe.

Kundenbindungsprognosen. Passt eine Kurve an, projiziert, nennt es Daten.

B2B-Nuancen. Fällt auf DTC-Growth-Hack-Muster zurück.

North-Star-Definition. Lassen Sie ein Modell niemals Ihre Metrik wählen.

KI in der Personalisierung (Mutiny / dynamische Inhalte) -- wann es funktioniert

Dynamische Personalisierung ist der Bereich, in dem Anbieter-Pitch und Workflow-Realität am nächsten beieinanderliegen, aber nur in großem Maßstab.

Es funktioniert, wenn drei Dinge wahr sind. Die Seite hat hohen Traffic (Zehntausende Besuche pro Monat, keine Hunderte). Die Segmente sind offensichtlich und stabil (Branche, Unternehmensgröße, Paid-Traffic-Quelle, Named-Account-Liste), keine verhaltensbasierten Mikrosegmente, die zwischen Sitzungen schwanken. Und die Variante ist real: ein anderer Beweispunkt, eine andere Überschrift, eine andere Branchen-Case-Study. Nicht nur der Vorname des Käufers in einen Hero eingefügt und das Personalisierung genannt.

Es funktioniert nicht für Seiten mit wenig Traffic (Sie erreichen nie statistische Signifikanz), für grammatisch zerbrechliche Texte (8 Prozent der Besuche erhalten einen Satz mit dem falschen Artikel, und Sie haben jetzt schlecht personalisiert auf eine Weise, die schlechter klingt als die Kontrollgruppe) oder für „personalisierte" E-Mails, die einen Vornamen und ein Logo austauschen. Wenn Ihre Version von „Personalisierung" mit einem Serienbrief-Feld gemacht werden kann, ist es keine Personalisierung, sondern ein Serienbrief-Feld.

Preisrealität: Mutiny und Intellimize sind Enterprise-bepreist. Sie machen für ein Unternehmen mit 20 Mio. USD ARR, einem klaren ICP und einem Marketingteam, das segmentspezifische Creatives erstellen kann, Sinn. Sie machen für ein Unternehmen mit 2 Mio. USD ARR, dessen Homepage 4.000 Besuche pro Monat erhält, keinen Sinn. Wenn ein Anbieter einem Series-A-Team dynamische Personalisierung pitcht, pitcht er das Falsche.

Die Falle des „vollständig automatisierten Wachstumsloops"

Alle sechs Monate dreht sich ein Vendor-Demo-Zyklus wieder durch den Funnel: „KI generiert den Test, führt ihn aus, liest das Ergebnis, liefert den Gewinner aus. Ihr Growth-Programm läuft von selbst." Das Folien-Deck ist wunderschön. Das Diagramm hat Pfeile, die in sich selbst zurückschleifen.

Drei Gründe, warum das gefährlich ist, der Reihe nach.

Erstens verlieren Sie das institutionelle Lernen. Der Grund, warum Ihr Team in achtzehn Monaten gut im Wachstum ist, liegt nicht darin, dass Sie mehr Tests durchgeführt haben, sondern darin, dass die Personen, die die Tests durchgeführt haben, Intuition über Ihren Käufer, Ihr Produkt und darüber aufgebaut haben, welche Muster sich verallgemeinern lassen. Den Loop automatisieren und diese Intuition kompiliert sich nie. Man landet mit einem Team, das ohne das Tool nicht funktionieren kann und Tests ausführt, die es nicht kritisch lesen kann.

Zweitens liefert der Loop aus, bevor jemand die Hypothese geprüft hat. Die meisten fehlgeschlagenen Growth-Tests scheitern in der Hypothesenphase, nicht in der Ausführungsphase. Eine schlechte Hypothese, in guten Text gekleidet und für 50 Prozent des Traffics ausgeliefert, kostet mehr als der marginale Wert seiner Durchführung. Die Ermessensentscheidung (ist diese Frage es wert, beantwortet zu werden?) ist der Moment mit dem höchsten Hebel im gesamten Experiment, und er ist der, den man nicht auslagern kann.

Drittens optimiert der Loop auf kurzfristige Klicks statt auf zusammengesetzte Metriken. KI-Readout-Systeme sagen Ihnen, dass die Variante gewonnen hat, weil die Klickrate gestiegen ist. Sie können Ihnen nicht sagen, dass die Variante qualitativ schwächere Leads angezogen hat, die in Monat 2 abgewandert sind. Bis Sie es bemerken, haben Sie zwölf „Gewinner" ausgeliefert, die zusammen die Kundenbindung um vier Punkte gesenkt haben.

Der Growth Marketer, der sich aus dem Readout-Meeting herausautomatisiert, automatisiert sich auch aus der nächsten Beförderung heraus. Den Menschen dort in der Schleife behalten, wo die Ermessensentscheidungen liegen: Hypothesenqualität, Abbruchkriterien, Segmentdefinition, was als Sieg zählt. KI das Tippen überlassen, nicht das Denken.

Der praktische Stack (der, den ich tatsächlich verwende)

Keine Quadranten, kein Logo-Dump. Das ist in meinem Browser:

Claude (Sonnet für den Alltag, Opus für großen Kontext). Analyse, SQL-Review, alles, wo ich 5.000 Zeilen oder langen Kontext einfüge. Besser als ChatGPT bei „Lies das sorgfältig und sag mir, was falsch ist." Hier leben die Kohorten-Plausibilitätsprüfungen und Hypothesengeneratoren.
ChatGPT. Textvarianten, schnelle Umformulierungen, Brainstorming von Betreffzeilen. Schnellerer Durchlauf für kurze Aufgaben. Bessere Tonalitätskontrolle für verbrauchernähere Texte. Schlechter bei langem Kontext.
Cursor oder Windsurf. Nur wenn Sie eigenes SQL oder Python schreiben. Spart etwa 30 Prozent beim Analyse-Skript, das Sie sonst mit dem Data-Team pair-programmieren würden. Überspringen, wenn Sie nicht bereits Code schreiben.
Native KI in Amplitude, Mixpanel oder PostHog. Die „In einfacher Sprache fragen"-Funktion. Nützlich für die 80 Prozent der Fragen, für die Sie sonst ein Ticket beim Data-Team einreichen würden. Nicht bei Kausalfragen vertrauen: Die KI führt gerne eine Abfrage aus, die richtig aussieht und die falsche Antwort liefert.
Mutiny / Intellimize. Nur in großem Maßstab, nur für Top-of-Funnel, nur wenn Sie den Traffic und die segmentspezifischen Creatives haben. Wenn nicht, sind Sie noch nicht bereit für dieses Niveau.
Vermeiden: jedes Tool, dessen Pitch lautet „KI-Agent, der Ihr Growth-Programm leitet." Das ist ein Knopf, der ungeprüfte Hypothesen gegen Ihren Funnel ausliefert.

Optional: die ACE-Framework-Perspektive

Wenn Sie einen strategischen Rahmen dafür möchten, wo KI im Wachstum hineinpasst, ordnet das ACE-Framework (Ingest, Analyze, Predict, Generate, Execute) das sauber ein. KI hilft am meisten bei Analyze (Kohorten-Plausibilitätsprüfungen, Musterjagen in Event-Daten) und Generate (Textvarianten, Hypothesenlisten). Sie ist am schwächsten bei Predict (Bindungsprognosen und Kausalbehauptungen, die beiden Stellen, an denen sie selbstsicher falsch liegt). Bei Ingest und Execute ist sie neutral (das sind immer noch Tooling-Probleme, keine Modellprobleme). Einen Absatz, das war's. Lesen Sie das ACE-Framework, wenn Sie die tiefere Version möchten, aber für den täglichen Workflow lautet die Erkenntnis: auf KI für Analyse und Generierung setzen, niemals für Prognosen.

Ein 30-Tage-Plan, KI zu integrieren, ohne den Workflow zu beschädigen

Der Fehler, den die meisten Growth Marketer machen, ist, „mehr KI verwenden" als ein Tool-Adoptionsproblem zu behandeln. Es ist ein Gewohnheitsproblem. Hier ist die Vier-Wochen-Version.

Woche 1. Drei wiederkehrende Aufgaben auswählen. Nicht zehn. Drei. Die Readout-Zusammenfassung, das Lifecycle-Copywriting-Briefing, den wöchentlichen Kohortenscan. Für jede einen Prompt erstellen, im Notion-Dokument mit dem Eingabeformat speichern. Nicht versuchen, alles zu automatisieren. Das Ziel von Woche 1 ist ein guter Prompt pro Aufgabe, einmal verwendet.

Woche 2. Claude oder ChatGPT zur Readout-Review hinzufügen. Bevor Sie den Readout verschicken, das Testergebnis und die Analyse in Claude einfügen. Fragen: „Womit würden Sie mich konfrontieren, wenn ich das in einem Meeting präsentieren würde?" Die Antwort als Peer-Review behandeln, nicht als Evangelium. Die Hälfte des Rückgekommenen ist Unsinn. Die andere Hälfte ist die Frage, die jemand im Meeting gerade stellen wollte. Die Zeitersparnis werden Sie bis Freitag spüren.

Woche 3. Ein Experiment ausführen, bei dem KI die Hypothese generiert hat. Einen Kandidaten aus dem Hypothesengenerator-Prompt auswählen. Es genauso ausführen wie jeden anderen Test (ordentliche Hypothese, MDE-Berechnung, Holdout, Readout). Verfolgen, ob KI-generierte Hypothesen mit einer anderen Rate gewinnen als die selbst generierten. Die ehrliche Antwort: ähnliche Raten, aber man hat 3-mal mehr Kandidaten generiert, was bedeutet, dass der Test-Backlog jetzt größer und besser priorisiert ist.

Woche 4. Audit. Das Notion-Dokument öffnen. Welche Prompts haben diesen Monat Zeit gespart? Welche haben Output produziert, den man nochmal machen musste? Die schlechten streichen. Drei bis fünf behalten, maximal. Der Punkt ist ein schärferer Workflow, nicht mehr Tools. Wer behauptet, 40 Prompts wöchentlich zu nutzen, lügt oder ist in einer Vendor-Anzeige.

Der Schlusssatz

Zwei Dinge für den nächsten Dienstag mitnehmen.

KI macht einen schlechten Growth Marketer nicht gut. Sie macht einen guten schneller, indem sie die Tipp-Steuer auf die Teile der Arbeit entfernt, die kein Urteilsvermögen erfordern. Die Fähigkeit, die sich zusammensetzt, ist nicht Prompt Engineering. Sie ist zu wissen, welche Fragen es überhaupt wert sind, gestellt zu werden, und das ist immer noch die Aufgabe des Menschen, bis zum Ende.

Mehr erfahren

About the author

Camellia

Principal Product Marketing Strategist

Camellia is Principal Product Marketing Strategist at Rework, helping B2B buyers pick the right software with confidence. With 6+ years in product marketing and 150+ SaaS tools evaluated across CRM, project management, and sales engagement, Camellia turns competitive intelligence into clear, honest comparisons. Readers get vendor evaluations they can trust to cut through marketing noise and decide faster.

View full profile LinkedIn