日本語

グロースマーケターのワークフローにおけるAI活用

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

火曜日の9時14分。SDRツールから「グロースマーケティング向けの新しいAIエージェント」についてメールが届いています。件名に「解放」という言葉が使われています。開封していません。Claudeのタブに20分費やし、14,000件のサインアップイベントのCSVを貼り付けて、アクティベーションのステップ3とステップ4の間の奇妙な離脱を見つけるように依頼していました。2つ見つかりました。1つは本物で、1つは内部ユーザーをフィルタリングし忘れていただけでした。そのタブ(チームの誰も見ないタブ、どんなベンダーのピッチデッキにも登場しないタブ)があなたの実際のAIワークフローです。

あなたが採用されたグロースマーケティングマネージャーの職務記述書には「AIに堪能であること」と書かれています。火曜日の午前9時にそれが何を意味するのか、誰も教えてくれませんでした。ベンダーのデモではAIはボタンを押せば実験を生成、実行、リリースできる魔法のように聞こえます。現実はもっと混乱していて、はるかに有用です。AIとはNotionドキュメントに保存された5つのプロンプトと、AIが嘘をついているときに気づく判断力のことです。これがそのギャップについての話です。ベンダーAI(メールの件名にあるもの)とワークフローAI(すでにブラウザのタブにあるもの)の違いです。

B2B SaaSまたはPLG企業でグロースICとして1〜4年のキャリアを積んでいるなら、これが正直な地図です。どこで時間を節約できるか。どこでゴミを静かに生成するか。実際に使えるスタック(ガートナーの象限ではなく)。

AIが実際に役立つ場面

機能リストは忘れてください。瞬間で考えてください。一週間の中でコンテキストをモデルに貼り付けると、次の30分が変わる特定の瞬間です。

仮説生成。 これが最大の成果であり、最もベンダーが触れない点です。アクティベーションファネルと4週目のコホートリテンションカーブをClaudeに貼り付けます。「このデータで最も奇妙なパターン10個と次にテストすることを教えてください」と依頼します。提案の7つは捨てます。明らかで、ありきたりで、間違っているからです。残りの3つは自分では思いつかなかったテストです。通常、チームが暗黙的に他の誰かの問題と決めた境界をまたぐもの(「マーケティングの担当」と言われていた価格ページのナッジ、「ライフサイクルの担当」と言われていた再エンゲージメントメールのゲート)です。AIは境界を気にしません。それが価値です。

ライフサイクルコピーのバリアント。 セグメント、トリガーイベント、以前のバージョンのコピー、ゴールを渡します。5つの声で5つのバリアントを求めます。1つ半を採用します。day-3再アクティベーションメールのためにコピーライターに1日かけてブリーフィングするより速いです(誰もそのメールを細かく読まないのですから)。正直なフレーミング:AIコピーは限界ROIが人間が書いたバリアントを正当化しないライフサイクルメッセージの長いテールには適しています。アクティベーションのヒーローコピーやホームページには適していません。ツールをリスクに合わせます。

コホート分析のサニティチェック。 SQLやチャートを貼り付けて、「この分析の何が問題ですか」と聞きます。私が最もよく使うものです。発表前に明らかなミスを捉えます。リテンションカーブでの生存者バイアス、正規化していない週末の季節性、その週にたまたまサインアップした大きな顧客1社が80%を占めるコホートなど。ピアレビューで最終的には気づくことがほとんどです。AIは木曜日のSlackスレッドではなく、9時30分に気づいてくれます。

イベントデータの行動パターン探索。 解約したユーザーと継続したユーザーのイベント5,000行を投入し、違いを求めます。予測ではありません。「誰が解約するかを予測してください」でもありません。仮説を生成するポンプです。出力は「継続したユーザーは最初の24時間でチームメイトを招待する可能性が4倍高かった」というリストであり、それを分析ツールで適切に検証します。AIを質問を浮かび上がらせるものとして扱い、それを答えるものとしては扱いません。

発表のサマリー。 12タブのスプレッドシート発表をグロース責任者が実際に読む3段落のSlack投稿に変換します。ChatGPTが初回で得意とする唯一のタスクです。テスト名、仮説、数値、判断を渡します。「3段落、平易な日本語、結論から始め、専門用語なし」と依頼します。完了です。疲れた夕方5時に自分で書くメッセージよりも15分を節約でき、内容も優れています。

Notionに保存している5つのプロンプト

  • 仮説生成ポンプ。 「アクティベーションファネルと4週コホートリテンションをまとめます。最も奇妙なパターン10個と、それぞれに対する1つのテストを提案してください。」
  • コピーバリアント。 「day-3再アクティベーションメール。セグメント:。前バージョン:[Y]。5つの声で5つのバリアント、最大80語。」
  • SQLサニティチェック。 「SQLとチャートを示します。この分析の何が問題ですか?重大度順に5つのリスクをリストアップしてください。」
  • 発表サマリー。 「以下のテスト結果をまとめます。グロース責任者向けに3段落のSlack投稿を書いてください。結論から始め、専門用語なし。」
  • コホートサニティチェック。 「リテンションカーブを示します。それを膨らませている可能性のある要因は何ですか?生存者バイアス、季節性、顧客集中、その他は?」

これがスタック全体です。5つのプロンプト、1つのNotionドキュメント。

AIが壊れる場面(そして恥をかく場面)

「AIに堪能」のもう半分は、タブを閉じるタイミングを知ることです。モデルは最も自信を持つべきでない場所で自信満々です。

因果関係の主張。 AIは喜んで「メールがリフトを引き起こした」と言います。それはわかりません。ホールドアウトグループがありません。その週の他のリリースについての事前情報もありません。「コピーの変更によって12%のアクティベーションリフトが生じた」という整然とした段落を生成し、あなたはそれを発表に貼り付け、統計の素養がある誰かがあなたを沈める質問を1つ聞いてきます。ルールは単純です。AIは因果関係を裁定しません。何かが「これが引き起こした」として発表される前には、常にホールドアウト、事前登録された仮説、信頼区間を求めてください。

B2Bのニュアンス。 モデルはあなたのバイヤーが90日の調達サイクル、3人の内部ステークホルダー、木曜日に行われる四半期予算レビューを持つCFOであることを知りません。出力は「緊急感を作れ」「希少性を活用せよ」「カウントダウンタイマーを追加せよ」というDTCグロースハックのTwitterのような内容になります。長いシステムプロンプトでコンテキストを教えることはできますが、4回に1回は元に戻ります。B2Bライフサイクルについては、AIを一度も営業コールに出たことのない若手コピーライターとして扱ってください。

リテンション予測。 カーブにフィットさせ、月3のデータから月12のリテンションを予測します。そのカーブは間違っています。ロングテールのリテンションはAIがフィットしようとする形にほぼ従わず、モデルはPLGセルフサービスと営業主導パターンの違いを知りません。Mixpanel/Amplitude/PostHogのネイティブコホート予測、またはデータチームによる適切なリテンションモデルを使用してください。LLMは使いません。

ノーススターメトリックの定義。 AIに指標を選ばせてはいけません。ノーススターはCEO、CFO、プロダクトリードとの戦略的な会話です。ビジネスモデル、バイヤー、競争優位性から派生するものです。AIはそのどれも知りません。トレーニングデータのほとんどの記事が言っていたからという理由で「週次アクティブユーザー数」を提案し、それはまさにPLG企業が2四半期間間違ったグロースループを最適化してしまう類の指標です。

AIが嘘をつく場面

  • 因果関係の主張。 ホールドアウトなしで自信満々に帰属。
  • リテンション予測。 カーブにフィットさせ、それをデータと呼ぶ。
  • B2Bのニュアンス。 DTCグロースハックのパターンをデフォルトにする。
  • ノーススターメトリックの定義。 モデルに指標を選ばせてはいけない。

パーソナライゼーションにおけるAI(Mutiny/動的コンテンツ):機能する場面

動的パーソナライゼーションは、ベンダーのピッチとワークフローの現実が最も近い場所ですが、大規模な場合に限られます。

3つの条件が満たされた場合に機能します。ページのトラフィックが多い場合(百件ではなく月数万件のアクセス)。セグメントが明確で安定している場合(業界、企業規模、有料トラフィックソース、名前付きアカウントリスト)。セッション間で変動する行動的マイクロセグメントではない。そしてバリアントが本物である場合(異なるユースケース、異なる見出し、異なる業界事例)。バイヤーの名前をヒーローに挿入することをパーソナライゼーションと呼んでいるのではありません。

低トラフィックページ(有意差に達しない)、文法的に壊れやすいコピー(8%のアクセスで冠詞が間違った文章が出て、コントロールより読みにくい「パーソナライズ」になる)、または名前とロゴを差し込む「パーソナライズ」メール(それはmail-mergeフィールドであり、パーソナライゼーションではありません)には機能しません。

価格の現実:MutinyとIntellimizeはエンタープライズ価格です。明確なICPと業種別クリエイティブを作れるマーケティングチームを持つARR2,000万ドルの企業には意味があります。月間4,000アクセスのホームページを持つARR200万ドルの企業には意味がありません。シリーズAチームに動的パーソナライゼーションをピッチするベンダーは、間違ったものをピッチしています。

「完全自動化グロースループ」の罠

6ヶ月ごとにベンダーのデモが循環します。「AIがテストを生成し、実行し、結果を読み取り、勝者をリリースします。グロースプログラムが自動で動きます。」スライドデッキは素晴らしい。図には矢印がループしています。

これが危険な3つの理由を順番に示します。

第一に、組織の学習が失われます。18ヶ月後にチームがグロースに優れている理由は、より多くのテストを実施したからではありません。テストを実施した人々がバイヤー、プロダクト、どのパターンが汎用化できるかについての直感を培ったからです。ループを自動化するとその直感は形成されません。ツールなしでは機能できず、批判的に読めないテストを実施するチームになります。

第二に、仮説を誰も審査する前にループがリリースします。失敗するグローステストのほとんどは実行段階ではなく仮説段階で失敗します。良いコピーを身にまとった悪い仮説がトラフィックの50%に当たると、それを実施する限界的な価値より損害が大きくなります。「この質問は答える価値があるか」という判断は実験全体の中で最もレバレッジが高い瞬間であり、委託できない瞬間です。

第三に、ループは複利的な指標ではなく短期的なクリックを最適化します。AI読み取りシステムはクリックスルーが上がったのでバリアントが勝ったと伝えます。バリアントが月2に解約した質の低いリードを引き込んでいたことはわかりません。気づくころには、総合的にリテンションを4ポイント下げた「勝者」を12個リリースしています。

発表ミーティングから自分を自動化したグロースマーケターは、次の昇進からも自分を自動化してしまいます。判断が求められる場所に人間を残してください。仮説の質、終了基準、セグメント定義、何を勝ちと見なすか。タイピングはAIに任せ、思考は任せません。

実際のスタック(本当に使っているもの)

象限も、ロゴの羅列も不要です。ブラウザにあるものを示します。

  • Claude(日常業務はSonnet、大きなコンテキストはOpus)。 分析、SQLレビュー、5,000行または長いコンテキストを貼り付けるすべての作業。「これを注意深く読んで何が問題か教えてください」ではChatGPTより優れています。コホートサニティチェックと仮説生成ポンプはここに住んでいます。
  • ChatGPT。 コピーバリアント、クイックリライト、件名のブレインストーミング。短いタスクでは応答が速い。コンシューマー寄りのコピーではトーンコントロールが優れています。長いコンテキストは苦手。
  • CursorまたはWindsurf。 自分でSQLやPythonを書く場合のみ。データチームとペアプログラミングする分析スクリプトを約30%削減します。コードを書かない場合はスキップしてください。
  • AmplitudeまたはMixpanelまたはPostHogのネイティブAI。 「平易な言葉で質問する」機能。データチームにチケットを出すところの80%の質問には有用です。因果関係の質問は信頼しないでください。正しく見えるクエリを実行して間違った答えを出します。
  • MutinyまたはIntellimize。 大規模な場合のみ、ファネル上部のみ、トラフィックと業種別クリエイティブがある場合のみ。なければ、このレベルにはまだ準備できていません。
  • 避けるべきもの: 「グロースプログラムを実行するAIエージェント」というピッチのあらゆるツール。それはテストされていない仮説をファネルに当てるボタンです。

オプション:ACEフレームワークの視点

グロースにおけるAIの戦略的な位置付けを求めるなら、ACEフレームワーク(Ingest、Analyze、Predict、Generate、Execute)がわかりやすくマッピングできます。AIが最も役立つのはAnalyze(コホートサニティチェック、イベントデータのパターン探索)とGenerate(コピーバリアント、仮説リスト)です。最も弱いのはPredict(リテンション予測と因果関係の主張、自信満々に間違える2つの場所)です。IngestExecuteは中立です(それらはまだモデルではなくツーリングの問題です)。1段落で終わります。より深いバージョンはACEフレームワークを読んでください。日常業務では:分析と生成にAIを活用し、予測には決して使わないことが結論です。

ワークフローを壊さずにAIを統合する30日計画

ほとんどのグロースマーケターが犯すミスは「AIをもっと使う」をツール導入の問題として扱うことです。それは習慣の問題です。4週間バージョンを示します。

1週目。3つの繰り返しタスクを選ぶ。 10ではなく3つ。発表サマリー、ライフサイクルコピーのブリーフ、週次コホートスキャン。それぞれのプロンプトを作り、入力フォーマットを明記してNotionに保存します。すべてを自動化しようとしません。1週目のゴールはタスクごとに1つの良いプロンプトを1回使うことです。

2週目。発表レビューにClaudeまたはChatGPTを加える。 発表を送る前に、テスト結果と分析をClaudeに貼り付けます。「ミーティングでこれを発表したら何に反論しますか?」と聞きます。答えをゴスペルではなくピアレビューとして扱います。返ってきたものの半分はゴミです。残り半分は会議で誰かがまさに聞こうとしていた質問です。金曜日には時間節約を実感できます。

3週目。AIが仮説を生成した実験を1つ実施する。 仮説生成プロンプトから候補を選びます。他のテストと同じ方法で実施します(適切な仮説、MDE計算、ホールドアウト、読み出し)。AI由来の仮説が自分で生成した仮説と異なる勝率を示すかどうかを追跡します。正直な答えは:勝率は似ていますが、3倍多くの候補を生成しており、テストバックログはより大きく優先順位が高くなっています。

4週目。監査。 Notionドキュメントを開きます。今月どのプロンプトが時間を節約しましたか?どれがやり直しが必要な出力を生成しましたか?悪いものを削除します。最大3〜5つ残します。目的はより鋭いワークフローであり、より多くのツールではありません。週40のプロンプトを使っていると言う人は嘘をついているか、ベンダー広告の中にいます。

最後に

次の火曜日に持って帰るべき2点。

AIは下手なグロースマーケターを良くしません。良いグロースマーケターを速くします。判断を必要としない仕事のタイピングコストを削減することで。複利的に積み重なるスキルはプロンプトエンジニアリングではありません。最初から聞く価値のある質問はどれかを知ることであり、それは最後まで人間の仕事です。

あわせて読む

About the author

Camellia

Camellia

Principal Product Marketing Strategist

Camellia is Principal Product Marketing Strategist at Rework, helping B2B buyers pick the right software with confidence. With 6+ years in product marketing and 150+ SaaS tools evaluated across CRM, project management, and sales engagement, Camellia turns competitive intelligence into clear, honest comparisons. Readers get vendor evaluations they can trust to cut through marketing noise and decide faster.