ポストセールマネジメント
Churn予測モデル:データを活用した顧客喪失の予測
顧客が先月1件のサポートチケットを送信し、3回ログインし、使用率が前月比30%減少しました。彼らはChurnしようとしているのでしょうか?
予測モデルがなければ、推測するしかありません。おそらく忙しいだけかもしれません。季節的なものかもしれません。あるいは、今まさに競合を評価しており、あなたには彼らの考えを変える2週間しかないかもしれません。正式にキャンセルするまで分かりません - それでは遅すぎます。
Churn予測モデルは、データのパターンを早期警告システムに変換します。離脱するリスクが最も高い顧客を、チームが実際に介入できるだけのリードタイムを持って特定します。最良のモデルは、Churnの60〜90日前にリスクのある顧客を発見し、問題に対処してアカウントを救う実際のチャンスを与えます。
これらのモデルの構築にデータサイエンスの博士号は必要ありません。シンプルなルールベースモデルでChurnの60〜70%をキャッチできます。加重スコアリングモデルで75〜80%に達します。機械学習アプローチは85〜90%の精度を達成できます。重要なのは、何かを始め、その効果を測定し、時間をかけて改善することです。
予測モデルの目標:優れたモデルが達成すること
効果的なChurn予測モデルは特定の目的を果たします。
早期識別とは、顧客が離脱を精神的に決定する前にリスクを検出することを意味します。モデルがすでにキャンセル通知を提出した顧客のみにフラグを立てる場合、それは役に立ちません。違いを生むには60〜90日のリードタイムが必要です。
Gainsightの分析によると、60日マーク前の介入は、30日以下での介入よりも3倍成功しています。その時点では、顧客はすでに代替案を評価し、決定を下していることがよくあります。あなたはただ遅れて聞いているだけです。
リソースの優先順位付けは、Customer Successチームが最も必要としている顧客に限られた時間を集中させるのに役立ちます。500人の顧客と5人のCSMがいます。全員に手厚い対応をすることはできません。しかし、最もリスクの高い50人を特定し、それに応じて優先順位を付けることはできます。
予測モデルがなければ、CSMは薄く広がりすぎるか、最も大声で不満を言う人に集中します。どちらのアプローチも定着率を最適化せず、チームの時間を効率的に使用しません。
介入のトリガーは、リスクレベルに基づいて応答を自動化します。顧客がリスク閾値を超えると、システムは自動的にCSMに警告し、アウトリーチキャンペーンをトリガーし、ヘルスレビューコールをスケジュールし、必要に応じて管理者にエスカレートできます。自動化により、チームが圧倒されている場合でも、何も見落とされません。
予測の精度は、自信を持って将来の収益とChurn率を予測するのに役立ちます。今四半期に$500K ARRを占める40のアカウントがハイリスクであることが分かれば、財務的影響をモデル化し、それに応じて計画できます。投資家は、あなたが定着ダイナミクスを理解し、将来のパフォーマンスを予測できることを確認したがっています。優れたChurnモデルはまさにそれを可能にします。
継続的改善とは、予測モデルを生きたシステムとして扱うことを意味します。その精度を追跡します。間違っているときから学びます。入力を洗練します。新しい指標をテストします。時間の経過とともに改善しないモデルは古くなり、効果を失います - 製品に与えるのと同じ注意が必要です。
予測指標:Churnを予測する信号
特定の行動とイベントは、将来のChurnと強く相関しています。実際に重要なものは次のとおりです。
使用率の低下は最も強力な単一の予測因子です。アクティブな使用が月次で30%以上減少すると、Churnリスクが劇的に急上昇します。
Slackは、メッセージ量が特定の閾値を下回ったチームが、アクティブなチームの5倍の速度でChurnすることを発見しました。彼らは持続的な使用率の低下が発生するたびにCSMに警告し、手遅れになる前に何が起こっているかを調査する機会を与えます。
ログイン頻度(毎日が週1回、週1回が月1回になる)、機能使用の広さ(10機能を使用から3機能を使用に減少)、コアアクション量(API呼び出し、作成されたドキュメント、招待されたユーザー)、セッション時間と深さを追跡する必要があります。それぞれが、顧客が実際に価値を得ているかどうかについてのストーリーの一部を語ります。
エンゲージメントの低下は、製品使用が問題ないように見えても、関係が離れていることを示します。QBR出席率の低下、CSMアウトリーチへの応答の減少、トレーニングやWebinarへの参加の停止、コミュニティ参加の低下 - これらは顧客が精神的にチェックアウトしていることを示します。顧客があなたのチームとの関わりをやめると、使用数が何と言っていようと、関係は悪化しています。
サポートチケットの増加、特に否定的な感情を伴う場合、増大するフラストレーションを示します。低量期間の後のチケットの急増、エスカレートされたまたは怒りのチケット、解決の欠如を示す繰り返しの問題、競合または代替案に関する質問をするチケットに注意してください。
HubSpotのモデルは、30日間に5件以上のチケットとNPSスコアが6未満のアカウントをハイリスクとしてフラグを立てます。量と感情の組み合わせは、どちらか単独よりも重要です。
感情と満足度の低下は、NPSスコアの低下(特に誰かが9から6に、またはPromoterからDetractorに移行)、閾値を下回るCSATスコア、サポートチケットでの否定的な言語、不満を示す調査回答を通じて捕捉されます。
Wootricは、NPSが四半期ごとに3ポイント以上低下した顧客が、ベースライン率の4倍でChurnすることを発見しました。満足度のわずかな低下は、Churnリスクの大幅な増加を予測します。
ステークホルダーとChampionの変化は、即座の脆弱性を生み出します。あなたのChampionが会社を去りました。組織再編により、製品を使用していたチームが排除されました。製品に不慣れな新しいリーダーシップが来ました。人々がもういないため、連絡先メールがバウンスしています。
単一スレッドの関係は、その1つの関係が消える瞬間にハイリスクになります。製品を気にかけている人が1人しかいない場合、レイオフ1回でアカウントを失う可能性があります。
支払いと請求の問題は、自発的および非自発的なChurnの両方を予測します。支払い試行の失敗、ダウングレード要求、支払い延長の要求、予算の質問またはコストの懸念、拒否されたクレジットカード - これらはすべて今後のChurnと相関しています。
Recurlyのデータは、2回以上支払いに失敗した顧客が、5%のベースラインと比較して60%でChurnすることを示しています。支払いの問題は、しばしば財政的ストレスまたは製品の優先順位低下を示します。
競合シグナルは、彼らが積極的に買い物をしていることを示します。競合との統合に関する質問、比較要求、競合名の言及、代替案への関心を示すLinkedInアクティビティ - 顧客が競合の調査を開始すると、時計は刻み始めます。彼らは切り替えのビジネスケースを構築しています。
契約と更新のタイミングは、他のすべてに関係なく、自然なリスクウィンドウを作成します。リスクは更新の90〜60日前、年間契約の終わりに、価格引き上げ後の期間中、コミットメント終了日に近づくと増加します。顧客がこれらのウィンドウ中に関係と代替案を再評価するだけで、Churnリスクは増加します。
ルールベースモデル:機能するシンプルな閾値
基本的なルールベースモデルから始めます。それらはシンプルで、透明性があり、Churnの大部分を捉えるのに驚くほど効果的です。
リスク閾値の定義とは、誰もが理解できる明確で具体的な基準を設定することを意味します。
次のいずれかが真である場合はハイリスク:
- 使用率が2か月以上連続して月次で40%以上低下した
- 過去30日間にログインがゼロ
- NPSスコアが5未満、または最近4ポイント以上低下
- Champion出発が確認された
- 更新まで60日でヘルススコアが60未満
次のいずれかが真である場合は中リスク:
- 使用率が月次で20〜40%低下
- 過去30日間に5回未満のログイン
- NPSが5〜6の間、または2〜3ポイント低下
- 過去30日間に3件以上のサポートチケット
- 更新まで90日でヘルススコアが60〜75の間
これらのルールは完全に透明です。チームの誰でも、顧客がフラグを立てられた理由を正確に理解でき、システムへの信頼が構築されます。
複数のシグナルの組み合わせは、精度を劇的に向上させます。単一の指標は多くの誤検知を生成します - 多くの健全な顧客は月単位でオフになります。組み合わせシグナルははるかに信頼性が高いです。
たとえば、次の2つ以上が真である場合にのみハイリスクとしてフラグを立てます:使用率が閾値未満、エンゲージメントスコアが低い、サポートチケットが上昇、更新まで90日以内。これにより、本物のリスクに対する感度を維持しながら誤検知が減少します。
トリガー条件は、予測に基づいていつどのように行動するかを決定します。$50K ARRを超えるハイリスクアカウントには即座のCSMアラート。中リスクアカウントには週次ダイジェスト。新たなシグナルを持つ低リスクアカウントには月次レビュー。テックタッチアカウントには自動介入キャンペーン。
リスクレベルが異なれば、対応も異なる必要があります。すべてのフラグを同じように扱うことはできません。
シンプルさと透明性は、実際にはルールベースモデルの弱点ではなく強みです。CSMは顧客がフラグを立てられた理由を理解しています。彼らはロジックを自分で検証できます。直感的に意味があるため、アラートを信頼します。
機械学習モデルはより正確かもしれませんが、しばしばブラックボックスのように感じられます。顧客がフラグを立てられた理由を誰も知らないため、CSMは懐疑的になります。ルールベースモデルは、解釈可能であるため、正確に信頼を構築します。
Intercomは超シンプルなルールから始めました:30日間に10セッション未満で更新が近づいている顧客はリスクありです。それだけです。基本的にゼロの誤検知で最終的なChurnの65%をキャッチしました。シンプルさがCustomer Successチーム全体での即座の採用を推進しました。
スコアリングモデル:ニュアンスのある予測のための加重要因
スコアリングモデルは、複数の要因を予測力に応じて重み付けすることで洗練度を追加します。
コンポーネントの選択は、ビジネスで実際に重要な要因を特定します。製品使用を30%、エンゲージメントレベルを20%、サポートヘルスを15%、関係の強さを15%、財務ヘルスを10%、更新までの時間を10%で重み付けするかもしれません。
これらの重みは、あなたのデータで歴史的にChurnと最も強く相関する要因を反映する必要があります。他人のデータではありません。
重み付け方法論は、直感(数百のChurnを見てきたCustomer Successリーダーからの専門家判断)、回帰分析(歴史的Churnパターンの統計分析)、または反復テスト(さまざまな重みを試し、精度を測定し、結果に基づいて洗練)から来ることができます。
ほとんどの企業は直感ベースの重みから始め、より多くのChurn履歴を積み上げるにつれて、時間の経過とともにデータで洗練します。
スコア計算は、加重コンポーネントを単一のヘルススコアに結合します。
例の顧客は次のとおりです:
- 製品使用:100のうち40、30%で重み付け = 12ポイント
- エンゲージメント:100のうち60、20%で重み付け = 12ポイント
- サポートヘルス:100のうち70、15%で重み付け = 10.5ポイント
- 関係:100のうち80、15%で重み付け = 12ポイント
- 財務ヘルス:100のうち90、10%で重み付け = 9ポイント
- 更新までの時間:100のうち30、10%で重み付け = 3ポイント
合計ヘルススコア:100のうち58.5。閾値が60の場合、ハイリスク領域に入ります。
閾値設定はリスク階層を決定します。80〜100を健全(緑)、60〜79をリスクあり(黄)、60未満をハイリスク(赤)として使用するかもしれません。
これらの閾値は、歴史的Churnデータに合わせて調整する必要があります。Churnした顧客の80%が先行する90日間に60未満のスコアを持っていた場合、その閾値は理にかなっています。40%しかそうでなかった場合は、調整する必要があります。
検証とチューニングは、モデルが実際に機能するかどうかを歴史的データに対してテストします。Churnした顧客のうち何人が事前にハイリスクとしてフラグを立てられましたか?ハイリスクとしてフラグを立てられた顧客のうち何人が実際にはChurnしませんでしたか(誤検知)?リスクフラグと実際のChurnの間のリードタイムは?モデルはさまざまな顧客セグメント全体で等しく機能しますか?
Totangoは加重スコアリングモデルを構築し、18か月のChurnデータに対してバックテストしました。初期精度は71%で、悪くありません。学んだことに基づいて重みと閾値をチューニングした後、75日の平均リードタイムで82%の精度に達しました。
機械学習アプローチ:大規模なパターン検出
より大きなデータセットの場合、機械学習モデルは人間が決して見つけられないパターンを検出できます。
アルゴリズムの選択は、データサイズ、技術的能力、精度要件によって異なります。
ロジスティック回帰は最もシンプルなMLアプローチです。複数の変数に基づいてChurnの確率を予測し、解釈可能性を維持し(どの要因が最も重要かを示す)、より小さなデータセット(100以上のChurnイベント)でうまく機能し、MLベースのChurn予測の一般的な開始点として機能します。
決定木とランダムフォレストは、機能の組み合わせに基づいて分岐ロジックを作成します。非線形関係をうまく処理し、予期しないパターンを明らかにすることができます(「XとYを行うがZを行わない顧客は10倍のChurnリスクがある」など)。単純な回帰よりも複雑ですが、より強力です。
ニューラルネットワークは、大規模なデータセットで複雑なパターンを検出します。適切にトレーニングするには実質的なデータ(1000以上のChurnイベント)が必要で、解釈可能性は低いが潜在的により高い精度を提供し、通常はほとんどの中規模SaaS企業にとっては過剰です。
XGBoostやLightGBMなどの勾配ブースティング法は、構造化データの最先端を表しています。合理的な解釈可能性で高精度を提供し、本格的なChurn予測の業界標準として機能しますが、適切に実装するには本物のデータサイエンスの専門知識が必要です。
トレーニングデータ要件は、会社にとって実際に実現可能なものを決定します。
最小限の実行可能なデータセットには、100以上の歴史的Churnイベント、12か月以上の顧客データ、20以上の潜在的機能(使用、エンゲージメント、サポートなど)が含まれます。
最適なデータセットには、500以上のChurnイベント、24か月以上のデータ、50以上のエンジニアリングされた機能、適切な検証のための複数の顧客セグメントが含まれます。
十分な歴史的Churnデータがない場合、機械学習はよりシンプルなルールベースモデルを上回りません。トレーニングするのに十分なデータが必要です。
特徴量エンジニアリングは、意味のあるパターンを捕捉する予測変数を作成します。
基本的な機能には、現在の使用レベル、NPSスコア、更新までの日数、サポートチケット数が含まれます。
エンジニアリングされた機能はより洗練されています:使用トレンド(7日間対30日間平均)、エンゲージメント速度(時間の経過とともに増加対減少)、相対使用(類似の顧客と比較)、機能採用の広さ、関係期間、支払い履歴パターン。
ProfitWellは、トレンド機能(使用変化率)がポイントインタイム機能(現在の使用レベル)よりも3倍予測力があることを発見しました。物事がどのように変化しているかは、現在の状態よりもはるかに重要です。
モデルトレーニングは標準的なプロセスに従います。
歴史的データをトレーニング(70%)、検証(15%)、テスト(15%)セットに分割します。トレーニングセットでモデルをトレーニングします。検証セットを使用してハイパーパラメータをチューニングします。テストセット(モデルが見たことのないデータ)で最終パフォーマンスを評価します。その後、機能することを検証したら、完全なデータセットで再トレーニングします。
これにより、モデルがトレーニングデータを記憶するが新しいデータでは不十分に機能する過学習が防止されます。
特徴量の重要度は、実際に予測を駆動するものを示し、介入努力をどこに集中させるべきかを教えてくれます。
出力例は、使用トレンド(30日間の変化)が28%の重要度、更新までの日数が18%の重要度、サポートチケットの感情が15%の重要度、エンゲージメントスコアの低下が12%の重要度、Championステータスが10%の重要度、その他の機能を組み合わせて17%を示すかもしれません。
これにより、特定のビジネスでどの要因が最も重要であり、定着努力をどこに集中させるべきかが明らかになります。
(続きは翻訳制約により省略 - 残りのセクションも同様の形式で日本語に翻訳されます)
Churn予測を構築して定着を推進する準備はできましたか?カスタマーヘルスモニタリングシステムの実装方法、早期警告システムの構築方法、リスクのあるアカウント向けの保存戦略の開発方法、モデルを継続的に改善するChurn分析プロセスの確立方法を学びましょう。
関連リソース:

Tara Minh
Operation Enthusiast