日本語

ステークホルダーレビューを通過する実験設計

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

以前一緒に働いたチームが先四半期にバナーの色のテストを実施しました。3日間。各アームに約200ユーザー。PMがダッシュボードを見て、クリック率のp = 0.07を確認し、Slackに「方向性はポジティブ、リリースしましょう」と書きました。6週間後、トップラインの指標は変わらず、下流のMLパーソナライゼーションモデルは、ユーザーレベルの目的に対してセッションレベルでランダム化されたトラフィックで静かに再学習していました。そしてVPが元の仮説は何だったか聞いたとき、誰も見つけられませんでした。

その実験には4つの問題が重なっていました。統計的検出力不足のサンプル、最小検出効果量(MDE)の計算なし、誤ったランダム化単位、そして2日目に覗き見て判断を誘導したこと。どれか1つだけでも結果を台無しにします。合わさって、何もない上に成り立った自信ある意思決定を生み出しました。

このガイドはその解毒剤です。その話が繰り返せなくなるような設計Playbookです。PM、エンジニアリングリード、そして懐疑的なVPが全員readoutドキュメントを読んで、あなたと同じ結論に達することができる、そのための設計です。

仮説テンプレート

ほとんどの実験はデータ収集前に失敗します。仮説が反証不可能だからです。「UXを改善する」「チェックアウトを良くする」「エンゲージメントを増やす」。これらはどれも間違いにならないため、正解にもなれません。

防御できる仮説には4つの要素があります:

問題: 今日、ベースライン付きで気に入らない具体的な数字。
予測される変化: 実施すること、1文で。
成功指標: 判断の基準となる単一の主要指標。
MDE: ビジネス上の意思決定を変えるであろう最小効果量。

記入すると、このようになります:

チェックアウト完了率は38%（90日ベースライン、n ≈ 120万セッション）。チェックアウトフローに4ステップのプログレスバーを追加することで、住所ステップ後の離脱を減らす。主要指標: 完了率、ユーザーごとに計測、14日間ウィンドウ。MDE: 絶対1.5パーセントポイントの改善（相対4%）。それ以下ではエンジニアリングコストを正当化できない。

このテンプレートが強制することに注目してください。ベースライン数値を事前にコミットするので、後から「指標が違った」と言えません。1つの主要指標にコミットするので、主要指標が期待外れのときに二次指標に切り替えられません。MDEにコミットするので、0.3ppの変化が「重要」と主張できません。そしてMDEは統計的な都合ではなく、ビジネス上の意思決定（次のアクションを実際に変えるであろう最小の改善）に根ざしています。

曖昧な仮説は入口で却下してください。ステークホルダーが「新しいレイアウトをテストして何が起きるか見たい」と言ったら、あなたの仕事は押し返すことです。どの数字が変わるのか、どれだけ、そしてその数字はなぜ重要なのか。「何が起きるか見てみよう」は研究課題であり、実験ではありません。

MDEの計算とサンプルサイズ

この節は、他のどの節よりも、粗悪な結果を出荷することからあなたを救います。計算は任意ではありません。

α = 0.05（両側）、検定力 = 0.80の2標本比率検定では、各アームの必要サンプルサイズは概算で:

n ≈ 16 × σ² / δ²

ここで σ² は指標の分散、δ は検出したい絶対効果量（MDE）です。コンバージョンのような2値指標では σ² ≈ p(1 − p)、p はベースライン率です。

チェックアウトの例を最初から最後まで計算します。

ベースライン完了率: p = 0.38
分散: σ² = 0.38 × 0.62 ≈ 0.2356
MDE: δ = 0.015（絶対1.5パーセントポイント）
δ² = 0.000225

n ≈ 16 × 0.2356 / 0.000225
n ≈ 16,755 per arm（各アーム）

つまり、38%のベースラインで80%の検定力での1.5pp改善を確実に検出するには、各アーム n = 17,000ユーザー、合計n = 34,000が必要です。1日あたりの適格ユーザー数が5,000なら、最低7日間のテストが必要です。MDE を1ppにすると分母が約2.25倍小さくなり、n ≈ 38,000/アームが必要で、約16日間のテストになります。

冒頭のバナーテストを見てみましょう。各アームに200ユーザー、ベースラインのクリック率は約8%。分散 ≈ 0.074。80%の検定力で1ppの改善を検出するには n ≈ 16 × 0.074 / 0.0001 = 11,840/アームが必要です。彼らには200しかありませんでした。そのテストは数学的に期待していた効果を検出できませんでした。引用したp = 0.07は有意に近いシグナルではなく、何もシグナルできなかったサンプルのランダムノイズでした。

実用的なメモをいくつか:

式の16は α = 0.05、検定力 = 0.80 のときの (z_α/2 + z_β)² × 2 から来ています。90%の検定力では約21。5指標のBonferroni補正でα = 0.01にすると定数はさらに上がります。
連続指標（ユーザー当たりの収益、セッション長）では、実際のサンプル分散を使い、重い尾に注意してください。指標のキャップまたは対数変換は多くの場合正しいアプローチです。実施後ではなく、実施前に行ってください。
サンプルサイズは1/δ²でスケールします。MDEを半分にすると必要なサンプルは4倍になります。これが「効果が出なければもっと長く実施する」が現実にならない理由です。

サンプルサイズ計算機が各アームに38,000ユーザー必要と言っているのに、チームには週5,000しかないなら、選択肢は3つです。8週間実施する、より大きなMDEを受け入れる（小さな改善は検出できないと認める）、または別の実験を選ぶ。数学が曲がる4番目の選択肢はありません。

ランダム化単位: ユーザーかセッションかクラスターか

ランダム化単位を間違えることはA/Bテストのサイレントキラーです。間違った質問に対するきれいなp値が出ます。

ユーザーレベルのランダム化は、ほとんどのプロダクト実験のデフォルトです。ユーザーは初めて実験に当たったときにバリアントに割り当てられ、（少なくともテスト期間中は）そのバリアントに留まります。これは指標がユーザーごとに計算されるときに正しいです。リテンション、LTV、購入頻度、7日間の再訪率。

セッションレベルのランダム化は、各セッションを独立して割り当てます。これは、ページ読み込み時間やユーザーが戻ってこないランディングページの単一セッションコンバージョンのような、ステートレスな単一セッション指標に使えます。指標がセッションをまたいで積み重なる場合は大きく崩れます。推薦アルゴリズムをセッションレベルでランダム化して30日リテンションを測定すると、ユーザーに30日間で3つの異なる推薦体験を見せることになります。AとBのどちらかではなく、AとBの平均を測定していることになります。

クラスターランダム化はマーケットプレイス、ネットワーク、ソーシャル効果に使います。バリアントが需給の出会い方を変える場合（マーケットプレイスの新しいランキングアルゴリズム、他のユーザーが見るものに影響するフィード変更）、個々のユーザーをランダム化することはできません。互いの体験に干渉し合います。地理レベル、マーケットプレイスレベル、またはソーシャルクラスターでランダム化します。コストは、有効なnがユーザー数ではなくクラスター数になること（通常はユーザーレベルの分散よりはるかに高い）で、サンプルサイズの計算にはクラスターレベルの分散を使う必要があります。

診断の質問: 「ユーザーAをコントロールに、ユーザーBをトリートメントに割り当てた場合、ユーザーAの結果はユーザーBの体験に影響されるか？」もし「はい」なら干渉があり、クラスターランダム化またはスイッチバックデザインが必要です。

冒頭のテストでのセッションレベルの誤りはまさにこれでした。クリック率は技術的にはセッション指標なので、セッションレベルのランダム化は一見問題なく見えました。しかしそのデータで再学習した下流のモデルはユーザーレベルのシグナルを必要としていました。ランダム化単位は分析単位と一致する必要があり、どちらも意思決定単位と一致する必要があります。

ガードレール指標

主要指標は変更が効いたかどうかを教えます。ガードレールは他の何かを壊していないかを教えます。

主要指標が勝っても絶対に後退してはならない2〜4つのガードレール指標を事前に登録してください。標準的なガードレール:

レイテンシー（p95ページ読み込み、APIレスポンスタイム）: 多くの「勝ち」は、変更が良かったのではなく、新しいバリアントの読み込みが速かっただけの勝ちです。
エラー率（5xx、クライアントサイドJSエラー）: エラー率が2倍になるトリートメントはコンバージョンが何であれバグをリリースしていることになります。
ユーザー当たりの収益: クリック率を最適化してユーザー当たりの収益が下がったなら、人々が低価値のものをクリックする方法を見つけたことになります。リリースしないでください。
サポートチケット率: ユーザーを混乱させるUX変更はここに現れます。コンバージョン指標ではなく。

閾値が重要です。一般的なパターン: 「ガードレールは相対1%を超えて後退してはならず、後退した場合は主要指標の結果によらず実験は失敗」。閾値を事前に登録してください。そうしないと、レイテンシーが2%遅くなったとき、「2%は本当に重要か」という議論になり、自分自身と交渉することになります。

ガードレールの目的は、主要指標に勝ちながらビジネスを傷つけた実験を捕まえることです。DS作業で最も使われていないツールであり、最も安い保険です。

Readoutドキュメント

毎回同じ形式で。レビューを通過するreadoutドキュメントは1ページで、90秒でスキャンでき、付録に驚きがありません。テンプレートはこちら:

仮説: 1段落、実験開始前に書かれた上記の4部構成テンプレート。
設計: ランダム化単位、目標サンプルサイズ、MDE、主要指標、ガードレール、トラフィック配分。
日付とサンプル: 開始日、終了日、各アームで実際に達成したサンプルサイズ。
主要結果: 点推定値、95%信頼区間、p値。1行。
ガードレール: 事前登録した閾値に対するデルタ、CI、合否を記載したガードレール指標の表。
事前登録済みセグメント分析: 事前にコミットしたセグメントに分解した同じ指標。
決定: リリースする/しない/改善する、結果に直接紐づいた根拠とともに。
ロールバック計画: リリースした場合、本番でどのようにモニタリングし、何がロールバックを引き起こすか。

readoutに含まれないもの: 発見として提示される事後セグメント分析、仮説の後付けの再フレーミング、「方向性として」という判断。セグメント分析が探索的なら、明確にマークされたセクションで探索的だと明示してください。レビュアーは一目で、どの数字が計画されたもので、どれが探索的なものか分かるはずです。

規律はテンプレートです。組織のすべての実験が同じ1ページを使うとき、レビュアーは各Data Scientistの個人スタイルを学ぶことを止め、実際に作業を評価できるようになります。

なぜほとんどの実験が失敗するのか

十分なreadoutを経験すると、失敗のパターンは短いリストに収まります:

統計的検出力不足。 MDEの計算が行われなかったか、行われたが無視された。テストは主張された効果を検出できなかった。
不明確な仮説。 反証可能な予測なし、コミットした主要指標なし、MDEなし。データが何を言っても実験は「成功」する。
誤ったランダム化単位。 ユーザーレベルの質問にセッションレベル、または干渉のあるマーケットプレイスの質問にユーザーレベル。
ガードレールなし。 主要指標が勝ち、チームがリリースし、レイテンシーが8%後退し、3週間後に誰かが収益が下がっていることに気づく。
ロールバック計画なし。 コードがリリースされ、実験が完了と宣言され、誰も本番をモニタリングしなかった。変化がドリフトし、誰もそのドリフトをリリースに帰因できない。
別のリリースとの交絡。 実験がマーケティングのプッシュやUIの刷新と同時に実行され、両アームに影響した。推定された効果は実験と交絡因子を合わせたものであり、分離できない。

これらは全て設計フェーズで防げます。データ収集後には一つも修正できません。

HARKingの回避

HARKing（結果が分かった後の仮説立て）は実験における最も一般的な自己欺瞞の形です。パターン: 全ユーザーベースでテストを実施したところ、主要指標はNullだったが、「有料検索経由で到達した米国のiOSユーザー」にはバリアントが素晴らしく見える。そこで、それがヘッドラインになります。

問題は純粋に統計的なものです。データを20セグメントに切ると、そのうちの1つが偶然p < 0.05を達成することが期待されます。20すべてを見てから勝者を選び、確認済みの結果として提示することは、数学的に言えば不正です。十分に細かくスライスすれば、コインフリップでも同じ「効果」が見つかります。

解決策は事前登録です。実験が始まる前に記録してください:

主要指標。
報告するセグメント分析（例: 新規ユーザーと再訪ユーザー、モバイルとデスクトップ、上位3市場）、それだけ。
確認的分析としてコミットするサブグループ。

後から見つけたものは、「多重検定のためp値が補正されておらず、発見を確認するためにフォローアップ実験が必要」というメモとともに、明確にラベル付けされた「探索的」セクションに入れます。事後サブグループの結果を「有意」と呼ばないでください。次のテストの仮説と呼んでください。

文化的な修正は技術的なものより難しいです。ステークホルダーが勝ちを切実に求めていて、事後分析がそれを提供するとき、確認済みの結果として「整える」圧力は現実のものです。事前に記録するという事前登録の規律こそが、押し返す立場を与えてくれます。

途中覗き見の規律

驚く人が多い数字があります。2週間にわたってA/Bテストの有意性を毎日確認すると、実効的な偽陽性率は5%ではありません。約14%、場合によってはそれ以上です。早期終了にどれほど積極的かによります。

理由は逐次検定の問題です。標準的なt検定やz検定は、事前にコミットしたサンプルを収集した後の1回のデータ確認のために調整されています。確認を追加するたびに、ランダムノイズが閾値を超える別の機会が生まれます。覗き見て止めると、ランダムウォークの最も極端な瞬間をチェリーピックして固定された結果として報告していることになります。

2つのクリーンな選択肢があります:

サンプルサイズにコミットする。 nを計算し、nに達するまでテストを実施し、1度だけ結果を見ます。デイリーダッシュボードが終了・リリースの意思決定を促さないように。安全のためのガードレール監視は問題ありません。主要指標を使って実験を早期終了するのは問題です。
逐次検定手法を使う。 mSPRT（mixture sequential probability ratio test）、アルファ消費関数を使ったgroup sequential designs、または情報量のある事前分布を持つ適切に実装されたベイズ手法。これらにより、補正の費用として若干大きなサンプルサイズを要求することと引き換えに、好きなだけ覗き見ながら有効な推論ができます。

固定水平テストを実施し、毎日覗き見て、p値が0.05を下回った瞬間に止めるということはできません。それは業界の実験における最も一般的な偽陽性の生成源であり、「リリースした勝ち」が後で適切に測定したときに再現できない理由です。

解決策は手続き的なものです。設計ドキュメントに停止ルールを書きます。「n = 17,000/アーム、想定8日間実施し、1度だけreadoutする」。チームがダッシュボードを見ずにいられないなら、ライブビューから主要指標を非表示にしてガードレールのみを表示します。規律は設計です。

まとめ

レビューを通過するreadoutドキュメントとは、設計の意思決定がデータ収集の前に行われたものです。仮説は具体的でした。サンプルサイズが計算されました。ランダム化単位が正当化されました。ガードレールが事前登録されました。セグメント分析が事前にコミットされました。停止ルールが書き留められました。

それ以外はすべてストーリーテリングです。そしてストーリーテリングはreadoutのナラティブセクションには問題ありませんが、リリースの意思決定の根拠にはなれません。

あなたが勝つ戦いは、データ収集の前に戦われたものです。設計ドキュメントに1時間を費やしてください。四半期の中で最も安い1時間であり、あなたの実験がレビューを通過するか、6ヶ月後に誰も再現できない「方向性としてポジティブな」テストの山に静かに加わるかを決める1時間です。

Data Scientist 実践ガイド