日本語

直感を裏付けるだけでなく、ロードマップを動かすユーザーリサーチ

PMはすでに決断していました。ロードマップドキュメントは3スプリント分用意され、Jiraチケットは下書き済みで、エンジニアリングマネージャーには大まかな見積もりがありました。そこでデザイン組織が「先にユーザーと話した方がよいのでは」と言い、リサーチプロジェクトが組まれました。

5件の会話。CSMが「積極的で話しやすい」という理由で選んだ5名の顧客。16の引用を含むNotionドキュメント、うち4件は緩やかに肯定的、どれも驚きのない内容。PMはサマリーを読み「想定通りの内容が確認できた」と言い、6か月後に機能をリリースしました。採用率は11%で頭打ちになりました。ローンチ後のレトロでは「メッセージングの問題」と結論づけられました。

メッセージングの問題ではありませんでした。ユーザーリサーチの体裁を取ったリサーチの問題でした。方法論が間違っていたから失敗したのではありません。誰も結果によって決定を変える気がなかったから失敗したのです。それはリサーチではなく、儀式です。

このループに疲れているなら、これがプレイブックです。どのタイプのリサーチをいつ使うか、調査の規模設定の方法、懐疑的なPMに通じるリサーチレポートの書き方、そして「ユーザーがXを望むと言った」の罠からの脱出方法を扱います。この罠は静かに、最後のQBRで最も大声を出した人のためにSMBのロードマップを殺します。

ジェネレーティブリサーチと評価的リサーチ:最初に正しいツールを選ぶ

リサーチ予算を無駄にする最速の方法は、カテゴリ選択を間違えることです。ジェネレーティブリサーチは「解決すべき問題は何か?」に答えます。評価的リサーチは「構築したものが問題を解決しているか?」に答えます。外から見ると似ています(どちらもユーザーが関わり、どちらも引用を生む)が、正反対の方向の問いに答え、異なるサンプルサイズ、異なるリクルート、異なるステークホルダーの賛同が必要です。

ほとんどのB2B SaaSチームは、本当の問いがジェネレーティブなのに評価的リサーチを選びます。「新しいダッシュボードをテストする必要がある」と言い、そのダッシュボードを構築すること自体が正しいのかどうかを誰も問わないうちにユーザビリティテストが組まれます。テストが実施される頃には、得られる答えが狭くなっています:ユーザーはボタンを見つけられるか。肝心な問い(このダッシュボードは存在すべきか?)はプロトタイプがすでに出来上がっているため、選択肢から外れています。

リサーチタイプ 答える問い 手法 サンプルサイズ 期間 使用タイミング
ジェネレーティブリサーチ 問題は何か? 1対1インタビュー、日記調査、文脈的調査、Jobs-to-be-Done セグメントあたり8〜15件 2〜4週間 スコーピング前、デザイン前
評価的リサーチ(質的) これは機能するか? モデレートユーザビリティテスト、コンセプトテスト セグメントあたり5〜8件 1〜2週間 ワイヤーフレーム後、構築前
評価的リサーチ(量的) どの程度の確率で機能するか? 非モデレートテスト、A/Bテスト、サーベイ、アナリティクス 30〜100件以上 1〜3週間 構築後、スケール前
継続的リサーチ 何が変わったか? 継続的インタビュー、サポートチケット確認、NPSコメント 月あたり4〜6件 継続的 ローンチ後、毎サイクル

このテーブルを強制装置として使います。調査を仕様化する前に、チームが下そうとしている決定を書き出します。「これを構築すべきか?」という決定ならジェネレーティブリサーチが必要です。「構築したバージョンをリリースすべきか?」なら評価的リサーチが必要です。「リリースしたバージョンを改善すべきか?」なら継続的リサーチが必要です。「ユーザーリサーチが必要」という依頼のほとんどは実際にはこの3つのうちの1つであり、依頼者は通常どれなのかを把握していません。

5名のユーザビリティテスト:Nielsen本来のルール、誤解された広まり方ではなく

Jakob Nielsenの1993年の論文は、5名のユーザーが調査内においてユーザビリティの問題の約85%を表面化させるのに十分であると示しました。この数字が「常に5名でテストする」に縮約され、論文を読んでいない人々によって30年間引用されてきました。5名ルールは特定の条件下で成り立ちますが、その条件のほとんどの製品チームが考えるよりも狭いものです。

このルールが適用されるのは、1つのユーザーセグメント1つのタスク1つのインターフェースで行う場合です。新規ユーザーのサインアップ。管理者が1つの設定を変更する。エンドユーザーが1件の経費申請を入力する。このスコープの中では計算が成り立ちます:5名目までに問題の大半を把握し、8名目には繰り返しが見えてきます。

以下の条件のどれか1つが崩れた瞬間にルールは崩れます:

  • 複数のペルソナ。 B2B製品に管理者、エンドユーザー、ITがいる場合、各ペルソナから5名必要です。5名ではなく15セッションです。管理者はエンドユーザーが決して見ないもので混乱します。
  • 操作上の問題ではなくコンセプト上の問題。 5名ルールは「ボタンが見つからなかった」を検出します。「この機能がなぜ存在するのかわからない」は見逃します。概念上の誤解はユーザーあたりの出現率が低いですが重要性は高く、確実に発見するには12〜15名必要です。
  • 分岐するワークフロー。 直線的なサインアップフローは5名で問題なくテストできます。条件分岐が6つあるワークフローには各分岐のサンプルカバレッジが必要です。5名を実施して、4名が問題のある分岐に一度もたどり着かない可能性があります。
  • セグメント間比較。 「これはSMBとエンタープライズの両方で機能するか?」という問いの場合、セグメントレベルの比較のためにサイズ設定された調査が必要で、最低でもセグメントあたり8〜12名です。
シナリオ 推奨n数 理由
単一ペルソナ、単一タスク、洗練されたプロトタイプ 5名 古典的Nielsenが適用される
2ペルソナ(管理者 + エンドユーザー) 8〜10名(ペルソナあたり5名) ペルソナによって異なる問題が表れる
3ペルソナ(管理者、エンドユーザー、IT) 12〜15名 逓減収益だがカバレッジが重要
概念理解テスト 12〜15名 概念上の問題は出現率が低い
4つ以上の経路がある分岐ワークフロー 12〜20名 各分岐のカバレッジが必要
SMBとエンタープライズの比較 16〜24名(層あたり8〜12名) セグメントレベルの主張にはセグメントレベルのn数が必要

ステークホルダーが「5名でやりましょう」と言ったら、どのペルソナか、どのタスクか、その結果がどんな決定を支えるかを確認します。「ユーザーベース全体でリリースするかどうか」という決定なら5名では不十分です。「このサインアップフローが新規SMBユーザーに対して壊れているかどうか」という決定なら5名で十分かもしれません。

非モデレートテスト:Maze、UserTesting、Lyssnaと、それぞれの限界

非モデレートプラットフォームはデザイナーが評価的調査を実施できる速度を変えました。Maze、UserTesting、Lyssnaではプロトタイプを50名のテスターに配布して金曜日までに結果を得られます。速さは本物です。それと引き換えのコストも本物です。

非モデレートテストが優れている3点:速度(24〜72時間のターンアラウンド)、リーチ(モデレートコールでは接触できないパネルをリクルートできる)、量的比較(大規模なA/Bテストで2つのデザインを比較できる)。明確で低文脈のタスクを幅広いオーディエンスに向けて実施する場合、匹敵するものはほとんどありません。

劣っている3点。B2B製品はこの3つすべてに直面します:

  1. 複雑なワークフロー。 モデレート調査では、ユーザーが声に出して考えるのを観察し、「なぜそこをクリックしたのですか?」と質問でき、詰まったときに深掘りできます。非モデレートでは、誰かが間違ったものを無言でクリックして進んでいく動画が得られます。失敗したことはわかります。なぜ失敗したかはわかりません。
  2. 専門用語の多いインターフェース。 B2B製品は文脈の中でしか理解できない用語に溢れています。パネルからの非モデレートテスターは推測し、失敗し、自分が知らないことを知らないためテストを「簡単」と評価します。テストは見た目のきれいなデータと無音の理解ギャップを生みます。
  3. 「なぜ」という問い。 意図、動機、トレードオフの推論の理解が必要なものにはモデレーターが必要です。非モデレートツールはフォローアップ質問が改善されましたが、録音されたフォローアップ質問には事前に考えた回答が返ってきます。ライブのモデレーターには本当の答えが返ってきます。

現実的なタスク完了率がこれを裏付けています。消費者向けタスクでは、非モデレートB2Cテストの完了率は80〜95%です。B2B SaaSのワークフローでは60〜75%を見込みます。このギャップはサイズ設定に影響します。B2Bワークフローで有効なセッション数20件が必要な調査は、28〜32件のスタートが必要です。脱落を計画に織り込んでください。

下そうとしている決定 適したアプローチ
このサインアップフローは新規SMBユーザーに機能するか? 非モデレート(明確なタスク、幅広いリーチ)
なぜエンタープライズ管理者は新しい権限UIを採用しないのか? モデレート(「なぜ」が必要、「できたか」だけでは不十分)
この2つの価格ページのどちらがコンバージョン率が高いか? 大規模な非モデレートA/Bテスト
パワーユーザーは実際に一括操作機能をどのように使うか? モデレートまたは文脈的調査
新しいマイクロコピーの理解確認 非モデレート、n=20〜30
管理者、マネージャー、ICにまたがるチーム横断ワークフロー モデレート、3ペルソナすべて

多くのチームが陥る罠:速いという理由で非モデレートを選び、モデレートの深さが必要な決定を下す。Mazeはクリックスルー率を教えてくれます。IT設定パネルの「テナント」という言葉の意味がSMBユーザー12名中4名にはわからず、正しい答えを推測していたということは教えてくれません。

「リサーチでユーザーがXを望むとわかった」の罠

ここでほとんどのB2Bリサーチが終わります。選択バイアス、新近性バイアス、確証バイアスが重なり、8名の調査が実際には存在しないオーディエンスのために作られたロードマップになります。

選択バイアスは依頼に応じるのが誰かから来ます。カスタマーサクセスはメールに返信してくれるという理由でエンゲージ度の高い顧客を選びます。エンゲージ度の高い顧客はエンタープライズである可能性が高く、管理者である可能性が高く、既存のワークフローを強化する機能を求める可能性が高いです。そのうち8名にサンプリングすると統一されたメッセージが聞こえてきます:より多くの権限、より多くのロール、よりエンタープライズグレードのコントロール。ビジネスのARRの70%がSMBなら、もともと支援が不要な30%を対象に調査を実施したことになります。

新近性バイアスは最後にあった声の大きな顧客から来ます。先週QBRがあり、VPが40万ドルのアカウントから話を聞き、「ユーザーがSSO を望んでいる」という引用がn数なしに計画ドキュメントに入りました。リサーチのリクルートが始まる頃には、問いは「ユーザーはSSOを望んでいるか?」ではなく「ユーザーはSSOをどれほど強く望んでいるか?」になっており、リクルートはSSOを有益だと感じるユーザーを選んでいます。

確証バイアスは質問そのものにあります。「レポートを一括エクスポートできると便利ですか?」はほぼ全員からYESをもらえます。「現在レポーティングをどのように行っていますか?」は、一括エクスポートが本物の課題なのか、日々の業務で本当に苦労していること10件の下に埋まっている好ましいオプションなのかを教えてくれます。

実際の匿名の例:3つのエンタープライズアカウントから8名の管理者を調査した結果、「ユーザーがSSOを望んでいる」という見出しが出ました。ロードマップはSSOとSCIMの作業に1四半期シフトしました。6か月後、アクティベーションを担当していたチームがSSOプロジェクトに引き抜かれたため、SMBのチャーンがわずかに上昇しました。8名の管理者は満足していました。アクティベーションの2週目を超えられなかった1,400のSMBアカウントは話を聞いてもらいませんでした。調査は8名の管理者については間違っていませんでした。「ユーザー」についての調査として扱われたことが間違いでした。

防衛策はプロセスにあります。リクルート前に書き出します:この調査はどのセグメントについてのものか、そのセグメントは収益の何%を占めるか、この調査が正当に情報提供できる決定は何か。3番目の答えが「このセグメントに関する決定のみ」であれば、報告書のカバースライドにそれを記載します。スコープを明示しない限り、ステークホルダーは過度に一般化します。

決定を変える発見事項の書き方

ほとんどのリサーチ発見事項は書かれたスライドの上で死にます。「エクスポートボタンに混乱していた」はすべての議論で負けます。n数も、セグメントも、具体性も、推奨事項もないからです。事実であっても無視されます。

懐疑的なPMに通じる発見事項には5つの部分があります:

  1. 観察: 行動として何が起きたか
  2. 証拠: n数、セグメント、タスク、調査タイプ
  3. 推論: これがおそらく意味すること
  4. 推奨事項: それに対してどうするか
  5. 信頼度: どの程度確信があるか

比較してみます:

悪い例: エクスポートボタンに混乱していた。

対して:

良い例: 8名の管理者(n=8、エンタープライズ層、モデレートユーザビリティテスト、週次レポートのエクスポートタスク)のうち6名が、フォーマット選択のステップでエクスポートワークフローを途中で止めた。3名は声に出して「delimited」の意味がわからないと言い、2名は間違ったフォーマットを選択して気づかなかった。推論: フォーマットセレクターは発見性の問題ではなく理解の問題。推奨事項: CSVをデフォルトとし「その他のフォーマット」を開示する形にして、フラグの後ろでリリースし離脱率の変化を測定する。信頼度: 中。サンプルが少なくエンタープライズのみ。SMBを対象にした2週間の非モデレートフォローアップで確認できる。

2番目の例が通じる理由は、何がわかっているか、何が推論か、何のアクションが続くかをPMに正確に伝えているからです。懐疑的なPMは5つの部分のどれかを攻撃できますが、特定の部分を攻撃しなければなりません。フォローアップ計画で推奨事項がすでに対処しているため、「サンプルが少ない」とだけ言って去ることはできません。

もう1つ役立つパターン:発見事項は方法論ではなく、影響を与える決定から始めてください。「エクスポートのデフォルトを変更する必要がある」は届きます。「8名の管理者とモデレート調査を実施した」は推奨事項が届く前にオーディエンスを眠らせます。

懐疑的なPMへのリサーチプレゼンテーション

スタンドアップでPMに手渡された23スライドのリサーチデッキはロードマップを変えません。確認されて、ファイリングされて、無視されます。PMは時間的プレッシャーの下で意思決定をする人物です。リサーチは彼らのいる場所に合わせなければなりません。

実際に機能する5つのこと:

決定から始める。 「この調査は、新しいエクスポートフローをそのままリリースするか、1点変更してリリースするか、作り直すかの判断情報になります」で始めます。それから方法論、それから発見事項。PMは今、リサーチを評価するためではなく決定を下すために読んでいます。

反論を先取りする。 プレゼン前に、予想される3つの異論を書き出します(「サンプルが少ない」「我々のICPではない」「もう決定した」)。デッキの中で、異論が出る前に各々に対処します。「n=8はセグメント横断の主張には少なすぎますが、だからこそこの調査はエクスポートタスクを行うエンタープライズ管理者についてのみ語っています」と言うことで、少サンプル攻撃を先に封じます。

サマリーではなく生の映像を持参する。 管理者がフォーマットドロップダウンを見つめて「これが何を意味するのか全くわからない」と言う45秒の動画は、引用スライド15枚分の価値があります。PMは自分の目を自分の合成以上に信用します。DovetailやUserTestingのようなツールでクリップの抽出が速くなっています。

PMがすでに気にしている指標に結びつける。 PMがアクティベーションを担当しているなら、アクティベーションへの影響として発見事項を枠組みします。リテンションを担当しているなら、リテンションを軸に枠組みします。「このエクスポートのフリクションは新規管理者の2週目のアクティベーションに影響する」は「これはUXの問題」に毎回勝ります。

無視した場合のコストを示す。 「このままリリースした場合、モデレートセッションの離脱率を基に、最初の1か月で新規管理者の30〜40%程度がエクスポートタスクを途中で止めると予想されます」は、PMがリリース日と比較検討できる材料を与えます。

実践的なルール:リサーチの発見事項が、決定、証拠、推奨事項、引用1件を含めて1枚のスライドに収まらないなら、それはまだ発見事項ではありません。手帳のメモです。部屋に持ち込む前にさらに作業を続けてください。

今週やること

今後のロードマップ決定を1件選びます。何が決定されるか、誰が決定するか、決定が覆るためには何が真実でなければならないかを書き出します。そして問います:その真実でなければならないことについて、チームに証拠があるか?なければ、それが調査です。あれば、リサーチはすでに完了しており、次のステップはそれを表面化させることです。

ロードマップを動かすリサーチとは、特定の決定に向けられ、支えなければならない主張のために規模設定され、忙しいPMが行動できる形で提示されたリサーチです。それ以外はワークショップです。ワークショップも有益です。ただ調査と混同しないでください。

関連記事