Reka Bentuk Eksperimen Pertumbuhan: Hipotesis hingga MDE hingga Pembacaan
Turn this article into takeaways for your work.
Each assistant summarizes the article only for you and suggests best practices for your work.
Kali pertama saya menghantar "pemenang" yang menyebabkan kami kehilangan 3 peratus percubaan adalah ujian CTA halaman harga. Tiga hari, 240 pengunjung, varian B naik 6.2 peratus. PM menghantarnya dengan emoji trofi dalam Slack. Dua minggu kemudian jumlah percubaan mingguan kami kelihatan pelik, saya mengira semula matematik, dan "pemenang" asal berada dalam jalur bunyi sepanjang masa. Kami tidak menghantar apa-apa, kecuali seperempat roadmap yang dibina atas gerak hati.
Itulah tugasnya, secara jujur. Bukan pengujian. Bahagian tidak-tertipu itu.
Panduan ini adalah buku panduan yang saya harap seseorang telah berikan kepada saya pada hari pertama: cara menulis hipotesis yang benar-benar boleh dibunuh, cara melakukan matematik saiz sampel pada kertas serbet, cara memilih antara ICE dan RICE tanpa berbohong kepada diri sendiri, dan cara menulis pembacaan yang CFO anda akan benar-benar buka. Jika anda mengambil satu perkara daripadanya, ambil ini: ujian bukan penghantar. Pembacaannya. Kebanyakan suku, itu adalah 4 pembacaan, bukan 40.
Mengapa kebanyakan eksperimen B2B gagal
Saya telah mengaudit mungkin 60 eksperimen pertumbuhan merentasi syarikat SaaS dan PLG dalam beberapa tahun kebelakangan. Mod kegagalan berkelompok kepada lima perkara, dan empat daripadanya diputuskan sebelum ujian itu dijalankan.
1. Terlalu lemah dari hari pertama. Pasukan menjalankan ujian 5 hari pada 800 pengguna dengan penukaran asas 8 peratus, melihat peningkatan 0.4 mata peratusan, menyebutnya sebagai pemenang. MDE sebenar pada saiz sampel itu adalah seperti 3 mata peratusan relatif kepada garis asas. Apa-apa yang lebih kecil daripada itu tidak dapat dibezakan secara statistik daripada balingan duit syiling. Mereka tidak menjalankan eksperimen yang buruk. Mereka menjalankan ujian yang tidak mampu mengesan kesan yang mereka harapkan.
2. Hipotesis ditulis sebagai senarai tugas. "Kami akan menguji tajuk baru pada halaman harga." Itu bukan hipotesis. Hipotesis meramalkan apa yang berubah, berapa banyak, untuk siapa, dan mengapa. Jika hipotesis anda tidak boleh difalsifikasikan oleh data, ujian akan menghasilkan cerita tidak kira apa yang berlaku.
3. Tiada pelan pemulihan. Varian dihantar, penukaran jatuh 4 peratus, tiada siapa yang memiliki keputusan pemulihan, varian berjalan selama 6 minggu lagi kerana "kami mahu lebih banyak data." Anda tidak memerlukan lebih banyak data. Anda memerlukan peraturan berhenti yang didaftarkan terlebih dahulu.
4. Tiada metrik utama yang didaftarkan terlebih dahulu. Tiga hari masuk, penukaran adalah rata tetapi masa-dalam-halaman naik 22 peratus, jadi tiba-tiba masa-dalam-halaman menjadi metrik. Ini mempunyai nama: HARKing (Berhipotesis Selepas Keputusan Diketahui). Setiap pasukan melakukannya. Setiap pasukan yang melakukannya menghasilkan pembacaan yang tidak boleh dipercayai.
5. PM memerhati carta pada hari ke-3. Mengintip. Ujian berurutan wujud untuk sebab yang tepat ini, dan kebanyakan pasukan tidak menggunakannya. Ujian horizon tetap standard kehilangan jaminan statistiknya pada saat anda membuat keputusan berdasarkan pandangan sementara.
Empat yang pertama diselesaikan dengan templat hipotesis. Yang kelima diselesaikan dengan kalkulator saiz sampel dan disiplin untuk meninggalkan papan pemuka itu sendiri.
Templat hipotesis
Salin ini. Tampal ke dalam penjejak eksperimen pasukan anda. Jadikannya satu-satunya templat yang sesiapa pun dibenarkan gunakan.
EKSPERIMEN: [nama pendek, cth. "Blok bukti sosial halaman harga"]
MASALAH (apa yang kami perhatikan dalam data):
Kami melihat tingkah laku X dalam segmen Y. Khususnya:
- Titik data 1: [daripada analitik, tiket sokongan, panggilan jualan, qual]
- Titik data 2: [mengesahkan atau mentringulasikan]
PERUBAHAN YANG DIRAMALKAN (apa yang akan kami lakukan, untuk siapa):
Untuk [segmen], kami akan [ubah], kerana [mekanisme yang kami percaya sedang berlaku].
METRIK KEJAYAAN:
Utama: [satu metrik, dengan nombor garis asas semasa]
Pengawal 1: [tidak boleh bergerak lebih teruk daripada X]
Pengawal 2: [tidak boleh bergerak lebih teruk daripada Y]
MDE (kesan terkecil yang akan kami tindakan):
Kami perlu mengesan peningkatan relatif [N%] pada metrik utama.
Di bawah itu, perubahan tidak berbaloi dengan kos kejuruteraan / risiko jenama / fokus.
SAIZ SAMPEL DAN TEMPOH:
Setiap lengan: [N] pengguna
Tempoh yang dianggarkan pada trafik semasa: [N minggu]
KRITERIA PEMULIHAN:
Kami membunuh varian dengan serta-merta jika:
- Utama bergerak lebih teruk lebih daripada [X]
- Mana-mana pengawal melanggar ambang selama lebih 48 jam
- Kejuruteraan menemui pepijat P0/P1
TARIKH KEPUTUSAN: [tarikh sebenar, bukan "bila kami mempunyai data yang cukup"]
PEMILIK: [satu orang]
Dua nota. Pertama, baris MDE bukan cita-cita. Ia adalah ambang di bawah mana anda tidak akan menghantar perubahan itu juga, walaupun ia "nyata." Jika peningkatan 1.5 peratus pada pengaktifan tidak berbaloi dengan kos penyelenggaraan membawa varian dalam kod selama-lamanya, maka peningkatan 1.5 peratus bukan MDE anda. MDE anda adalah nombor apa pun yang sebenarnya melepasi kos itu. Jujurlah di sana.
Kedua, tarikh keputusan membunuh lebih banyak zombie daripada apa-apa lain dalam templat ini. Tanpanya, setiap ujian berjalan selama-lamanya.
Matematik MDE yang boleh anda lakukan pada kertas serbet
Berikut adalah formula yang saya gunakan untuk perancangan, yang ahli statistik sebenar akan membantah sedikit tetapi yang membawa anda dalam lingkungan 10 peratus kebenaran dan cukup pantas yang anda akan benar-benar gunakannya:
n setiap lengan = 16 x p x (1 - p) / MDE²
Di mana:
padalah kadar penukaran garis asas anda (sebagai perpuluhan, cth. 0.08 untuk 8%)MDEadalah peningkatan mutlak yang ingin anda kesan (sebagai perpuluhan, cth. 0.008 untuk pergerakan 8.0% ke 8.8%, iaitu peningkatan relatif 10%)16memasukkan kuasa 80 peratus dan keyakinan 95 peratus (dua hujung)
Itu sahaja. Tiada perisian diperlukan. Mari jalankan satu yang sebenar.
Contoh yang dikerjakan: penukaran percubaan ke berbayar 8 peratus
SaaS B2B anda mempunyai 600 pendaftaran mingguan. Percubaan ke berbayar adalah 8 peratus (jadi p = 0.08). Anda ingin mengesan peningkatan relatif 10 peratus, bermaksud 8.0% ke 8.8% mutlak (jadi MDE = 0.008).
n setiap lengan = 16 x 0.08 x 0.92 / (0.008)²
= 16 x 0.0736 / 0.000064
= 1.1776 / 0.000064
kira-kira 18,400 pengguna setiap lengan
Dua lengan = 36,800 pengguna. Pada 600 pendaftaran/minggu dibahagi 50/50 merentasi ujian, itu adalah lebih kurang 6 hingga 8 minggu trafik untuk satu eksperimen. Bukan 5 hari.
Kini, jika anda ingin mengesan peningkatan relatif 25 peratus (8.0% ke 10.0%), matematik menjadi lebih mesra:
n setiap lengan = 16 x 0.08 x 0.92 / (0.02)²
= 1.1776 / 0.0004
kira-kira 2,944 setiap lengan
Kira-kira 6,000 pengguna keseluruhannya. Pada 600/minggu, kira-kira 2 minggu. Masalahnya: peningkatan relatif 25 peratus pada percubaan ke berbayar adalah pada dasarnya tahil khinzir dalam corong B2B yang matang. Anda akan mendapatkan satu atau dua setahun jika anda bagus. Kebanyakan kemenangan sebenar adalah 3 hingga 8 peratus relatif, yang bermaksud kebanyakan ujian anda memerlukan bulan trafik, bukan hari.
Ini adalah bahagian yang tiada siapa mahu dengar: corong anda tidak bergerak 25 peratus, jadi eksperimen anda perlu dikuasakan untuk peningkatan yang sebenarnya wujud. Abaikan ini dan setiap ujian menjadi permainan teka-teki.
Bila "kita akan jalankannya lebih lama" adalah salah
Jika ujian terlalu lemah pada hari pertama, menjalankannya lebih lama pada tetapan horizon tetap tidak membetulkannya. Ia menggembungkan kadar positif palsu anda, kerana anda secara berkesan mengintip. Jika anda benar-benar memerlukan fleksibiliti pada tempoh, beralih kepada:
- Ujian berurutan (msPRT, p-value sentiasa sah): membenarkan anda berhenti awal atau memanjangkan tanpa memecahkan matematik. Statsig, GrowthBook, dan Eppo semuanya menyokongnya secara asli.
- CUPED (pengurangan varians menggunakan data pra-eksperimen): boleh mengurangkan saiz sampel yang diperlukan sebanyak 30 hingga 50 peratus pada metrik dengan isyarat pra-tempoh yang kuat. Berbaloi untuk dihidupkan bagi sebarang ujian utama.
Jangan cuba membuat ini sendiri. Gunakan platform itu.
Diagnosis biasa untuk diketahui mengikut nama
Jika anda boleh menamakan mod kegagalan, anda boleh berargumen terhadapnya dalam ulasan pembacaan. Lima yang paling kerap saya lihat:
- HARKing: memilih metrik selepas melihat hasilnya. Diselesaikan dengan mendaftarkan metrik utama dan pengawal terlebih dahulu sebelum pelancaran.
- Mengintip: membuat keputusan berdasarkan pandangan sementara pada ujian horizon tetap. Diselesaikan dengan ujian berurutan atau dengan benar-benar tidak melihat sehingga tarikh keputusan.
- Kesan kebaruan: varian menang selama dua minggu kerana ia baru, kemudian regresi. Diselesaikan dengan memanjangkan ujian pada perubahan UI dan memerhati tingkah laku minggu ke-3 ke atas.
- Paradoks Simpson: varian menang secara keseluruhan tetapi kalah dalam setiap segmen, kerana campuran berubah. Diselesaikan dengan sentiasa pra-segmenkan pembacaan anda (baru berbanding kembali, mengikut pelan, mengikut sumber).
- Bias kelangsungan hidup dalam metrik kohort: mengukur "pengekalan pada minggu ke-4" hanya pada pengguna yang berjaya ke minggu ke-4 menggembungkan nombor itu. Diselesaikan dengan menjangkarkan kohort pada peristiwa masukan.
Keutamaan: ICE berbanding RICE berbanding PIE
Tiga rangka kerja, sedikit bahan yang berbeza, semuanya berbohong kepada anda dengan cara yang berbeza.
| Rangka kerja | Bahan | Terbaik untuk | Di mana ia rosak |
|---|---|---|---|
| ICE | Kesan x Keyakinan x Kemudahan (1 hingga 10 setiap satu) | Pasukan 2 hingga 5 orang; anggaran kasar | Subjektif. Penulis menilai idea mereka sendiri. "Kemudahan" biasanya salah. |
| RICE | (Jangkauan x Kesan x Keyakinan) / Usaha | Pasukan lebih 10 orang; portfolio merentasi segmen | "Jangkauan" menyembunyikan perbezaan trafik merentasi peringkat corong; usaha masih dinilai sendiri. |
| PIE | Potensi x Kepentingan x Kemudahan (1 hingga 10 setiap satu) | Pengoptimuman berat CRO, peringkat halaman | Mengandaikan anda boleh menganggar "potensi" daripada trafik halaman, yang biasanya salah dalam B2B. |
Pendapat jujur saya: ICE baik untuk pasukan 2 orang dan berbohong untuk pasukan 20 orang. Apabila pasukan anda cukup kecil sehingga semua orang telah membaca setiap dokumen, ICE hanyalah cara menulis perbualan yang anda akan adakan juga. Apabila pasukan sudah cukup besar sehingga skor ICE adalah satu-satunya artifak yang dibaca pemegang kepentingan, setiap PM akan mempermainkannya.
Perangkap dengan ketiga-tiga: anda menilai eksperimen anda sendiri. Pemilik memberi terlalu banyak timbangan pada Keyakinan idea mereka sendiri. Jurutera memberi terlalu rendah timbangan pada Kemudahan idea orang lain. Skor menjadi proksi untuk politik pejabat.
Yang saya jalankan sebagai gantinya pada skala: 2x2 Keyakinan lawan Jangkauan tanpa matematik. Kanan atas (keyakinan tinggi, jangkauan tinggi) dihantar sekarang. Kiri atas (keyakinan tinggi, jangkauan sempit) dihantar jika ia murah. Kanan bawah (keyakinan rendah, jangkauan luas) menjadi pelaburan penyelidikan berbayar. Kami akan membiayai ujian itu berdasarkan nilai pembelajaran, bukan peningkatan yang dijangka. Kiri bawah mati. Disemak setiap minggu, dalam mesyuarat 30 minit, dengan ketua pertumbuhan memegang penanda.
Ia bukan nombor. Ia adalah fungsi memaksa untuk perbualan yang jujur.
Had WIP: maksimum 3 hingga 5 ujian langsung
Untuk kebanyakan pasukan B2B di bawah 500 pekerja, bilangan yang betul bagi eksperimen serentak adalah 3 hingga 5. Lebih daripada itu, anda memakan trafik anda sendiri, kesan interaksi anda menjadi tidak dapat dikesan, dan pasukan anda tidak benar-benar dapat memberi perhatian kepada pembacaan. Kekangan bukan kelajuan kejuruteraan. Ia adalah trafik dan perhatian.
Dokumen pembacaan (ini adalah penghantar sebenar)
Setiap ujian yang dihantar, dibunuh, atau tidak menentu mendapat pembacaan satu halaman. Bukan papan pemuka. Sebuah dokumen. Disimpan dalam folder yang sama selama-lamanya.
PEMBACAAN: [nama eksperimen]
TARIKH: [mula] ke [berhenti]
PEMILIK: [nama]
STATUS: Dihantar / Dibunuh / Tidak Menentu
APA YANG DIHANTAR
Varian B menggantikan [X] dengan [Y] pada [halaman/aliran], untuk [segmen], dari [tarikh] hingga [tarikh].
APA YANG KAMI UKUR
Utama: [metrik], kawalan [N], varian [N], delta [+X% / -Y%], p = [N], CI [N, N]
Pengawal 1: [metrik], rata / dilanggar
Pengawal 2: [metrik], rata / dilanggar
Sampel: [N setiap lengan], dikuasakan untuk peningkatan relatif [MDE]%
APA YANG KAMI PELAJARI
- Interpretasi hasil dalam 2 hingga 3 ayat. Tiada "kami menghancurkan." Ya "percubaan ke berbayar bergerak +4.2% (CI 1.1-7.3%), dalam MDE pra-daftar kami sebanyak 4%, jadi kami hantar."
- Pembahagian segmen: [di mana kesan paling kuat / paling lemah]
- Apa-apa yang pelik: [isyarat kebaruan? bunyi pengawal? kualiti data?]
APA YANG KAMI LAKUKAN SETERUSNYA
- Pelan hantar / tahan untuk varian
- Ujian susulan (maksimum 2)
- Apa-apa yang memerlukan perhatian kejuruteraan, produk, atau reka bentuk
KAMI SILAP TENTANG ___
Satu ayat. Perkara yang kami percaya semasa memasuki yang data nyahbuktikan (atau enggan mengesahkan).
Baris "kami silap tentang" adalah senjata rahsia. Ia melakukan tiga perkara:
- Membina kepercayaan pasukan. Pemimpin melihat anda tidak membungkus kerugian sebagai kemenangan.
- Menggandakan pembelajaran. Sepanjang satu tahun anda mempunyai lebih dari 30 baris "kami silap tentang," dan corak-corak muncul ("kami terus menganggap berlebihan kesan perubahan halaman harga").
- Mengkalibrasi skor Keyakinan masa depan. Prior anda menjadi lebih tajam.
Jika pembacaan anda tidak mempunyai baris "kami silap" untuk sekurang-kurangnya 60 peratus ujian yang diselesaikan, anda sama ada hanya menguji perkara yang selamat atau menulis semula sejarah. Kedua-duanya buruk.
Dari mana tunggakan hipotesis berasal
Pipeline ujian kelaparan jika pasukan tidak mempunyai cara berstruktur untuk mendapatkan idea. Lima sumber yang saya percayai, mengikut urutan menurun isyarat:
- Perbezaan corong: segmen X menukar pada separuh kadar segmen Y pada langkah yang sama. Pergi cari tahu mengapa. Di sinilah kemenangan terbesar dan paling boleh dipertahankan tinggal.
- Temu bual qual: 5 pelanggan yang kadar keciciran, dirakam, ditranskripsikan. Anda akan mendengar geseran yang sama dalam 3 daripadanya. Geseran itu adalah hipotesis seterusnya anda.
- Rakaman panggilan jualan: Gong/Chorus adalah lombong emas. Cari "saya harap ia boleh" atau "perkara yang mengelirukan saya." Setiap satu adalah hipotesis dengan keyakinan yang telah diprabina.
- Tiket sokongan: idea yang sama, corong yang lebih rendah. Kelompok mengikut topik. Kelompok terbesar sering kali adalah penyelesaian kejuruteraan 2 minggu yang meningkatkan pengaktifan lebih daripada 6 ujian terakhir anda digabungkan.
- Penanggalan pesaing: berguna tetapi berbahaya. Anda akan terlalu memberi timbangan kepada kebaruan. Tandai ini sebagai Keyakinan rendah secara lalai.
Nilaikan setiap idea terhadap templat hipotesis sebelum ia memasuki baris gilir keutamaan. Jika anda tidak dapat mengisi bahagian Masalah dengan dua titik data sebenar, idea itu belum bersedia. Ia adalah tekaan. Hantar semula untuk penyelidikan.
Membunuh eksperimen zombie
Setiap pasukan pertumbuhan yang pernah saya lihat mempunyainya: ujian masih melayani trafik kepada varian yang tiada siapa memiliki, di belakang bendera yang tiada siapa ingat, pada halaman yang tiada siapa audit. Tiga peraturan:
- Peraturan 90 hari. Jika ujian telah berjalan selama lebih dari 90 hari tanpa pembacaan, ia dibunuh secara lalai pada ulasan suku tahunan seterusnya. Tiada pengecualian untuk "kami menunggu lebih banyak data." Jika ujian memerlukan 4 bulan untuk mencapai kepentingan, ia terlalu lemah semasa pelancaran dan jawapan yang betul adalah berhenti dan reka semula.
- Ulasan perkuburan suku tahunan. Sekali suku, audit setiap bendera aktif dalam platform eksperimen anda. Padankan setiap satu dengan pemilik dan dokumen pembacaan. Apa-apa yang tiada pemilik dihantar kembali ke kawalan dan bendera itu dipadam dari pangkalan kod.
- Audit "masih melayani trafik." Tarik senarai semua URL yang layak untuk eksperimen dan rujuk silang dengan ujian aktif dalam platform. Setiap jurang adalah sama ada pepijat konfigurasi atau zombie. Betulkan kedua-duanya.
Pasukan yang menjalankan audit ini dengan jujur akan mendapati bahawa 30 hingga 40 peratus ujian "aktif" mereka adalah beban mati. Membunuhnya membebaskan trafik dan perhatian untuk ujian yang benar-benar boleh belajar.
Tugas sebenar IC Pertumbuhan
Saya akan menutup di mana saya membuka. Tugas IC bukan untuk menghantar lebih banyak ujian. Ia untuk menghantar lebih banyak pembelajaran. Kebanyakan suku, itu adalah 4 ujian yang direka dengan baik, dikuasakan dengan betul, dan dibaca dengan jujur, bukan 40 ketidakpastian.
Amalan eksperimen yang baik kelihatan perlahan dari luar. Pasukan menjalankan 3 ujian, bukan 30. Separuh pembacaan mengatakan "kami silap." PM yang mempertahankan mengintip ditolak balik. CFO benar-benar membuka dokumen pembacaan dan bertanya soalan tentang metrik pengawal.
Itulah tugas yang sedang berjalan. Trofi dalam Slack datang kemudian, dan ia nyata kerana matematik itu nyata.
Ketahui Lebih Lanjut

Principal Product Marketing Strategist
On this page
- Mengapa kebanyakan eksperimen B2B gagal
- Templat hipotesis
- Matematik MDE yang boleh anda lakukan pada kertas serbet
- Contoh yang dikerjakan: penukaran percubaan ke berbayar 8 peratus
- Bila "kita akan jalankannya lebih lama" adalah salah
- Diagnosis biasa untuk diketahui mengikut nama
- Keutamaan: ICE berbanding RICE berbanding PIE
- Had WIP: maksimum 3 hingga 5 ujian langsung
- Dokumen pembacaan (ini adalah penghantar sebenar)
- Dari mana tunggakan hipotesis berasal
- Membunuh eksperimen zombie
- Tugas sebenar IC Pertumbuhan
- Ketahui Lebih Lanjut