Bahasa Melayu

Metrik DS: Model Dihantar, Impak Perniagaan, Kemerosotan Model

Anda menghabiskan enam minggu menolak AUC dari 0.84 ke 0.89. VP anda melihat slaid, mengangguk, dan bertanya, "Baiklah, apa yang kita dapat?" Anda tidak mempunyai nombor. Bilik menjadi sunyi dengan sebab yang salah.

Inilah jurang yang dimasuki oleh kebanyakan Data Scientist. Kita mengukur ketepatan model. CFO mengukur dollar. Apabila dua lajur itu tidak diselaraskan pada slaid QBR, semakan jumlah pekerja tidak bertanya "apakah F1 anda?" Mereka bertanya "apa yang pasukan DS hantar?" Jika anda tidak boleh menterjemahkan kerja model ke dalam bahasa perniagaan, anda akan dipotong sebelum jurutera yang menghantar butang.

Jadi mari kita betulkan metrik tersebut. Lima daripadanya. Setiap satu boleh dibela dalam bilik dengan rakan kewangan yang tidak pernah membuka notebook Jupyter dan tidak merancang untuk berbuat demikian.

Mengapa ini penting sekarang

Setiap pasukan DS yang saya saksikan bertahan dalam kitaran belanjawan mempunyai sifat yang sama: pimpinan mereka boleh menyebutkan nombor dollar. Bukan "kita meningkatkan ketepatan sebanyak 3 mata." Bukan "kita menghantar 12 eksperimen." Dollar. Jam. Tiket yang dielak. Margin yang dipulihkan.

Pasukan yang dipotong bercakap tentang kualiti model secara terpencil. Mereka mempunyai matriks kekeliruan yang cantik dan tiada bukti bahawa sebarang keputusan dalam syarikat berubah kerana model.

Perbualan jumlah pekerja pada tahun 2026 lebih tajam berbanding tiga tahun lalu. Era wang murah mengajar pasukan DS untuk mengukur input (kertas kerja, eksperimen, AUC). Era semasa hanya mengira output yang muncul dalam P&L. Jika anda membesar di bawah peraturan lama, anda perlu melatih semula diri dengan cepat. Metrik di bawah adalah caranya.

5 metrik yang benar-benar penting

1. Model dihantar dalam pengeluaran

Kiraan model yang melayan trafik pengeluaran sebenar, disambungkan kepada keputusan sebenar, dimiliki oleh siap sedia sebenar.

Bukan notebook. Bukan "digunakan ke pementasan." Bukan "menjalankan semula isian sekali dan menghantar hasilnya melalui e-mel kepada operasi." Model yang sedang melayan permintaan, mempunyai buku panduan, dan merosakkan sesuatu yang kelihatan jika ia terganggu.

Sasaran: 2-4 model dihantar setiap IC setiap tahun.

Nombor itu kedengaran rendah. Ia tidak. Model yang dihantar bermaksud: saluran data dalam pengeluaran, saluran latihan dalam pengeluaran, tumpukan penyajian dalam pengeluaran, pemantauan dalam pengeluaran, pengguna hilir disambungkan. Kebanyakan DS menilai terlalu tinggi berapa banyak yang mereka telah lakukan kerana mereka mengira notebook. Kira apa yang dalam siap sedia. Nombor itu menjadi jujur dengan cepat.

Jika anda menghantar sifar tahun lepas, itulah perbualan. Mengapa? Adakah platform? Adakah skop? Adakah pihak berkepentingan yang tidak pernah mengintegrasikan output anda? Setiap jawapan menunjuk kepada pembetulan yang berbeza dan tiada satupun "saya memerlukan model yang lebih baik."

2. Impak perniagaan dalam dollar

Setiap model yang dihantar mendapat nombor dollar yang dilampirankan. Hasil yang dinaikkan, kos yang diselamatkan, jam yang dikembalikan (darab dengan kadar jam yang ditanggung), peralihan pelanggan yang dicegah, penipuan yang ditangkap.

Sasaran: setiap model yang dihantar lebih kurang $250,000 impak tahunan, atau hapusnya.

Paras $250,000 adalah kasar. Sesuaikan mengikut saiz syarikat. Permulaan 30 orang boleh mempertahankan model $50,000 jika ia murah untuk dijalankan; syarikat awam tidak patut bersusah payah di bawah $500,000. Prinsipnya tetap sama: setiap model mempunyai nombor, dan jika nombor itu kecil, model itu pergi atau jumlah pekerja yang ia gunakan pergi.

Cara untuk benar-benar mengiranya (bukan secara teori, pada slaid):

  • Model hasil: peningkatan dalam kadar penukaran x trafik asas x AOV x tahunan. Dapatkan kewangan bersetuju dengan asas sebelum anda menghantar. Persetujuan pra-pengiriman adalah segalanya; tuntutan peningkatan selepas-hoc sentiasa dicabar.
  • Model kos: tiket yang dielak x kos setiap tiket. Jam yang diselamatkan x kadar yang ditanggung. Susut nilai inventori yang dielakkan. Dapatkan nombor dari kewangan untuk kos-setiap-tiket, dan jangan meneka.
  • Model risiko: penipuan ditangkap x kerugian purata setiap kes. Hutang lapuk dielak x kadar penghapusan kira.

Apa sahaja yang anda kira, letakkan metodologinya dalam nota kaki pada slaid. "Peningkatan diukur berbanding asas pra-pelancaran yang diluluskan oleh FP&A pada 2026-02-14." Ayat itu lebih bernilai daripada nombor itu sendiri, kerana ia bermaksud nombor itu tidak akan diperbahaskan semula suku tahun depan.

3. Kadar kemerosotan model

Peratusan penurunan dalam metrik pengeluaran anda berbanding metrik masa latihan anda, diukur bulanan.

Kebanyakan model kehilangan 5-20% metrik tajuk utama mereka dalam 90 hari pertama pengeluaran. Hanyutan dalam taburan input, kebocoran label yang tidak muncul dalam penilaian luar talian, bermusim yang data latihan tidak merangkumi. Perkara biasa. Bahayanya bukan kemerosotan. Ia adalah kemerosotan yang senyap.

Sasaran: apa sahaja yang merosot lebih dari 15% setiap suku tahun tanpa pelan latihan semula adalah liabiliti. Sama ada betulkan atau hapuskan.

Contoh yang diusahakan. Katakan model penipuan anda dilatih pada AUC 0.91. Selepas penghantaran:

  • Bulan 1: AUC 0.89 dalam pengeluaran. Penurunan = (0.91 - 0.89) / 0.91 = 2.2%. Dalam hingar.
  • Bulan 2: 0.86. Penurunan = 5.5%. Perhatikan.
  • Bulan 3: 0.81. Penurunan = 11.0%. Anda mempunyai masalah; selidiki.
  • Bulan 4: 0.76. Penurunan = 16.5% berbanding latihan. Liabiliti.

Jika anda tidak mempunyai saluran latihan semula yang boleh menangkap ini pada bulan 2, bina satu sebelum anda membina model baru. Model yang merosot secara senyap lebih teruk daripada tiada model. Ia memberi keyakinan palsu kepada perniagaan.

Satu baris dashboard yang VP anda mahukan mengenai ini: "X daripada N model pengeluaran mempunyai amaran hanyutan yang disambungkan dan SLA latihan semula. Y daripada N tidak." Nisbah itu memberitahu mereka berapa banyak permukaan yang sebenarnya di bawah kawalan.

4. Masa dari eksperimen ke pengeluaran

Hari antara "notebook berfungsi" (penilaian luar talian lepas bar) dan "trafik pengeluaran sedang menghantam model."

Sasaran: di bawah 45 hari. 60 hari boleh diterima untuk model yang sukar. Melebihi 90 hari bermaksud platform itu rosak, bukan anda.

Ini adalah metrik yang kebanyakan Data Scientist tidak akan letak pada slaid kerana ia menjadikan mereka kelihatan perlahan. Letakkan pada slaid juga. Jika nombor anda adalah 120 hari, itu adalah perbualan platform, bukan perbualan prestasi. Pembetulannya adalah stor ciri, saluran latihan, daftar model, dan automasi penempatan, bukan "Data Scientist perlu bekerja lebih keras."

Apabila VP melihat nombor ini dan ia buruk, mereka sepatutnya mengadakan perbualan reka bentuk organisasi: adakah kita memerlukan jurutera platform ML? Adakah kita perlu menyatukan rantai alat penempatan? Adakah kita perlu berhenti membiarkan setiap pasukan menghantar tumpukan penyajian tersendiri yang dibuat khas?

Kali pertama saya masuk ke QBR dan meletakkan masa kitaran pada slaid, reaksi pertama VP saya adalah defensif. Menjelang akhir mesyuarat, dia telah menulis "platform ML keutamaan S2" pada papan putih. Nombor itu membuka pintu untuk seorang pengambilan.

5. NPS rakan kongsi perniagaan

Tinjauan dua soalan suku tahunan kepada PM, pemimpin operasi, dan penganalisis yang menggunakan model anda.

  1. Pada skala 0-10, sejauh mana anda akan mengesyorkan bekerja dengan pasukan DS kami kepada rakan di syarikat lain?
  2. Mengapa?

Di bawah 30 (NPS) bermaksud anda menyelesaikan masalah yang salah, komunikasi anda buruk, penghantaran anda tidak boleh dipercayai, atau beberapa kombinasi. Jawapan teks bebas memberitahu anda yang mana.

Sasaran: NPS lebih kurang 50, dengan paras keras 30. Di bawah 30 adalah isyarat penentuan semula keutamaan, bukan isyarat "buat lebih baik suku tahun depan".

Mengapa masukkan ini bersama metrik keras? Kerana empat metrik di atas semuanya lagging. Pada masa kemerosotan atau kiraan model-yang-dihantar memberitahu anda cerita, dua suku tahun telah berlalu. NPS rakan kongsi mendahului. Apabila PM yang anda sokong berhenti meminta anda melingkupkan kerja baru, anda mempunyai enam bulan sebelum nombor dollar mendatar. NPS menangkapnya sebelum itu.

Jalankan. Hantar Borang, bukan e-mel. Tanpa nama untuk respons. Baca teks bebas. Sesuaikan.

Diagnostik "ketepatan tinggi, tiada impak"

Inilah saat yang akan anda hadapi: model dengan metrik luar talian yang hebat, digunakan selama dua suku tahun, yang tiada siapa di pihak perniagaan boleh tunjukkan sebagai telah mengubah apa-apa. Jalankan senarai semak ini sebelum VP anda menjalankannya pada anda.

Diagnostik 4 soalan (salin ini ke dalam dokumen persediaan QBR anda):

[ ] 1. Adakah output model dikaitkan kepada keputusan tertentu?
      (Bukan "strategi yang dimaklumkan." Keputusan tertentu: diskaun ya/tidak,
       keutamaan tiket tinggi/rendah, penghalaan lead kepada rep A atau rep B.)

[ ] 2. Adakah keputusan itu benar-benar berubah kerana model?
      (Adakah sesiapa berkelakuan berbeza? Tarik data sebelum/selepas.
       Jika kadar keputusan adalah sama sebelum dan selepas pelancaran,
       model adalah hiasan.)

[ ] 3. Adakah keputusan yang berubah berbaloi wang?
      (Keputusan boleh berubah tanpa nilai. Jika rep mula menghalakan
       lead secara berbeza tetapi penukaran tidak bergerak, itu adalah $0.)

[ ] 4. Adakah kewangan bersetuju dengan metodologi?
      (Dapatkan ini secara bertulis SEBELUM QBR. "FP&A meluluskan
       asas pada YYYY-MM-DD" adalah ayat ajaib.)

Jika anda menjawab "tidak" kepada mana-mana empat, anda tidak mempunyai metrik impak perniagaan. Anda mempunyai cerita. Cerita tidak bertahan dengan CFO. Sama ada betulkan jurang asas atau hapus model dan bebaskan jumlah pekerja.

Perangkap yang kebanyakan pasukan terjatuh ke dalamnya adalah soalan 1: mereka menghantar skor kecenderungan dan menyebutnya selesai. Skor bukan keputusan. Skor yang duduk dalam pangkalan data tidak bernilai apa-apa. Peraturan keputusan yang menggunakan skor dan mengubah tingkah laku adalah di mana dollar datang. Jika peraturan itu tidak wujud, model adalah hobi.

Slaid QBR

Satu slaid. Lima baris. Suku tahun lepas, suku tahun ini, delta. Satu cerita model dengan angka dollar di bawahnya.

Inilah rupa milik saya (nombor adalah ilustratif, format adalah sebenar):

Metrik S1 2026 S2 2026 Delta
Model dalam pengeluaran 7 9 +2
Impak perniagaan tahunan $2.1 juta $3.4 juta +$1.3 juta
Purata kemerosotan model (90 hari lepas) 11% 8% -3 mata
Median masa eksperimen ke pengeluaran 52 hari 38 hari -14 hari
NPS rakan kongsi perniagaan 41 56 +15

Sorotan S2: Pemarkahan lead v2 (dihantar 14 April) Menghalakan lead masuk kepada rep berdasarkan kecenderungan penukaran. Menggantikan round-robin. Diukur berbanding asas pra-pelancaran (diluluskan oleh FP&A 2026-03-22): kadar penukaran 4.1% kepada 5.6%. Impak tahunan: $1.1 juta hasil baharu. Amaran kemerosotan disambungkan; SLA latihan semula 30 hari.

Itu keseluruhan slaid. Lima nombor. Satu cerita model. Satu nota kaki yang memetik asas FP&A. Tiada AUC di mana sahaja pada halaman.

Bolehkah saya meletakkan AUC padanya? Boleh. Model adalah 0.87, naik dari 0.81 dalam v1. Tiada siapa dalam bilik itu mengambil berat. Jika mereka mengambil berat, mereka akan bertanya, dan saya akan menjawab. Mereka tidak akan bertanya. Mereka akan bertanya sama ada $1.1 juta adalah nyata, siapa yang menandatangani asas, dan apakah pusingan siap sedia apabila ia rosak.

Itulah perbualan yang metrik sepatutnya dimulakan. AUC tidak memulakan perbualan itu. Dollar ya.

Perangkap metrik vaniti

Lima metrik yang saya lihat pimpinan DS secara tidak sengaja mengoptimumkan, yang kelihatan produktif dan tidak produktif.

Kiraan penerbitan. Kertas kerja adalah hebat untuk mengambil DS senior ke dalam organisasi penyelidikan. Ia bukan apa yang VP anda pertahankan dalam semakan P&L. Jika anda berada di pasukan gunaan dan metrik barisan teratas anda adalah penerbitan, anda sedang memainkan permainan yang salah. CFO tidak membaca NeurIPS.

Pangkat Kaggle. Berguna untuk jenama peribadi. Tidak berguna untuk impak syarikat. DS senior tanpa profil Kaggle dan empat model hasil yang dihantar mengalahkan Kaggle Grandmaster dengan dua notebook setiap kali pada soalan yang penting: adakah perniagaan menjadi lebih baik.

AUC model sahaja. AUC adalah metrik kualiti model. Kualiti model adalah cara; hasil perniagaan adalah matlamat. AUC pada slaid tanpa dollar di sebelahnya membuat bilik berfikir anda menyembunyikan sesuatu. Selalunya anda memang menyembunyikan, termasuk dari diri sendiri.

Kiraan notebook. Saya telah melihat resume DS yang menyenaraikan "menjalankan 47 eksperimen." Empat puluh tujuh eksperimen dan sifar model yang dihantar adalah isyarat yang lebih buruk daripada empat eksperimen dan empat model yang dihantar. Nisbah penghantaran kepada eksperimen adalah nombor sebenar.

"Model yang dibina." Perhatikan frasa ini. "Dibina" bukan "dihantar." "Dibina dan didemo kepada pasukan" bukan "dihantar." "Dibina dan diintegrasikan ke dalam dashboard yang PM kadang-kadang lihat" bukan "dihantar." Jika model tidak melayan trafik pengeluaran pada keputusan sebenar, ia berada dalam laci. Nombor yang masuk ke slaid adalah yang sebenarnya dalam pengeluaran.

Corak merentasi semua lima: ia mengukur kerja yang dilakukan, bukan nilai yang dihantar. CFO mengukur nilai yang dihantar. Anda juga seharusnya berbuat demikian.

Meletakkannya dalam kalendar anda

Jika anda mengambil satu perkara dari ini:

  1. Menjelang Jumaat: kira model yang dihantar (definisi sebenar) dan tuliskan nombor dollar untuk setiap satu.
  2. Menjelang QBR seterusnya: dapatkan FP&A meluluskan asas untuk mana-mana model yang tidak mempunyai satu. Secara bertulis.
  3. Setiap bulan, log metrik pengeluaran-berbanding-latihan untuk setiap model. Jika kemerosotan > 15%, tingkatkan.
  4. Setiap suku tahun, hantar tinjauan NPS 2 soalan. Baca teks bebas.
  5. Setiap QBR, bawa slaid 5-baris. Pimpin dengan dollar, bukan AUC.

Kerja bukan kualiti model. Kerja adalah impak yang dihantar. AUC adalah cara; dollar adalah matlamat. Jika anda tidak boleh menyebutkan nombor dollar untuk setiap model yang anda hantar, anda tidak mempunyai metrik. Anda mempunyai hobi.

Ketahui Lebih Lanjut