Bahasa Indonesia

Metrik DS: Model yang Dirilis, Dampak Bisnis, Penurunan Kualitas Model

Anda menghabiskan enam minggu mendorong AUC dari 0,84 ke 0,89. VP Anda melihat slide, mengangguk, dan bertanya, "Oke, apa yang itu hasilkan bagi kita?" Anda tidak punya angkanya. Ruangan menjadi sunyi karena alasan yang salah.

Ini adalah kesenjangan yang dimasuki sebagian besar Data Scientist. Kita mengukur akurasi model. CFO mengukur dolar. Ketika dua kolom itu tidak bisa direkonsiliasi dalam slide QBR, tinjauan headcount tidak menanyakan "berapa F1 Anda?" Mereka menanyakan "apa yang tim DS rilis?" Jika Anda tidak bisa menerjemahkan pekerjaan model ke bahasa bisnis, Anda dipotong sebelum engineer yang merilis sebuah tombol.

Jadi mari kita perbaiki metriknya. Lima dari mereka. Masing-masing dapat dipertahankan dalam ruangan dengan mitra keuangan yang tidak pernah membuka Jupyter notebook dan tidak berencana untuk melakukannya.

Mengapa ini penting sekarang

Setiap tim DS yang saya saksikan bertahan dari siklus anggaran memiliki sifat yang sama: pemimpin mereka bisa menyebutkan angka dolar. Bukan "kita meningkatkan presisi 3 poin." Bukan "kita merilis 12 eksperimen." Dolar. Jam. Tiket yang diselesaikan. Margin yang dipulihkan.

Tim yang dipotong berbicara tentang kualitas model secara terisolasi. Mereka memiliki confusion matrix yang indah dan nol bukti bahwa ada keputusan dalam perusahaan yang berubah karena sebuah model.

Percakapan headcount pada tahun 2026 lebih tajam dari tiga tahun lalu. Era uang murah mengajarkan tim DS untuk mengukur input (makalah, eksperimen, AUC). Era saat ini hanya menghitung output yang muncul dalam P&L. Jika Anda dibesarkan dengan aturan lama, Anda harus melatih ulang diri sendiri dengan cepat. Metrik di bawah ini adalah caranya.

5 metrik yang benar-benar penting

1. Model yang dirilis dalam produksi

Jumlah model yang melayani lalu lintas produksi nyata, terhubung ke keputusan nyata, dimiliki oleh on-call nyata.

Bukan notebook. Bukan "dideploy ke staging." Bukan "menjalankan backfill sekali dan mengemailkan hasilnya ke operasi." Model yang melayani permintaan, memiliki runbook, dan merusak sesuatu yang terlihat jika berhenti beroperasi.

Target: 2-4 model yang dirilis per IC per tahun.

Angka itu terdengar rendah. Tidak. Model yang dirilis berarti: pipeline data dalam prod, pipeline pelatihan dalam prod, stack penyajian dalam prod, pemantauan dalam prod, konsumen hilir terhubung. Sebagian besar DS meremehkan berapa banyak yang benar-benar mereka lakukan karena mereka menghitung notebook. Hitung apa yang on-call. Angkanya menjadi jujur dengan cepat.

Jika Anda merilis nol tahun lalu, itulah percakapannya. Mengapa? Apakah platformnya? Apakah ruang lingkupnya? Apakah pemangku kepentingan yang tidak pernah mengintegrasikan output Anda? Setiap jawaban menunjuk ke perbaikan yang berbeda dan tidak ada yang "saya butuh model yang lebih baik."

2. Dampak bisnis dalam dolar

Setiap model yang dirilis mendapat angka dolar yang melekat. Pendapatan yang ditingkatkan, biaya yang dihemat, jam yang dikembalikan (dikalikan tarif jam yang dimuat), churn yang dicegah, penipuan yang tertangkap.

Target: setiap model yang dirilis >= $250 ribu dampak tahunan, atau matikan.

Batas $250 ribu itu kasar. Sesuaikan untuk ukuran perusahaan. Startup 30 orang bisa mempertahankan model $50 ribu jika murah untuk dijalankan; perusahaan publik tidak seharusnya repot-repot di bawah $500 ribu. Prinsipnya berlaku: setiap model memiliki angka, dan jika angkanya kecil, model itu hilang atau headcount yang dikonsumsinya.

Cara menghitungnya (bukan secara teoritis, di slide):

  • Model pendapatan: peningkatan tingkat konversi x lalu lintas baseline x AOV x tahunan. Dapatkan kesepakatan dari keuangan tentang baseline sebelum Anda merilis. Kesepakatan di awal adalah segalanya; klaim peningkatan pasca-fakta akan selalu ditentang.
  • Model biaya: tiket yang diselesaikan x biaya per tiket. Jam yang dihemat x tarif yang dimuat. Penurunan inventaris yang dihindari. Dapatkan angka dari keuangan untuk biaya per tiket, dan jangan tebak.
  • Model risiko: penipuan yang tertangkap x kerugian rata-rata per kasus. Piutang bermasalah yang dihindari x tingkat penghapusan.

Apa pun yang Anda hitung, masukkan metodologinya dalam catatan kaki di slide. "Peningkatan diukur terhadap baseline pra-peluncuran yang disetujui oleh FP&A pada 2026-02-14." Kalimat itu bernilai lebih dari angkanya sendiri, karena berarti angka itu tidak akan dipermasalahkan lagi kuartal depan.

3. Tingkat penurunan kualitas model

Persentase penurunan dalam metrik produksi Anda versus metrik waktu pelatihan, diukur setiap bulan.

Sebagian besar model kehilangan 5-20% dari metrik utama mereka dalam 90 hari pertama produksi. Penyimpangan dalam distribusi input, kebocoran label yang tidak muncul dalam evaluasi offline, musiman yang tidak dicakup data pelatihan. Hal normal. Bahayanya bukan penurunan kualitas. Melainkan penurunan kualitas yang diam-diam.

Target: apa pun yang menurun lebih dari 15% per kuartal tanpa rencana pelatihan ulang adalah kewajiban. Perbaiki atau matikan.

Contoh yang dikerjakan. Misalkan model penipuan Anda dilatih pada AUC 0,91. Setelah dirilis:

  • Bulan 1: AUC 0,89 dalam produksi. Penurunan = (0,91 - 0,89) / 0,91 = 2,2%. Dalam batas noise.
  • Bulan 2: 0,86. Penurunan = 5,5%. Perhatikan.
  • Bulan 3: 0,81. Penurunan = 11,0%. Anda memiliki masalah; selidiki.
  • Bulan 4: 0,76. Penurunan = 16,5% dari pelatihan. Kewajiban.

Jika Anda tidak memiliki pipeline pelatihan ulang yang bisa menangkap ini di bulan 2, bangun sebelum Anda membangun model baru. Model yang menurun kualitasnya secara diam-diam lebih buruk dari tidak ada model. Ini memberikan bisnis kepercayaan diri yang palsu.

Dashboard satu baris yang ingin dilihat VP Anda: "X dari N model produksi memiliki alarm penyimpangan terhubung dan SLA pelatihan ulang. Y dari N tidak." Rasio itu memberi tahu mereka berapa banyak permukaan yang benar-benar terkendali.

4. Waktu dari eksperimen ke produksi

Hari antara "notebook berfungsi" (evaluasi offline memenuhi standar) dan "lalu lintas produksi menyentuh model."

Target: di bawah 45 hari. 60 hari dapat diterima untuk model yang sulit. Di atas 90 hari berarti platform yang rusak, bukan Anda.

Ini adalah metrik yang tidak akan dimasukkan sebagian besar Data Scientist ke slide karena membuat mereka terlihat lambat. Masukkan ke slide tetap. Jika angka Anda adalah 120 hari, itu percakapan platform, bukan percakapan performa. Perbaikannya adalah penyimpanan fitur, pipeline pelatihan, registri model, dan otomasi deploy, bukan "Data Scientist perlu bekerja lebih keras."

Ketika VP melihat angka ini dan buruk, mereka seharusnya mengadakan percakapan desain organisasi: apakah kita perlu ML platform engineer? Apakah kita perlu mengkonsolidasikan toolchain deployment? Apakah kita perlu berhenti membiarkan setiap tim merilis stack penyajian buatan sendiri?

Pertama kali saya masuk QBR dan memasukkan cycle time ke slide, reaksi pertama VP saya bersifat defensif. Pada akhir rapat, ia telah menulis "prioritas platform ML Q2" di papan tulis. Angka itu membuka perekrutan.

5. NPS mitra bisnis

Survei dua pertanyaan kuartalan kepada PM, pemimpin operasi, dan analis yang menggunakan model Anda.

  1. Pada skala 0-10, seberapa besar kemungkinan Anda merekomendasikan bekerja sama dengan tim DS kami kepada rekan di perusahaan lain?
  2. Mengapa?

Di bawah 30 (NPS) berarti Anda memecahkan masalah yang salah, komunikasi Anda buruk, pengiriman Anda tidak dapat diandalkan, atau kombinasi dari itu. Jawaban teks bebas memberi tahu Anda yang mana.

Target: NPS >= 50, dengan batas keras 30. Di bawah 30 adalah sinyal reprioritas, bukan sinyal "lakukan lebih baik kuartal depan".

Mengapa memasukkan ini dengan metrik keras? Karena empat metrik di atas semuanya lagging. Pada saat penurunan kualitas atau jumlah model yang dirilis menceritakan kisahnya, dua kuartal telah berlalu. NPS mitra leading. Ketika PM yang Anda dukung berhenti meminta Anda untuk memeriksa ruang lingkup pekerjaan baru, Anda memiliki enam bulan sebelum angka dolar menjadi datar. NPS menangkapnya sebelum itu.

Jalankan. Kirim Form, bukan email. Anonimkan responsnya. Baca teks bebas. Sesuaikan.

Diagnostik "akurasi tinggi, tanpa dampak"

Berikut adalah momen yang akan Anda hadapi: model dengan metrik offline yang bagus, dideploy selama dua kuartal, yang tidak bisa ditunjuk oleh siapa pun di sisi bisnis sebagai telah mengubah sesuatu. Jalankan daftar periksa ini sebelum VP Anda menjalankannya pada Anda.

Diagnostik 4 pertanyaan (salin ini ke dokumen persiapan QBR Anda):

[ ] 1. Apakah output model terikat ke keputusan spesifik?
      (Bukan "menginformasikan strategi." Keputusan spesifik: diskon ya/tidak,
       prioritas tiket tinggi/rendah, routing lead ke rep A atau rep B.)

[ ] 2. Apakah keputusan itu benar-benar berubah karena model?
      (Apakah ada yang berperilaku berbeda? Tarik data sebelum/sesudah.
       Jika tingkat keputusan identik pra dan pasca peluncuran,
       model tersebut adalah dekorasi.)

[ ] 3. Apakah keputusan yang berubah itu bernilai uang?
      (Keputusan bisa berubah tanpa nilai. Jika rep mulai merutekan
       lead secara berbeda tetapi konversi tidak bergerak, itu $0.)

[ ] 4. Apakah keuangan setuju dengan metodologinya?
      (Dapatkan ini secara tertulis SEBELUM QBR. "FP&A menyetujui
       baseline pada YYYY-MM-DD" adalah kalimat ajaibnya.)

Jika Anda menjawab "tidak" untuk salah satu dari empat, Anda tidak memiliki metrik dampak bisnis. Anda memiliki cerita. Cerita tidak bertahan dari CFO. Perbaiki kesenjangan yang mendasarinya atau matikan model dan bebaskan headcount.

Perangkap yang dimasuki sebagian besar tim adalah pertanyaan 1: mereka merilis skor propensity dan menyebut pekerjaan selesai. Skor bukan keputusan. Skor yang duduk di database tidak bernilai apa pun. Aturan keputusan yang mengonsumsi skor dan mengubah perilaku adalah tempat asal dolar. Jika aturan itu tidak ada, model adalah hobi.

Slide QBR

Satu slide. Lima baris. Kuartal lalu, kuartal ini, delta. Satu kisah model dengan angka dolar di bawahnya.

Berikut tampilan saya (angka-angka bersifat ilustratif, format nyata):

Metrik Q1 2026 Q2 2026 Delta
Model dalam produksi 7 9 +2
Dampak bisnis tahunan $2,1 juta $3,4 juta +$1,3 juta
Rata-rata penurunan kualitas model (90 hari terakhir) 11% 8% -3 poin
Median eksperimen-ke-prod 52 hari 38 hari -14 hari
NPS mitra bisnis 41 56 +15

Sorotan Q2: Lead-scoring v2 (dirilis 14 April) Merutekan lead inbound ke rep berdasarkan propensity konversi. Menggantikan round-robin. Diukur terhadap baseline pra-peluncuran (disetujui oleh FP&A 2026-03-22): tingkat konversi 4,1% menjadi 5,6%. Dampak tahunan: $1,1 juta pendapatan baru. Alarm penurunan kualitas terhubung; SLA pelatihan ulang 30 hari.

Itulah seluruh slidenya. Lima angka. Satu kisah model. Satu catatan kaki mengutip baseline FP&A. Tidak ada AUC di mana pun di halaman.

Bisakah saya memasukkan AUC? Tentu. Model ini 0,87, naik dari 0,81 di v1. Tidak ada yang di ruangan itu peduli. Jika mereka peduli, mereka akan bertanya, dan saya akan menjawab. Mereka tidak akan bertanya. Mereka akan bertanya apakah $1,1 juta itu nyata, siapa yang menandatangani baseline, dan apa rotasi on-call ketika rusak.

Itulah percakapan yang seharusnya dimulai oleh metrik. AUC tidak memulai percakapan itu. Dolar melakukannya.

Perangkap metrik kecantikan

Lima metrik yang saya lihat DS lead secara tidak sengaja optimalkan, yang terlihat produktif tetapi tidak.

Jumlah publikasi. Makalah bagus untuk merekrut DS senior ke organisasi riset. Bukan yang dipertahankan VP Anda dalam tinjauan P&L. Jika Anda berada di tim terapan dan metrik utama Anda adalah publikasi, Anda memainkan permainan yang salah. CFO tidak membaca NeurIPS.

Peringkat Kaggle. Berguna untuk merek pribadi. Tidak berguna untuk dampak perusahaan. DS senior tanpa profil Kaggle dengan empat model pendapatan yang dirilis mengalahkan Kaggle Grandmaster dengan dua notebook setiap saat pada pertanyaan yang penting: apakah bisnis menjadi lebih baik.

AUC model saja. AUC adalah metrik kualitas model. Kualitas model adalah sarana; hasil bisnis adalah tujuannya. AUC di slide tanpa dolar di sebelahnya membuat ruangan berpikir Anda menyembunyikan sesuatu. Seringkali Anda memang menyembunyikan, termasuk dari diri Anda sendiri.

Jumlah notebook. Saya pernah melihat resume DS yang mencantumkan "menjalankan 47 eksperimen." Empat puluh tujuh eksperimen dan nol model yang dirilis adalah sinyal yang lebih buruk dari empat eksperimen dan empat model yang dirilis. Rasio model yang dirilis terhadap eksperimen adalah angka yang sebenarnya.

"Model yang dibangun." Perhatikan frasa ini. "Dibangun" bukan "dirilis." "Dibangun dan didemokan kepada tim" bukan "dirilis." "Dibangun dan diintegrasikan ke dashboard yang kadang-kadang dilihat PM" bukan "dirilis." Jika model tidak melayani lalu lintas produksi pada keputusan nyata, model itu ada di laci. Angka yang masuk ke slide adalah angka yang benar-benar dalam produksi.

Polanya di semua lima: mereka mengukur pekerjaan yang dilakukan, bukan nilai yang diberikan. CFO mengukur nilai yang diberikan. Begitu pun Anda seharusnya.

Memasukkannya ke kalender Anda

Jika Anda mengambil satu hal dari ini:

  1. Pada hari Jumat: hitung model yang Anda rilis (definisi nyata) dan tuliskan angka dolar untuk masing-masing.
  2. Sebelum QBR berikutnya: dapatkan FP&A untuk menyetujui baseline untuk model yang tidak memilikinya. Secara tertulis.
  3. Setiap bulan, catat metrik produksi-vs-pelatihan untuk setiap model. Jika penurunan kualitas > 15%, eskalasi.
  4. Setiap kuartal, kirim survei NPS 2 pertanyaan. Baca teks bebas.
  5. Setiap QBR, bawa slide 5 baris. Mulai dengan dolar, bukan AUC.

Pekerjaannya bukan kualitas model. Pekerjaannya adalah dampak yang dirilis. AUC adalah sarana; dolar adalah tujuannya. Jika Anda tidak bisa menyebutkan angka dolar untuk setiap model yang Anda rilis, Anda tidak memiliki metrik. Anda memiliki hobi.

Pelajari Lebih Lanjut