Sebuah syarikat Fortune 500 melancarkan enjin penetapan harga berkuasa AI. Ia berfungsi dengan baik semasa ujian. Tiga minggu selepas pengeluaran, ia mula mengembalikan harga yang sedikit salah untuk kategori produk tertentu semasa proses kelompok malam. Tiada amaran dibunyikan. Tiada ralat muncul dalam log. Pasukan menemuinya enam minggu kemudian apabila seorang wakil jualan menyedari diskaun luar biasa.

Masalahnya bukan model itu. Ia adalah kerana tiada siapa yang dapat melihat apa yang dilakukan model tersebut.

Pemerhatian AI adalah amalan membina sistem AI dalam pengeluaran supaya seseorang boleh memahami keadaan dalaman sistem dari output luarnya, disiplin yang sama yang dibawa oleh kejuruteraan kebolehpercayaan tapak kepada infrastruktur perisian.

Bagaimana Pemerhatian AI Berbeza daripada Pemantauan Model

Kedua-dua istilah ini digunakan secara bergantian, tetapi ia bukan perkara yang sama.

Pemantauan model menjejaki metrik peringkat model: ketepatan, penyimpangan ramalan, pergeseran taburan data dan kualiti output dari masa ke masa. Ia menjawab soalan: "Adakah model ini masih berfungsi seperti yang dijangkakan?"

Pemerhatian AI adalah lebih luas. Ia meliputi keseluruhan stack sistem AI: model itu sendiri, saluran paip data yang menyuapinya, infrastruktur yang menjalankannya, panggilan API yang masuk dan keluar, kependaman pada setiap lapisan, dan hasil perniagaan yang berikutnya. Ia menjawab soalan: "Apakah yang sebenarnya dilakukan oleh sistem AI saya, dan bolehkah saya mengesan sebarang masalah kembali kepada punca asalnya?"

Anggap pemantauan sebagai mengukur tekanan darah pesakit. Pemerhatian adalah mempunyai rekod perubatan penuh dengan sejarah, konteks, nota diagnostik, dan rekod setiap keputusan rawatan.

Untuk pemimpin perniagaan: pemantauan model memberitahu anda bahawa metrik adalah buruk. Pemerhatian memberitahu anda sebabnya.

Tiga Tiang

Pemerhatian dalam kejuruteraan perisian bergantung pada tiga isyarat. Sistem AI menggunakan ketiga-tiganya, dengan tambahan khusus AI pada setiap satu:

Log menangkap peristiwa diskret: prompt yang diterima, respons yang dijana, panggilan alat yang dibuat, pertanyaan pengambilan semula yang dilaksanakan. Dalam sistem AI, log perlu menangkap bukan sahaja ralat tetapi juga interaksi berjaya dengan konteks yang mencukupi untuk membina semula apa yang berlaku. Entri log yang mengatakan "model bertindak balas dalam 240ms" jauh kurang berguna daripada satu yang merangkumi prompt, versi model, bilangan token dan serpihan konteks yang diambil semula.

Metrik adalah pengukuran berangka dari masa ke masa: kadar permintaan, kadar ralat, persentil kependaman, penggunaan token, kos setiap permintaan, dan ukuran khusus model seperti taburan panjang output atau kadar penolakan. Metrik AI yang baik menghubungkan tingkah laku teknikal dengan hasil perniagaan, supaya kos setiap permintaan dipetakan kepada kos setiap interaksi pelanggan yang berjaya.

Jejak menunjukkan perjalanan penuh satu permintaan melalui sistem. Untuk aliran kerja agentik dan saluran paip RAG, satu interaksi pengguna mungkin melibatkan lima panggilan pengambilan semula, tiga panggilan LLM, dua pelaksanaan alat, dan satu penulisan pangkalan data. Jejak mengikuti seluruh rantaian itu, dengan data masa pada setiap langkah, supaya anda dapat mengenal pasti dari mana kependaman berasal atau di mana ralat bermula.

Sistem AI menambah isyarat keempat yang tidak dimiliki oleh perisian tradisional:

Penilaian adalah penilaian kualiti sistematik output AI. Kerana output AI bersifat kebarangkalian dan sering subjektif, anda tidak boleh hanya menyemak kod ralat. Penilaian menjalankan sampel output pengeluaran melalui pencetak markah kualiti, penilai manusia, atau LLM rujukan untuk mengukur dimensi seperti faktualiti, nada, relevansi, atau penyempurnaan tugas. Inilah cara anda mengesan "model berfungsi secara teknikal tetapi menghasilkan output yang lebih buruk daripada bulan lepas."

Rupa Pemerhatian AI yang Baik dalam Amalan

Sistem AI yang diperhatikan dengan baik membolehkan jurutera menjawab soalan-soalan ini dalam masa beberapa minit, bukan hari:

"Kami melihat lonjakan aduan pengguna pada pukul 3 petang semalam. Apa yang berubah?" Dengan pemerhatian, anda boleh mengaitkan lonjakan aduan dengan penerapan, perubahan dalam kualiti pengambilan semula, pergeseran dalam corak pertanyaan pengguna, atau isu kualiti data huluan.

"Mengapa interaksi pelanggan khusus ini gagal?" Dengan jejak, anda boleh memainkan semula urutan tepat panggilan, melihat konteks yang diterima oleh model, dan mengenal pasti sama ada kegagalan berlaku dalam pengambilan semula, dalam penaakulan model, atau dalam panggilan alat hiliran.

"Adakah AI kami semakin mahal tanpa menjadi lebih baik?" Dengan metrik kos dan kualiti yang dijejaki bersama-sama, anda boleh mengesan apabila penggunaan token meningkat tetapi skor kualiti output mendatar, yang sering bermakna pembengkakan prompt atau ketidakcekapan pengambilan semula.

"Adakah model termampat kami berfungsi sama seperti model saiz penuh?" Pemerhatian membolehkan anda menjalankan perbandingan A/B antara versi model dalam pengeluaran, dengan kekukuhan statistik, daripada bergantung pada penanda aras luar talian.

Kes Perniagaan untuk Pelaburan

Infrastruktur pemerhatian AI memerlukan wang sebenar. Pasukan menolak untuk membinanya apabila menghantar ciri-ciri terasa lebih mendesak. Kes perniagaan merangkum tiga realiti:

Pertama, kegagalan AI sering kali senyap. Tidak seperti pelayan yang ranap yang mengeluarkan ralat 500, model yang salah kalibrasi terus beroperasi sambil menghasilkan output yang sedikit salah. Tanpa pemerhatian, anda mengetahui masalah kualiti AI daripada aduan pelanggan atau metrik perniagaan hiliran, minggu selepas kemerosotan bermula.

Kedua, penyahpepijatan tanpa pemerhatian adalah sangat perlahan. Apabila sistem AI yang tidak diperhatikan berkelakuan buruk, penyiasatan boleh mengambil masa berminggu-minggu. Menghasilkan semula keadaan tepat, mengesan komponen yang gagal, dan mengenal pasti punca asal tanpa instrumentasi sering memerlukan pembinaan semula konteks dari awal.

Ketiga, kos AI adalah berubah-ubah dan boleh melonjak secara tidak dijangka. Perubahan kejuruteraan prompt yang meningkatkan bilangan token purata sebanyak 30% mungkin tidak muncul dalam ujian unit tetapi menggandakan bil inferens bulanan anda. Pemerhatian kos mengesan perubahan ini dalam masa beberapa jam, bukan kitaran pengebilan.

Platform MLOps semakin banyak menggabungkan alat pemerhatian, supaya pasukan tidak perlu membinanya dari awal. Alat khusus seperti LangSmith, Arize AI dan Weights and Biases menawarkan pemerhatian yang direka khusus untuk beban kerja LLM dan ML.

Bermula Tanpa Membina Semula Segalanya

Organisasi yang bermula dari sifar tidak memerlukan stack pemerhatian yang komprehensif pada hari pertama. Perkembangan yang praktikal:

Mulakan dengan pengelogan berstruktur untuk setiap panggilan API AI: cap masa, versi model, bilangan token input, bilangan token output, kependaman, dan ID jejak unik. Ini sahaja sudah membolehkan penyahpepijatan retroaktif dan penjejakan kos.

Tambah pensampelan output dan penilaian manusia untuk aliran kerja AI anda yang paling bernilai atau paling berisiko. Walaupun menyemak 50 interaksi secara manual setiap minggu sudah mencukupi untuk mengesan trend kualiti sebelum ia menjadi krisis.

Tambah pengesanan teragih sebaik sahaja anda mempunyai aliran kerja AI berbilang langkah di mana anda perlu memahami laluan permintaan penuh.

Lapisi metrik penilaian automatik selepas anda mempunyai sampel yang disemak manusia yang mencukupi untuk mengkalibrasi pencetak markah automatik.

Matlamatnya bukan pemerhatian yang sempurna. Ia adalah keterlihatan yang mencukupi supaya masalah menjadi kelihatan sebelum pelanggan menyedarinya.

Konsep AI Berkaitan

Pemantauan Model - Menjejaki prestasi model dari masa ke masa dalam pengeluaran
MLOps - Disiplin yang lebih luas dalam menjalankan sistem AI dengan boleh dipercayai
AI Governance - Rangka kerja untuk akauntabiliti dalam sistem AI
Aliran Kerja Agentik - Sistem AI berbilang langkah di mana penjejakan adalah sangat kritikal
Retrieval-Augmented Generation - Saluran paip RAG yang mendapat manfaat daripada pemerhatian merentas peringkat pengambilan semula dan penjanaan
AI Audit Trail - Saudara berorientasikan pematuhan bagi pemerhatian

Sumber Luaran

OpenTelemetry - Standard terbuka untuk pengesanan teragih dan metrik, semakin diterima pakai untuk sistem AI
Arize AI - Platform pemerhatian ML yang dibina khusus untuk tujuan ini
LangSmith - Alat pemerhatian dan penilaian untuk aplikasi LLM

FAQ

Soalan Lazim tentang Pemerhatian AI

Apakah pemerhatian AI?

Pemerhatian AI adalah amalan membina sistem AI dengan instrumentasi yang mencukupi (log, metrik, jejak dan penilaian) supaya seseorang boleh memahami keadaan dalaman dan tingkah lakunya daripada outputnya. Ia membolehkan pasukan mengesan masalah, menyahpepijat kegagalan, dan menjejaki kualiti dalam sistem AI dalam pengeluaran.

Bagaimana pemerhatian AI berbeza daripada pemantauan model?

Pemantauan model menjejaki metrik peringkat model seperti ketepatan dan penyimpangan. Pemerhatian AI meliputi keseluruhan stack sistem: saluran paip data, infrastruktur, panggilan API, kependaman, kos dan kualiti output. Pemantauan memberitahu anda bahawa sesuatu tidak betul. Pemerhatian memberitahu anda mengapa dan di mana.

Apakah yang mesti dicatatkan oleh setiap sistem AI sekurang-kurangnya?

Sekurang-kurangnya: cap masa, versi model, bilangan token input dan output, kependaman, ID jejak unik dan sebarang keadaan ralat. Untuk aplikasi LLM, juga catat versi system prompt dan konteks yang diambil semula jika anda menggunakan RAG. Garis dasar ini membolehkan penjejakan kos dan penyahpepijatan retroaktif.

Adakah alat khusus diperlukan untuk pemerhatian AI?

Tidak semestinya. Anda boleh bermula dengan pengelogan berstruktur dalam mana-mana sistem pengurusan log sedia ada. Alat khusus seperti LangSmith, Arize atau Weights and Biases menambah nilai untuk pasukan yang menjalankan AI pada skala besar, terutamanya untuk penilaian LLM dan penjejakan ejen berbilang langkah.

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn