AI at Work News
GPT-5.4 Boleh Menggunakan Komputer Secara Autonomi: Maknanya untuk Automasi Perusahaan

Kebanyakan perbincangan automasi perusahaan dalam dua tahun lalu telah menghadapi dinding yang sama: model AI boleh memahami arahan, tetapi mereka tidak benar-benar boleh mengendalikan sistem yang arahan tersebut merujuk. Anda boleh meminta model untuk mengemas kini rekod dalam ERP anda, dan ia akan memberitahu anda dengan tepat cara melakukannya. Tetapi ia tidak boleh melakukannya untuk anda.
GPT-5.4, yang dikeluarkan pada 5 Mac 2026 dan diperincikan oleh TechCrunch, menghapuskan kekangan tersebut. Model ini boleh menavigasi aplikasi desktop, menyemin web, dan mengendalikan perisian tanpa input manusia pada setiap langkah. Digabungkan dengan tetingkap konteks 1 juta token dan kadar halusinasi yang boleh diukur lebih rendah (kesilapan setiap tuntutan 33% lebih jarang berbanding GPT-5.2, kesilapan respons penuh 18% lebih jarang) ini adalah profil keupayaan yang membuka kes penggunaan yang benar-benar tidak praktikal sebelumnya.
Bagi CTO yang menilai peta jalan automasi mereka, GPT-5.4 patut mendapat penilaian yang serius. Tetapi respons yang tepat bukan segera mengembangkan penggunaan ejen. Ia adalah bertanya set soalan berstruktur tentang di mana model ini mengubah pengiraan dalam persekitaran khusus anda.
Apa Maksud "Penggunaan Komputer" dalam Amalan
Frasa "keupayaan penggunaan komputer" boleh kedengaran abstrak. Dalam istilah perusahaan konkrit, ia bermakna ejen AI boleh melakukan perkara berikut tanpa manusia mengklik melalui skrin:
Menavigasi aplikasi warisan yang tidak mempunyai REST API, mengisi medan, dan menyerahkan borang. Mengekstrak maklumat daripada laman web atau alat dalaman dengan benar-benar melayarinya dan membaca halaman, bukannya bergantung pada integrasi sedia bina. Memindahkan data antara sistem dengan mengendalikannya secara langsung: membuka sumber, menyalin nilai, membuka destinasi, memasukkan data. Menjalankan aliran kerja berbilang langkah dalam aplikasi desktop dengan mengenal pasti elemen UI, mengkliknya, memasukkan input, dan merespons apa yang muncul di skrin.
Bagi persekitaran perusahaan di mana sebahagian besar kerja operasi masih berlaku dalam sistem warisan dengan liputan API yang lemah atau tiada, ini adalah bermakna. Pendekatan integrasi yang sebelumnya memerlukan penyambung tersuai yang mahal atau alat robotic process automation (RPA) kini mempunyai alternatif asli model. Jika pasukan anda telah menilai integrasi AI dengan sistem sedia ada sebagai sebahagian daripada peluncuran AI yang lebih luas, keupayaan penggunaan komputer mengubah pengiraan kebolehlaksanaan untuk liputan sistem warisan.
Tetapi "boleh melakukan ini" dan "sepatutnya melakukan ini dalam pengeluaran" adalah soalan yang berbeza. Keupayaan penggunaan komputer adalah baru, dan penggunaan perusahaan dunia sebenar akan menemukan kes tepi yang tidak muncul dalam ujian awal. Soalan tata kelola dan pemantauan belum diselesaikan sepenuhnya lagi.
Tetingkap Konteks dan Apa yang Dimungkinkannya
Tetingkap konteks 1 juta token adalah yang terbesar yang ditawarkan oleh OpenAI melalui API. Dalam istilah praktikal: ia mencukupi untuk menampung keseluruhan set dokumen kontrak perusahaan, suku tahun penuh log aktiviti CRM, pangkalan kod yang besar, atau sejarah perbualan berbilang sesi yang panjang dalam satu panggilan model tunggal.
Aliran kerja yang dimungkinkan oleh ini adalah yang maklumat relevan tersebar merentasi dokumen atau set data yang besar, dan penyelesaian sebelumnya adalah pecahan: memecahkan input kepada kepingan, memproses setiap satu secara berasingan, dan menyelaraskan output. Pecahan memperkenalkan kesilapan pada jahitan: maklumat yang merentasi sempadan pecahan boleh terlepas, percanggahan merentasi pecahan boleh tidak kelihatan oleh model, dan logik penyesuaian menambah kerumitan kejuruteraan.
Analisis dokumen penuh (semakan pematuhan merentasi kontrak yang lengkap, audit keselamatan pangkalan kod yang lengkap, sintesis merentasi set penuh transkrip sokongan pelanggan) menjadi lebih mudah secara seni bina apabila anda tidak perlu memecah. Sama ada profil kependaman dan kos panggilan token 1 juta dapat diterima untuk kes penggunaan anda adalah penilaian berasingan, tetapi keupayaan menghapuskan kekangan seni bina yang mempengaruhi keputusan reka bentuk.
Peningkatan Halusinasi dan Mengapa Ia Penting untuk Penggunaan Pengeluaran
Pengurangan 33% dalam kesilapan setiap tuntutan bukan peningkatan penalaan kecil. Ia adalah perbezaan antara output AI yang memerlukan semakan baris demi baris yang teliti dan satu yang boleh dikaji semula pada tahap ringkasan dengan pemeriksaan spot.
Tetapi CTO yang menilai ini untuk aliran kerja pengeluaran harus tepat tentang apa yang diliputi oleh peningkatan tersebut. Ia adalah pengurangan dalam kesilapan fakta: pernyataan yang dibuat model tentang dunia yang ternyata salah. Ia tidak menghapuskan halusinasi. Dan ia tidak menangani kesilapan yang berpunca dari arahan yang samar, kualiti data yang lemah dalam input, atau tugas di mana model secara yakin salah dengan cara yang sukar dikesan tanpa pengetahuan domain.
Untuk aliran kerja pengeluaran, ujian praktikal adalah sama ada tahap ketepatan mencukupi untuk tugas khusus pada intensiti semakan yang dimaksudkan. Ejen yang memproses 500 rekod sehari dan membuat kesilapan fakta pada 5% daripadanya (turun dari 7.5%) masih mungkin memerlukan semakan manusia pada setiap rekod jika kos kesilapan yang tidak dikesan adalah tinggi. Peningkatan penting, tetapi soalan yang perlu dijawab adalah sama ada ia melepasi ambang untuk kes penggunaan khusus anda.
Tiga kategori aliran kerja di mana peningkatan ketepatan mempunyai impak praktikal paling besar:
Jana laporan dan analitik. Ringkasan dan analisis yang dijana AI yang menyuap pembuatan keputusan eksekutif paling mendapat manfaat daripada peningkatan ketepatan. Peningkatan halusinasi menjadikan kes untuk semakan manusia-dalam-gelung (bukannya penjanaan manusia dari awal) lebih layak. Ini adalah soalan ambang yang sama yang ditanya oleh CRO tentang aliran kerja jualan — analisis kesan jualan GPT-5.4 merangkumi sudut operasi pendapatan secara terperinci.
Pemprosesan dokumen pada skala. Tugas klasifikasi, pengekstrakan, dan rumusan yang dikenakan pada set dokumen besar bertambah baik dalam kebolehpercayaan. Risiko pengekstrakan yang dihalusinasikan (model mencipta nilai yang tidak muncul dalam dokumen sumber) berkurangan.
Rantai ejen dan aliran kerja berbilang langkah. Dalam saluran paip agentic di mana output dari satu langkah menjadi input kepada langkah seterusnya, halusinasi berganda. Pengurangan 33% dalam kadar kesilapan setiap langkah mengurangkan masalah kesilapan berganda dengan ketara dalam rantai yang lebih panjang.
Kerangka Keputusan untuk CTO
Apabila menilai sama ada perlu menggabungkan GPT-5.4 ke dalam aliran kerja pengeluaran, lima soalan memberi struktur kepada penilaian.
Apakah kos kesilapan yang tidak dikesan dalam aliran kerja ini? Ini adalah penapis pertama. Aliran kerja di mana kesilapan menyebabkan masalah yang boleh dipulihkan dan kelihatan (nilai medan yang salah yang ditangkap dalam semakan) adalah berbeza daripada aliran kerja di mana kesilapan merebak secara senyap ke dalam keputusan atau komunikasi luaran. Mulakan dengan yang pertama.
Adakah aliran kerja ini memerlukan pengendalian sistem yang belum dapat kita sepadukan? Keupayaan penggunaan komputer paling bernilai di mana liputan API adalah rendah. Jika aliran kerja sudah mempunyai laluan integrasi yang bersih, keupayaan penggunaan komputer tidak menambah banyak. Kenal pasti sistem warisan khusus atau alat yang tidak disambungkan dengan baik di mana navigasi pelayar/desktop akan membuka sesuatu yang baru.
Seberapa besar konteks yang relevan, dan adakah kita kini memecah untuk mengendalikannya? Jika seni bina semasa anda melibatkan memecah dokumen besar untuk kekal dalam had konteks, konteks 1 juta token patut dinilai khususnya untuk kes tersebut. Ukur overhead kejuruteraan pendekatan pecahan semasa anda dan timbang berbanding alternatif.
Apakah postur pemantauan dan tata kelola semasa kita untuk aliran kerja agentic? Sebelum menggunakan ejen yang boleh secara autonomi mengendalikan perisian, anda memerlukan pengelogan setiap tindakan yang diambil ejen, amaran tentang tingkah laku anomali, titik semakan manusia pada selang waktu yang sesuai, dan laluan berpatah balik yang jelas untuk membatalkan tindakan ejen. Jika infrastruktur tersebut belum tersedia, bina sebelum anda mengembangkan penggunaan. Kerangka tata kelola AI yang merangkumi sistem agentic secara khusus adalah berbeza daripada dasar AI umum — senario akses tulis yang dimungkinkan oleh GPT-5.4 memerlukan bar tata kelola yang lebih tinggi.
Bolehkah kita bermula dengan aliran kerja baca sahaja atau draf sebelum aliran kerja tulis? Titik masuk berisiko terendah untuk ejen penggunaan komputer adalah aliran kerja di mana ejen memerhatikan, mengekstrak, dan melaporkan tetapi tidak menulis kepada sistem pengeluaran. Beralih kepada aliran kerja tulis hanya selepas anda mengesahkan ketepatan pada peringkat baca. Penjujukan ini mudah dilaksanakan dan mengurangkan secara ketara jejari letupan kesilapan awal.
Tiga Kes Penggunaan yang Patut Dinilai Sekarang
Berdasarkan profil keupayaan, tiga kategori aliran kerja perusahaan patut diskopkan untuk pengujian jangka dekat.
Pengekstrakan data sistem warisan. Sistem dengan liputan API yang lemah tetapi reka letak skrin yang boleh diramal (ERP tertentu, platform CRM yang lebih lama, alat dalaman yang dibina sebelum reka bentuk API-pertama menjadi standard) adalah calon yang baik untuk ejen penggunaan komputer yang mengekstrak, membersihkan, dan memindahkan data. Mulakan dengan aliran kerja pengekstrakan di mana manusia kini menghabiskan masa manual yang berulang.
Semakan pematuhan dan kontrak dokumen panjang. Pasukan undang-undang dan pematuhan yang memproses volum besar kontrak, dasar, atau dokumen kawal selia mendapat manfaat daripada peningkatan tetingkap konteks dan peningkatan ketepatan. Kes penggunaan adalah semakan berbantuan AI yang menandai isu untuk perhatian manusia, bukan kelulusan autonomi. Tetapi keuntungan kecekapan boleh ketara.
Aliran kerja dalaman berbilang langkah dengan alat yang terpecah-belah. Aliran kerja yang kini memerlukan manusia bergerak antara beberapa alat dalaman (menyalin data, mencetuskan tindakan, merekodkan hasil) adalah calon yang baik untuk automasi ejen di mana setiap langkah ditentukan dengan baik dan hasil setiap langkah boleh disahkan.
Apa yang Perlu Dilakukan Minggu Ini
Tiga tindakan penilaian adalah praktikal untuk diambil sekarang.
Kenal pasti satu aliran kerja khusus dalam persekitaran anda di mana kekangan adalah mengendalikan sistem dengan liputan API yang lemah. Dokumentasikan langkah yang kini diambil manusia, kekerapan tugas, dan kos kesilapan. Itulah calon perintis penggunaan komputer anda.
Tarik dokumentasi kejuruteraan pada mana-mana aliran kerja semasa di mana anda memecah dokumen besar untuk kekal dalam had konteks. Nilai kerumitan logik pecahan dan penyesuaian. Jika ia ketara, penilaian konteks 1 juta token patut diskopkan.
Semak dokumentasi tata kelola penggunaan agentic semasa anda, atau cipta jika tidak wujud. Pengelogan, berpatah balik, amaran anomali, dan titik semakan manusia harus ditentukan sebelum anda melanjutkan GPT-5.4 ke dalam aliran kerja tulis, bukan selepasnya.
Profil keupayaan GPT-5.4 adalah benar-benar berbeza daripada yang datang sebelumnya. CTO yang paling mendapat manfaat daripadanya adalah yang menilainya berbanding kes penggunaan yang khusus dan skopnya baik, bukan yang menggunakannya secara meluas dan mendapati di mana ia gagal. Dan jika organisasi anda juga sedang melalui garis masa pematuhan EU AI Act, infrastruktur tata kelola yang anda bina untuk penggunaan agentic GPT-5.4 adalah infrastruktur yang sama yang memenuhi keperluan pengawasan AI berisiko tinggi.

Victor Hoang
Co-Founder