Berita AI di Tempat Kerja
GPT-5.4 Bisa Menggunakan Komputer Secara Otonom: Artinya bagi Otomatisasi Enterprise

Sebagian besar diskusi otomatisasi enterprise dalam dua tahun terakhir menabrak tembok yang sama: model AI dapat memahami instruksi, tetapi mereka tidak bisa benar-benar mengoperasikan sistem yang dirujuk instruksi tersebut. Anda bisa meminta model untuk memperbarui catatan di ERP Anda, dan itu akan memberi tahu Anda dengan tepat cara melakukannya. Tetapi itu tidak bisa melakukannya untuk Anda.
GPT-5.4, dirilis 5 Maret 2026 dan didetailkan oleh TechCrunch, menghilangkan batasan tersebut. Model ini dapat menavigasi aplikasi desktop, menjelajahi web, dan mengoperasikan perangkat lunak secara otonom tanpa input manusia di setiap langkah. Dikombinasikan dengan jendela konteks 1 juta token dan tingkat halusinasi yang terukur lebih rendah (kesalahan per-klaim 33% lebih jarang dibandingkan GPT-5.2, kesalahan respons penuh 18% lebih jarang), ini adalah profil kemampuan yang membuka kasus penggunaan yang sebelumnya benar-benar tidak praktis.
Bagi CTO yang mengevaluasi roadmap otomatisasi mereka, GPT-5.4 layak mendapat penilaian serius. Tetapi respons yang tepat bukan langsung memperluas penerapan agent. Ini adalah mengajukan serangkaian pertanyaan terstruktur tentang di mana model ini mengubah perhitungan dalam lingkungan spesifik Anda.
Apa Arti "Computer-Use" dalam Praktik
Frasa "kemampuan computer-use" bisa terdengar abstrak. Dalam istilah enterprise konkret, artinya AI agent dapat melakukan hal-hal berikut tanpa manusia mengklik layar:
Menavigasi aplikasi warisan yang tidak memiliki REST API, mengisi bidang, dan mengirimkan formulir. Mengekstrak informasi dari situs web atau alat internal dengan benar-benar menjelajahinya dan membaca halaman, daripada mengandalkan integrasi yang telah dibuat sebelumnya. Memindahkan data antar sistem dengan mengoperasikannya secara langsung: membuka sumber, menyalin nilai, membuka tujuan, memasukkan data. Menjalankan alur kerja multi-langkah di dalam aplikasi desktop dengan mengidentifikasi elemen UI, mengkliknya, memasukkan input, dan merespons apa yang muncul di layar.
Untuk lingkungan enterprise di mana sebagian besar pekerjaan operasional masih terjadi dalam sistem warisan dengan cakupan API yang buruk atau tidak ada, ini bermakna. Pendekatan integrasi yang sebelumnya memerlukan konektor khusus yang mahal atau alat robotic process automation (RPA) kini memiliki alternatif yang native ke model. Jika tim Anda telah mengevaluasi integrasi AI dengan sistem yang ada sebagai bagian dari peluncuran AI yang lebih luas, kemampuan computer-use mengubah perhitungan kelayakan untuk cakupan sistem warisan.
Tetapi "dapat melakukan ini" dan "harus melakukan ini dalam produksi" adalah pertanyaan yang berbeda. Kemampuan computer-use ini baru, dan penerapan enterprise di dunia nyata akan menemui edge case yang tidak muncul dalam pengujian awal. Pertanyaan tata kelola dan pemantauan belum sepenuhnya diselesaikan.
Jendela Konteks dan Apa yang Diaktifkannya
Jendela konteks 1 juta token adalah yang terbesar yang pernah ditawarkan OpenAI melalui API. Untuk menempatkannya dalam istilah praktis: cukup untuk menampung seluruh set dokumen kontrak enterprise, satu kuartal penuh log aktivitas CRM, basis kode besar, atau riwayat percakapan multi-sesi yang diperpanjang dalam satu panggilan model.
Alur kerja yang diaktifkannya adalah yang informasi relevannya tersebar di seluruh dokumen atau dataset besar, dan solusi sebelumnya adalah chunking: memecah input menjadi bagian-bagian, memproses masing-masing secara terpisah, dan merekonsiliasi output. Chunking memperkenalkan kesalahan di sambungan: informasi yang melintas batas chunk dapat terlewatkan, kontradiksi antar chunk dapat tidak terlihat oleh model, dan logika rekonsiliasi menambahkan kompleksitas teknik.
Analisis dokumen penuh (tinjauan kepatuhan di seluruh kontrak, audit keamanan dari basis kode lengkap, sintesis di seluruh set transkrip dukungan pelanggan) menjadi lebih sederhana secara arsitektur ketika Anda tidak perlu melakukan chunking. Apakah profil latensi dan biaya dari panggilan 1M token dapat diterima untuk kasus penggunaan Anda adalah evaluasi terpisah, tetapi kemampuannya menghilangkan batasan arsitektur yang memengaruhi keputusan desain.
Peningkatan Halusinasi dan Mengapa Penting untuk Penerapan Produksi
Pengurangan 33% dalam kesalahan per-klaim bukan perbaikan penyesuaian kecil. Ini adalah perbedaan antara output AI yang memerlukan tinjauan baris demi baris yang cermat dan satu yang dapat ditinjau di tingkat ringkasan dengan spot-check.
Tetapi CTO yang mengevaluasi ini untuk alur kerja produksi harus tepat tentang apa yang dicakup peningkatan tersebut. Ini adalah pengurangan dalam kesalahan faktual: pernyataan yang dibuat model tentang dunia yang ternyata salah. Ini tidak menghilangkan halusinasi. Dan tidak mengatasi kesalahan yang berasal dari instruksi yang ambigu, kualitas data yang buruk dalam input, atau tugas di mana model yakin salah dengan cara yang sulit dideteksi tanpa pengetahuan domain.
Untuk alur kerja produksi, tes praktisnya adalah apakah tingkat akurasi cukup untuk tugas spesifik pada intensitas tinjauan yang dimaksudkan. Agent yang memproses 500 catatan per hari dan membuat kesalahan faktual pada 5% dari mereka (turun dari 7,5%) mungkin masih memerlukan tinjauan manusia pada setiap catatan jika biaya kesalahan yang tidak terdeteksi tinggi. Peningkatan ini penting, tetapi pertanyaan yang perlu dijawab adalah apakah itu melampaui ambang batas untuk kasus penggunaan spesifik Anda.
Tiga kategori alur kerja di mana peningkatan akurasi memiliki dampak praktis terbesar:
Pembuatan laporan dan analitik. Ringkasan dan analisis yang dihasilkan AI yang memberi makan pengambilan keputusan eksekutif paling banyak mendapat manfaat dari peningkatan akurasi. Peningkatan halusinasi membuat kasus untuk tinjauan human-in-the-loop (daripada pembuatan manusia dari awal) lebih layak. Ini adalah pertanyaan ambang yang sama yang ditanyakan CRO tentang alur kerja penjualan — analisis dampak penjualan GPT-5.4 mencakup sudut operasi pendapatan secara rinci.
Pemrosesan dokumen pada skala. Tugas klasifikasi, ekstraksi, dan ringkasan yang diterapkan pada set dokumen besar meningkat dalam keandalan. Risiko ekstraksi yang dihalusinasi (model menciptakan nilai yang tidak muncul dalam dokumen sumber) berkurang.
Rantai agent dan alur kerja multi-langkah. Dalam pipeline agentic di mana output dari satu langkah menjadi input ke langkah berikutnya, halusinasi menghasilkan efek berlipat. Pengurangan 33% dalam tingkat kesalahan per-langkah secara bermakna mengurangi masalah kesalahan berlipat dalam rantai yang lebih panjang.
Kerangka Keputusan untuk CTO
Saat mengevaluasi apakah akan memasukkan GPT-5.4 ke dalam alur kerja produksi, lima pertanyaan memberikan struktur pada penilaian.
Berapa biaya kesalahan yang tidak terdeteksi dalam alur kerja ini? Ini adalah filter pertama. Alur kerja di mana kesalahan menyebabkan masalah yang dapat dipulihkan dan terlihat (nilai bidang yang salah yang tertangkap dalam tinjauan) berbeda dari alur kerja di mana kesalahan merambat diam-diam ke keputusan atau komunikasi eksternal. Mulai dengan yang pertama.
Apakah alur kerja ini memerlukan pengoperasian sistem yang belum dapat kami integrasikan? Kemampuan computer-use paling berharga di mana cakupan API rendah. Jika alur kerja sudah memiliki jalur integrasi yang bersih, kemampuan computer-use menambahkan sedikit. Identifikasi sistem warisan spesifik atau alat yang terhubung buruk di mana navigasi browser/desktop akan membuka sesuatu yang baru.
Seberapa besar konteks yang relevan, dan apakah kami saat ini melakukan chunking untuk menanganinya? Jika arsitektur Anda saat ini melibatkan chunking dokumen besar dan merekonsiliasi output, konteks 1M token layak dievaluasi secara khusus untuk kasus-kasus tersebut. Ukur overhead rekayasa pendekatan chunking Anda saat ini dan timbang terhadap alternatifnya.
Bagaimana postur pemantauan dan tata kelola kami saat ini untuk alur kerja agentic? Sebelum menerapkan agent yang dapat mengoperasikan perangkat lunak secara otonom, Anda memerlukan pencatatan setiap tindakan yang diambil agent, peringatan pada perilaku anomali, titik pemeriksaan tinjauan manusia pada interval yang tepat, dan jalur rollback yang jelas untuk membatalkan tindakan agent. Jika infrastruktur tersebut belum ada, bangun sebelum Anda memperluas penerapan. Kerangka tata kelola AI yang mencakup sistem agentic secara khusus berbeda dari kebijakan AI umum — skenario write-access yang diaktifkan GPT-5.4 memerlukan bar tata kelola yang lebih tinggi.
Bisakah kita mulai dengan alur kerja read-only atau draft sebelum alur kerja write? Titik masuk risiko terendah untuk computer-use agent adalah alur kerja di mana agent mengamati, mengekstrak, dan melaporkan tetapi tidak menulis ke sistem produksi. Pindah ke alur kerja write hanya setelah Anda memvalidasi akurasi pada tahap baca. Pengurutan ini mudah diimplementasikan dan secara substansial mengurangi radius ledakan kesalahan awal.
Tiga Kasus Penggunaan yang Layak Dievaluasi Sekarang
Berdasarkan profil kemampuan, tiga kategori alur kerja enterprise layak dijangkau untuk pengujian jangka pendek.
Ekstraksi data sistem warisan. Sistem dengan cakupan API yang buruk tetapi tata letak layar yang dapat diprediksi (ERP tertentu, platform CRM yang lebih lama, alat internal yang dibangun sebelum desain API-first menjadi standar) adalah kandidat baik untuk computer-use agent yang mengekstrak, membersihkan, dan memindahkan data. Mulai dengan alur kerja ekstraksi di mana manusia saat ini menghabiskan waktu manual yang berulang.
Tinjauan kepatuhan dan kontrak dokumen panjang. Tim hukum dan kepatuhan yang memproses volume besar kontrak, kebijakan, atau dokumen regulasi mendapat manfaat dari peningkatan jendela konteks dan peningkatan akurasi. Kasus penggunaannya adalah tinjauan berbantuan AI yang menandai masalah untuk perhatian manusia, bukan persetujuan otonom. Tetapi keuntungan efisiensi bisa signifikan.
Alur kerja internal multi-langkah dengan alat yang terfragmentasi. Alur kerja yang saat ini membutuhkan manusia untuk bergerak di antara beberapa alat internal (menyalin data, memicu tindakan, mencatat hasil) adalah kandidat baik untuk otomatisasi agent di mana setiap langkah terdefinisi dengan baik dan hasilnya dapat diverifikasi.
Yang Harus Dilakukan Minggu Ini
Tiga tindakan evaluasi praktis dapat diambil sekarang.
Identifikasi satu alur kerja spesifik dalam lingkungan Anda di mana hambatannya adalah mengoperasikan sistem dengan cakupan API yang buruk. Dokumentasikan langkah-langkah yang saat ini diambil manusia, frekuensi tugas, dan biaya kesalahan. Itu adalah kandidat pilot computer-use Anda.
Tarik dokumentasi teknik pada alur kerja saat ini di mana Anda melakukan chunking dokumen besar untuk tetap berada dalam batas konteks. Nilai kompleksitas logika chunking dan rekonsiliasi. Jika signifikan, evaluasi konteks 1M token layak dijangkau.
Tinjau dokumentasi tata kelola penerapan agentic Anda saat ini, atau buat jika belum ada. Pencatatan, rollback, peringatan anomali, dan titik pemeriksaan tinjauan manusia harus ditentukan sebelum Anda memperluas GPT-5.4 ke alur kerja write, bukan setelah.
Profil kemampuan GPT-5.4 benar-benar berbeda dari yang sebelumnya. CTO yang paling mendapat manfaat darinya adalah mereka yang mengevaluasinya terhadap kasus penggunaan yang spesifik dan well-scoped, bukan mereka yang menerapkannya secara luas dan menemukan di mana ia gagal. Dan jika organisasi Anda juga sedang menjalani timeline kepatuhan EU AI Act, infrastruktur tata kelola yang Anda bangun untuk penerapan agentic GPT-5.4 adalah infrastruktur yang sama yang memenuhi persyaratan pengawasan AI berisiko tinggi.
