Bahasa Melayu

NVIDIA Menjadikan Model AI 30% Lebih Murah. Rundingkan Semula Kontrak Anda

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

Nemotron 3 Ultra mencapai ketersediaan umum dalam dua hari pada kos inferens 30% lebih rendah berbanding model frontier yang setanding, dan setiap CTO yang baru sahaja menandatangani pembaharuan dengan Anthropic, OpenAI, atau Google akan segera mengetahui sama ada mereka membayar terlalu mahal untuk beban kerja ejen.

Pengumuman ini tiba tepat pada masa yang kurang sesuai jika anda telah mengunci penetapan harga tahunan. Tetapi jika tingkap pembaharuan anda masih terbuka, atau kontrak semasa anda mempunyai klausa rundingan semula, ini adalah jangka masa dua hari yang penting.

Apa yang Sebenarnya NVIDIA Hantar di GTC Taipei

Menurut pengumuman GTC Taipei NVIDIA pada 31 Mei 2026, Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang dijadualkan mencapai GA pada 4 Jun 2026. Jensen Huang membentangkan model tersebut sebagai sebahagian daripada NVIDIA Agent Toolkit yang lebih luas, membingkai saat itu sebagai pemimpin perisian perusahaan yang menanamkan ejen terus ke dalam sistem tempat kerja sebenarnya dilakukan.

Jejak pengedaran pada GA adalah luas: Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA. Ini bukan pratayangan penyelidikan di sebalik senarai tunggu. Ia adalah keluaran bersedia produksi merentasi setiap saluran yang sudah digunakan CTO untuk mendapatkan dan menggunakan model.

Agent Toolkit sendiri dihantar dengan empat komponen:

  • Pelan tindakan NemoClaw: templat aliran kerja berasaskan ejen sumber terbuka, sudah aktif di GitHub
  • Nemotron 3 Ultra: model MoE 550B yang menjadi teras cerita kos
  • Masa jalan selamat OpenShell: pratayangan awal, menyasarkan pelaksanaan ejen berkontena
  • Pustaka kemahiran ejen CUDA-X: modul keupayaan pra-bina untuk tugasan ejen biasa

Rakan kongsi perusahaan yang sudah membina di atas NemoClaw termasuk Cadence, Dassault Systemes, Siemens, Synopsys, dan PhysicsX di sisi simulasi kejuruteraan, dengan CrowdStrike, Palantir, SAP, ServiceNow, Microsoft, dan Foxconn di sisi platform, keselamatan, dan pembuatan. Ini bukan senarai rakan kongsi percubaan rintis. Ia adalah isyarat niat produksi.

Fakta Utama

  • Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang mencapai GA pada 4 Jun 2026 (NVIDIA, GTC Taipei, 31 Mei 2026)
  • NVIDIA mendakwa sehingga 5x inferens lebih pantas dan sehingga 30% kos lebih rendah berbanding model frontier terbuka yang setanding untuk tugasan berasaskan ejen yang kompleks (NVIDIA Newsroom, 31 Mei 2026)
  • Pengedaran pada GA: Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA (NVIDIA Newsroom, 31 Mei 2026)

Mengapa Inferens 30 Peratus Lebih Rendah Mengubah Pengiraan Model Frontier untuk Beban Kerja Ejen

Kebanyakan perbualan kos AI perusahaan pada 2025 tertumpu pada kecekapan pembayang: kurangkan bilangan token, mampat tetingkap konteks, cache arahan sistem berulang. Pengiraan itu membantu tetapi dengan cepat mencapai pulangan berkurangan. Pembolehubah baharu adalah kos peringkat model, dan jurang 30% pada 550B parameter mengubah pengiraan untuk mana-mana pasukan yang menjalankan ejen pada jumlah panggilan yang bermakna.

Berikut adalah cara angka-angka bermain dalam amalan. Jika kontrak frontier semasa anda berjalan pada $40,000 sebulan dalam kos inferens untuk saluran ejen, pengurangan 30% meletakkan anda pada $28,000. Sepanjang kontrak 12 bulan, itu adalah $144,000 kembali. Untuk pelaksanaan yang lebih besar yang berkembang ke arah enam angka sebulan, perbezaan itu bertambah lebih jauh.

Tetapi angka yang lebih penting adalah tuntutan kelajuan inferens 5x. Kelajuan penting bagi ejen dengan cara yang tidak berlaku untuk aliran kerja manusia dalam gelung. Apabila ejen memanggil model 40 kali dalam satu proses orkestrasi tunggal, kependaman berganda. Inferens yang lebih pantas bukan sekadar terasa lebih baik; ia secara langsung mempengaruhi sama ada saluran berasaskan ejen anda boleh mencapai sasaran SLA untuk kes penggunaan masa nyata atau hampir masa nyata.

Tangkapannya: ini adalah penanda aras NVIDIA berbanding "model frontier terbuka yang setanding dalam kelasnya." Pengesahan bebas akan datang setelah model ada di lapangan selepas 4 Jun. Tetapi walaupun angka dunia sebenar mendarat pada 20% bukannya 30%, atau kelajuan 3x bukannya 5x, peralihan arah itu tetap menetapkan semula garis dasar perolehan. Anda tidak boleh menilai pembaharuan anda tanpa menjalankan angka Nemotron 3 Ultra melalui beban kerja sebenar anda.

Untuk konteks tentang di mana frontier proprietari berada sekarang: Siri-H Opus 4.8 Anthropic diposisikan sebagai model penaakulan perusahaan lalai hanya beberapa hari sebelum pengumuman ini. Pencabar berat terbuka yang tiba dua hari kemudian pada kos lebih rendah bukan kebetulan. Ini adalah tekanan persaingan yang menggerakkan harga pembaharuan.

Tiga Kedudukan Perolehan yang Akan Dipilih CTO Menjelang Q3

Setiap CTO dengan infrastruktur ejen akan menetap pada salah satu daripada tiga kedudukan menjelang Q3 2026. Keputusan itu bukan sekadar teknikal. Ia adalah kedudukan perolehan, dan ia mempunyai implikasi kos, risiko, dan organisasi.

Kedudukan 1: Kekal Proprietari

Anda meneruskan dengan Anthropic, OpenAI, atau Google sebagai pembekal model frontier utama anda. Anda mendapat SLA vendor, penalaan halus keselamatan, alat pematuhan terurus, dan satu titik tanggungjawab apabila sesuatu berjalan tidak kena. Premium kos adalah nyata, tetapi begitu juga model sokongannya. Kedudukan ini masuk akal jika pasukan undang-undang dan pematuhan anda sudah meluluskan pengendalian data pembekal, pasukan kejuruteraan anda tidak mempunyai keupayaan untuk mengurus penalaan halus berat terbuka, atau anda berada dalam industri terkawal di mana jejak audit daripada pembekal yang dinamakan adalah penting.

Kedudukan 2: Tulang Belakang Hibrid

Anda menggunakan Nemotron 3 Ultra (atau model berat terbuka yang lain) untuk panggilan ejen bervolum tinggi dan berisiko rendah, dan menempah kontrak frontier proprietari anda untuk tugasan penaakulan kompleks, interaksi berhadapan pelanggan, dan apa sahaja yang memerlukan jaminan keselamatan vendor. Ini adalah kedudukan yang paling biasa untuk pasukan yang sudah menjalankan strategi model berlapis. Kerumitan operasi adalah nyata (anda kini mengurus dua permukaan model), tetapi potensi pengoptimuman kos adalah tertinggi di sini.

Kedudukan 3: Lalai Berat Terbuka

Anda memindahkan majoriti beban kerja ejen ke Nemotron 3 Ultra dan menganggap model frontier proprietari sebagai pakar untuk kes penggunaan tertentu. Kedudukan ini memerlukan kapasiti dalaman untuk penalaan halus, penilaian, dan tindak balas insiden. Ia adalah pilihan yang betul untuk pasukan dengan kekuatan kejuruteraan ML yang kukuh dan beban kerja yang tidak menyentuh saluran data terkawal. Ia adalah pilihan yang salah untuk pasukan yang menggapai untuk menggunakan ejen tanpa membina keupayaan model-ops asas.

Kedudukan Profil kos Model sokongan Keupayaan diperlukan Paling sesuai untuk
Kekal Proprietari Lebih tinggi per token, boleh diramal SLA vendor MLOps standard Industri terkawal, pasukan ML ringan
Tulang Belakang Hibrid Pengurangan anggaran 15-25% Dibahagi: vendor + dalaman Penghalaan model berlapis Pelaksanaan ejen skala sederhana
Lalai Berat Terbuka Pengurangan maksimum, berubah-ubah Dalaman Tindanan model-ops penuh Bervolum tinggi, pasukan ML kukuh

Kebanyakan CTO perusahaan akan mendarat pada Tulang Belakang Hibrid dalam jangka masa terdekat. Tetapi infrastruktur yang anda bina untuk kedudukan hibrid adalah infrastruktur yang sama yang membolehkan anda memindahkan lebih banyak beban ke berat terbuka apabila keyakinan bertumbuh.

Profil Risiko Berat Terbuka yang Masih Perlu Anda Tanggung

Sebelum anda memaklumkan perolehan tentang pertukaran model, jalankan melalui matriks risiko. Model berat terbuka memindahkan permukaan liabiliti dengan cara yang penting untuk pelaksanaan perusahaan.

Tanggungjawab penalaan halus: Dengan model proprietari, vendor secara berterusan meningkatkan penjajaran keselamatan, menambal mod kegagalan, dan mengemas kini model. Dengan Nemotron 3 Ultra, anda memiliki peta jalan penalaan halus. Jika tingkah laku khusus domain muncul yang menimbulkan masalah, pasukan anda yang membetulkannya. Itu bukan semestinya masalah, tetapi ia memerlukan jurutera atau pasukan ML yang berdedikasi, bukan jurutera pembayang.

Liputan jejak audit: Bagi industri dengan kewajipan kawal selia tentang membuat keputusan AI, anda perlu mendokumentasikan versi model mana yang membuat keputusan mana. Model berat terbuka mempunyai versi, tetapi alat audit yang anda bina di sekelilingnya adalah milik anda untuk diselenggara. Masa jalan selamat OpenShell NVIDIA berada dalam pratayangan awal dan mungkin akhirnya menangani ini, tetapi ia belum bersedia untuk produksi pada GA.

Laluan peningkatan sokongan: Apabila model proprietari menghasilkan output yang tidak dijangka pada pukul 2 pagi semasa insiden produksi, anda menghubungi vendor. Dengan Nemotron 3 Ultra, anda memfailkan isu GitHub atau melibatkan sokongan perusahaan NVIDIA, bergantung pada kontrak anda. Jelaskan peringkat sokongan itu sebelum anda meluluskan pelaksanaan produksi.

Kedudukan keselamatan: Seni bina kotak pasir hos sendiri dan terowong MCP Anthropic mewakili satu pendekatan untuk mengunci permukaan pelaksanaan model. Pelaksanaan berat terbuka pada infrastruktur anda sendiri memberi anda lebih banyak kawalan ke atas sempadan rangkaian, tetapi kawalan itu memerlukan pasukan keselamatan anda untuk memiliki pengerasan. OpenShell dalam pratayangan bukan pengganti lengkap untuk model keselamatan yang diurus vendor.

Tiada satu pun daripada risiko ini yang tidak memenuhi syarat. Tetapi setiap satu memerlukan pemilik yang dinamakan dalam pasukan anda sebelum anda boleh memindahkan Nemotron 3 Ultra ke dalam saluran ejen produksi. Jika anda tidak dapat menamakan pemilik hari ini, anda belum bersedia untuk menukar tulang belakang anda.

Apa yang Perlu Dilakukan Minggu Ini

Tarikh GA adalah 4 Jun. Jangka masa tindakan anda sebelum model dibandingkan secara meluas dalam tangan pesaing anda adalah sempit.

Tindakan 1: Tarik kos inferens per token semasa anda mengikut jenis beban kerja. Jangan lihat jumlah perbelanjaan AI. Pecahkannya: beban kerja mana yang merupakan panggilan ejen bervolum tinggi berbanding tugasan penaakulan bervolum rendah? Kedudukan hibrid hanya masuk akal jika anda tahu panggilan mana yang merupakan calon untuk model yang lebih murah. Eksport kos awan anda daripada Anthropic, OpenAI, atau Azure OpenAI mempunyai data ini pada peringkat permintaan.

Tindakan 2: Minta akses Nemotron 3 Ultra pada 4 Jun dan jalankannya terhadap tiga beban kerja ejen bervolum tertinggi anda. Build.nvidia.com dan perkhidmatan mikro NVIDIA NIM akan mempunyai akses pada GA. Anda belum memerlukan rangka kerja penilaian penuh. Anda memerlukan bacaan arah: adakah kualiti dikekalkan pada pengurangan kos yang dicadangkan penanda aras? Jalankannya terhadap pembayang produksi sebenar, bukan penanda aras sintetik.

Tindakan 3: Maklumkan pasukan perolehan anda tentang jangka masa penangguhan pembaharuan sekarang. Jika anda mempunyai pembaharuan frontier dalam 90 hari akan datang, perolehan perlu tahu terdapat pencabar berat terbuka yang boleh dipercayai pada kos 30% lebih rendah. Itu bukan bermaksud bertukar. Ini bermakna ketua perolehan anda boleh merujuk alternatif itu semasa berunding. Vendor bertindak balas terhadap alternatif yang boleh dipercayai, dan Nemotron 3 Ultra pada skala dan jejak pengedaran ini adalah boleh dipercayai.

Dorongan perusahaan autonomi SAP Sapphire 2026 dan keputusan tindanan Summit Snowflake kedua-duanya menandakan bahawa lapisan perisian perusahaan sedang mengeras di sekitar infrastruktur ejen dengan cepat. Lapisan model di bawah infrastruktur itu kini menjadi pembolehubah kos yang aktif. CTO yang menganggap perolehan model sebagai keputusan yang ditetapkan dan dilupakan akan menanggung perbezaan apabila pengiraan berubah.

Bacaan Berkaitan


Soalan Lazim

Apakah NVIDIA Nemotron 3 Ultra dan bilakah ia tersedia?

Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang dibangunkan oleh NVIDIA. Ia mencapai ketersediaan umum pada 4 Jun 2026, diumumkan di GTC Taipei pada 31 Mei 2026. Pada GA ia akan tersedia melalui Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA.

Bagaimana kos Nemotron 3 Ultra berbanding dengan model frontier proprietari?

NVIDIA mendakwa Nemotron 3 Ultra memberikan sehingga 30% kos inferens lebih rendah dan sehingga 5x daya pengeluaran lebih pantas berbanding model frontier terbuka yang setanding untuk tugasan berasaskan ejen yang kompleks. Penanda aras bebas akan muncul selepas GA pada 4 Jun. Walaupun hasil dunia sebenar mendarat di bawah angka tajuk utama, perbezaan kos cukup besar untuk diambil kira dalam keputusan perolehan perusahaan, terutamanya untuk saluran ejen bervolum tinggi.

Haruskah CTO beralih daripada Anthropic atau OpenAI kepada Nemotron 3 Ultra?

Kebanyakan CTO perusahaan tidak akan membuat peralihan penuh pada 2026. Laluan yang lebih biasa adalah kedudukan tulang belakang hibrid: menggunakan Nemotron 3 Ultra untuk panggilan ejen bervolum tinggi dan berisiko rendah sambil mengekalkan model frontier proprietari untuk penaakulan kompleks, interaksi berhadapan pelanggan, dan beban kerja terkawal. Prasyarat utama adalah memetakan kos inferens semasa mengikut jenis beban kerja supaya anda tahu panggilan mana yang merupakan calon untuk model berat terbuka yang lebih murah.

Apakah risiko yang diperkenalkan oleh model berat terbuka seperti Nemotron 3 Ultra?

Risiko utama adalah tanggungjawab penalaan halus (pasukan anda memiliki kemas kini penjajaran keselamatan, bukan vendor), liputan jejak audit (anda membina dan menyelenggara infrastruktur penversiaan dan pengelogan keputusan), peningkatan sokongan (tiada SLA vendor untuk insiden produksi), dan pengerasan keselamatan (masa jalan OpenShell berada dalam pratayangan awal, belum bersedia untuk produksi pada GA). Tiada satu pun daripada ini tidak memenuhi syarat, tetapi setiap satu memerlukan pemilik yang dinamakan dalam pasukan kejuruteraan atau ML anda sebelum anda boleh menjalankan Nemotron 3 Ultra dalam saluran ejen produksi.


Sumber: NVIDIA Newsroom (GTC Taipei, 31 Mei 2026). Liputan: SiliconANGLE.

About the author

Victor Hoang

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.