More in
AI at Work News
OpenAI Opened ChatGPT Advertising to Small Businesses at Any Budget
Jun 6, 2026
AI Is Everywhere at Work. Only 1 in 10 Say It Transformed the Job
Jun 6, 2026
Vibe Coding's $10.5B Moment: AI Now Starts Most New Software Builds
Jun 6, 2026
AI Agents Now Have More System Access Than Your Employees. Few Are Secured
Jun 5, 2026
Should You Build Your AI or Buy It? Watch What the Giants Bought.
Jun 5, 2026
Uber Caps Employee AI Spending at $1,500 Per Seat After a Budget Blowout
Jun 5, 2026
Trump's AI Executive Order Is Deregulatory. Your Compliance Risk Didn't Move
Jun 4, 2026
AI Pushed 220 Unicorns Below $1B. Pre-ChatGPT Companies Face a Reckoning
Jun 4, 2026
Token Prices Fell 67% This Year. Your AI Bill Is Going Up Anyway
Jun 3, 2026
Small Businesses Using AI Report Higher Revenue and Shorter Workdays
Jun 3, 2026
NVIDIA Menjadikan Model AI 30% Lebih Murah. Rundingkan Semula Kontrak Anda
Turn this article into takeaways for your work.
Each assistant summarizes the article only for you and suggests best practices for your work.
Nemotron 3 Ultra mencapai ketersediaan umum dalam dua hari pada kos inferens 30% lebih rendah berbanding model frontier yang setanding, dan setiap CTO yang baru sahaja menandatangani pembaharuan dengan Anthropic, OpenAI, atau Google akan segera mengetahui sama ada mereka membayar terlalu mahal untuk beban kerja ejen.
Pengumuman ini tiba tepat pada masa yang kurang sesuai jika anda telah mengunci penetapan harga tahunan. Tetapi jika tingkap pembaharuan anda masih terbuka, atau kontrak semasa anda mempunyai klausa rundingan semula, ini adalah jangka masa dua hari yang penting.
Apa yang Sebenarnya NVIDIA Hantar di GTC Taipei
Menurut pengumuman GTC Taipei NVIDIA pada 31 Mei 2026, Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang dijadualkan mencapai GA pada 4 Jun 2026. Jensen Huang membentangkan model tersebut sebagai sebahagian daripada NVIDIA Agent Toolkit yang lebih luas, membingkai saat itu sebagai pemimpin perisian perusahaan yang menanamkan ejen terus ke dalam sistem tempat kerja sebenarnya dilakukan.
Jejak pengedaran pada GA adalah luas: Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA. Ini bukan pratayangan penyelidikan di sebalik senarai tunggu. Ia adalah keluaran bersedia produksi merentasi setiap saluran yang sudah digunakan CTO untuk mendapatkan dan menggunakan model.
Agent Toolkit sendiri dihantar dengan empat komponen:
- Pelan tindakan NemoClaw: templat aliran kerja berasaskan ejen sumber terbuka, sudah aktif di GitHub
- Nemotron 3 Ultra: model MoE 550B yang menjadi teras cerita kos
- Masa jalan selamat OpenShell: pratayangan awal, menyasarkan pelaksanaan ejen berkontena
- Pustaka kemahiran ejen CUDA-X: modul keupayaan pra-bina untuk tugasan ejen biasa
Rakan kongsi perusahaan yang sudah membina di atas NemoClaw termasuk Cadence, Dassault Systemes, Siemens, Synopsys, dan PhysicsX di sisi simulasi kejuruteraan, dengan CrowdStrike, Palantir, SAP, ServiceNow, Microsoft, dan Foxconn di sisi platform, keselamatan, dan pembuatan. Ini bukan senarai rakan kongsi percubaan rintis. Ia adalah isyarat niat produksi.
Fakta Utama
- Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang mencapai GA pada 4 Jun 2026 (NVIDIA, GTC Taipei, 31 Mei 2026)
- NVIDIA mendakwa sehingga 5x inferens lebih pantas dan sehingga 30% kos lebih rendah berbanding model frontier terbuka yang setanding untuk tugasan berasaskan ejen yang kompleks (NVIDIA Newsroom, 31 Mei 2026)
- Pengedaran pada GA: Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA (NVIDIA Newsroom, 31 Mei 2026)
Mengapa Inferens 30 Peratus Lebih Rendah Mengubah Pengiraan Model Frontier untuk Beban Kerja Ejen
Kebanyakan perbualan kos AI perusahaan pada 2025 tertumpu pada kecekapan pembayang: kurangkan bilangan token, mampat tetingkap konteks, cache arahan sistem berulang. Pengiraan itu membantu tetapi dengan cepat mencapai pulangan berkurangan. Pembolehubah baharu adalah kos peringkat model, dan jurang 30% pada 550B parameter mengubah pengiraan untuk mana-mana pasukan yang menjalankan ejen pada jumlah panggilan yang bermakna.
Berikut adalah cara angka-angka bermain dalam amalan. Jika kontrak frontier semasa anda berjalan pada $40,000 sebulan dalam kos inferens untuk saluran ejen, pengurangan 30% meletakkan anda pada $28,000. Sepanjang kontrak 12 bulan, itu adalah $144,000 kembali. Untuk pelaksanaan yang lebih besar yang berkembang ke arah enam angka sebulan, perbezaan itu bertambah lebih jauh.
Tetapi angka yang lebih penting adalah tuntutan kelajuan inferens 5x. Kelajuan penting bagi ejen dengan cara yang tidak berlaku untuk aliran kerja manusia dalam gelung. Apabila ejen memanggil model 40 kali dalam satu proses orkestrasi tunggal, kependaman berganda. Inferens yang lebih pantas bukan sekadar terasa lebih baik; ia secara langsung mempengaruhi sama ada saluran berasaskan ejen anda boleh mencapai sasaran SLA untuk kes penggunaan masa nyata atau hampir masa nyata.
Tangkapannya: ini adalah penanda aras NVIDIA berbanding "model frontier terbuka yang setanding dalam kelasnya." Pengesahan bebas akan datang setelah model ada di lapangan selepas 4 Jun. Tetapi walaupun angka dunia sebenar mendarat pada 20% bukannya 30%, atau kelajuan 3x bukannya 5x, peralihan arah itu tetap menetapkan semula garis dasar perolehan. Anda tidak boleh menilai pembaharuan anda tanpa menjalankan angka Nemotron 3 Ultra melalui beban kerja sebenar anda.
Untuk konteks tentang di mana frontier proprietari berada sekarang: Siri-H Opus 4.8 Anthropic diposisikan sebagai model penaakulan perusahaan lalai hanya beberapa hari sebelum pengumuman ini. Pencabar berat terbuka yang tiba dua hari kemudian pada kos lebih rendah bukan kebetulan. Ini adalah tekanan persaingan yang menggerakkan harga pembaharuan.
Tiga Kedudukan Perolehan yang Akan Dipilih CTO Menjelang Q3
Setiap CTO dengan infrastruktur ejen akan menetap pada salah satu daripada tiga kedudukan menjelang Q3 2026. Keputusan itu bukan sekadar teknikal. Ia adalah kedudukan perolehan, dan ia mempunyai implikasi kos, risiko, dan organisasi.
Kedudukan 1: Kekal Proprietari
Anda meneruskan dengan Anthropic, OpenAI, atau Google sebagai pembekal model frontier utama anda. Anda mendapat SLA vendor, penalaan halus keselamatan, alat pematuhan terurus, dan satu titik tanggungjawab apabila sesuatu berjalan tidak kena. Premium kos adalah nyata, tetapi begitu juga model sokongannya. Kedudukan ini masuk akal jika pasukan undang-undang dan pematuhan anda sudah meluluskan pengendalian data pembekal, pasukan kejuruteraan anda tidak mempunyai keupayaan untuk mengurus penalaan halus berat terbuka, atau anda berada dalam industri terkawal di mana jejak audit daripada pembekal yang dinamakan adalah penting.
Kedudukan 2: Tulang Belakang Hibrid
Anda menggunakan Nemotron 3 Ultra (atau model berat terbuka yang lain) untuk panggilan ejen bervolum tinggi dan berisiko rendah, dan menempah kontrak frontier proprietari anda untuk tugasan penaakulan kompleks, interaksi berhadapan pelanggan, dan apa sahaja yang memerlukan jaminan keselamatan vendor. Ini adalah kedudukan yang paling biasa untuk pasukan yang sudah menjalankan strategi model berlapis. Kerumitan operasi adalah nyata (anda kini mengurus dua permukaan model), tetapi potensi pengoptimuman kos adalah tertinggi di sini.
Kedudukan 3: Lalai Berat Terbuka
Anda memindahkan majoriti beban kerja ejen ke Nemotron 3 Ultra dan menganggap model frontier proprietari sebagai pakar untuk kes penggunaan tertentu. Kedudukan ini memerlukan kapasiti dalaman untuk penalaan halus, penilaian, dan tindak balas insiden. Ia adalah pilihan yang betul untuk pasukan dengan kekuatan kejuruteraan ML yang kukuh dan beban kerja yang tidak menyentuh saluran data terkawal. Ia adalah pilihan yang salah untuk pasukan yang menggapai untuk menggunakan ejen tanpa membina keupayaan model-ops asas.
| Kedudukan | Profil kos | Model sokongan | Keupayaan diperlukan | Paling sesuai untuk |
|---|---|---|---|---|
| Kekal Proprietari | Lebih tinggi per token, boleh diramal | SLA vendor | MLOps standard | Industri terkawal, pasukan ML ringan |
| Tulang Belakang Hibrid | Pengurangan anggaran 15-25% | Dibahagi: vendor + dalaman | Penghalaan model berlapis | Pelaksanaan ejen skala sederhana |
| Lalai Berat Terbuka | Pengurangan maksimum, berubah-ubah | Dalaman | Tindanan model-ops penuh | Bervolum tinggi, pasukan ML kukuh |
Kebanyakan CTO perusahaan akan mendarat pada Tulang Belakang Hibrid dalam jangka masa terdekat. Tetapi infrastruktur yang anda bina untuk kedudukan hibrid adalah infrastruktur yang sama yang membolehkan anda memindahkan lebih banyak beban ke berat terbuka apabila keyakinan bertumbuh.
Profil Risiko Berat Terbuka yang Masih Perlu Anda Tanggung
Sebelum anda memaklumkan perolehan tentang pertukaran model, jalankan melalui matriks risiko. Model berat terbuka memindahkan permukaan liabiliti dengan cara yang penting untuk pelaksanaan perusahaan.
Tanggungjawab penalaan halus: Dengan model proprietari, vendor secara berterusan meningkatkan penjajaran keselamatan, menambal mod kegagalan, dan mengemas kini model. Dengan Nemotron 3 Ultra, anda memiliki peta jalan penalaan halus. Jika tingkah laku khusus domain muncul yang menimbulkan masalah, pasukan anda yang membetulkannya. Itu bukan semestinya masalah, tetapi ia memerlukan jurutera atau pasukan ML yang berdedikasi, bukan jurutera pembayang.
Liputan jejak audit: Bagi industri dengan kewajipan kawal selia tentang membuat keputusan AI, anda perlu mendokumentasikan versi model mana yang membuat keputusan mana. Model berat terbuka mempunyai versi, tetapi alat audit yang anda bina di sekelilingnya adalah milik anda untuk diselenggara. Masa jalan selamat OpenShell NVIDIA berada dalam pratayangan awal dan mungkin akhirnya menangani ini, tetapi ia belum bersedia untuk produksi pada GA.
Laluan peningkatan sokongan: Apabila model proprietari menghasilkan output yang tidak dijangka pada pukul 2 pagi semasa insiden produksi, anda menghubungi vendor. Dengan Nemotron 3 Ultra, anda memfailkan isu GitHub atau melibatkan sokongan perusahaan NVIDIA, bergantung pada kontrak anda. Jelaskan peringkat sokongan itu sebelum anda meluluskan pelaksanaan produksi.
Kedudukan keselamatan: Seni bina kotak pasir hos sendiri dan terowong MCP Anthropic mewakili satu pendekatan untuk mengunci permukaan pelaksanaan model. Pelaksanaan berat terbuka pada infrastruktur anda sendiri memberi anda lebih banyak kawalan ke atas sempadan rangkaian, tetapi kawalan itu memerlukan pasukan keselamatan anda untuk memiliki pengerasan. OpenShell dalam pratayangan bukan pengganti lengkap untuk model keselamatan yang diurus vendor.
Tiada satu pun daripada risiko ini yang tidak memenuhi syarat. Tetapi setiap satu memerlukan pemilik yang dinamakan dalam pasukan anda sebelum anda boleh memindahkan Nemotron 3 Ultra ke dalam saluran ejen produksi. Jika anda tidak dapat menamakan pemilik hari ini, anda belum bersedia untuk menukar tulang belakang anda.
Apa yang Perlu Dilakukan Minggu Ini
Tarikh GA adalah 4 Jun. Jangka masa tindakan anda sebelum model dibandingkan secara meluas dalam tangan pesaing anda adalah sempit.
Tindakan 1: Tarik kos inferens per token semasa anda mengikut jenis beban kerja. Jangan lihat jumlah perbelanjaan AI. Pecahkannya: beban kerja mana yang merupakan panggilan ejen bervolum tinggi berbanding tugasan penaakulan bervolum rendah? Kedudukan hibrid hanya masuk akal jika anda tahu panggilan mana yang merupakan calon untuk model yang lebih murah. Eksport kos awan anda daripada Anthropic, OpenAI, atau Azure OpenAI mempunyai data ini pada peringkat permintaan.
Tindakan 2: Minta akses Nemotron 3 Ultra pada 4 Jun dan jalankannya terhadap tiga beban kerja ejen bervolum tertinggi anda. Build.nvidia.com dan perkhidmatan mikro NVIDIA NIM akan mempunyai akses pada GA. Anda belum memerlukan rangka kerja penilaian penuh. Anda memerlukan bacaan arah: adakah kualiti dikekalkan pada pengurangan kos yang dicadangkan penanda aras? Jalankannya terhadap pembayang produksi sebenar, bukan penanda aras sintetik.
Tindakan 3: Maklumkan pasukan perolehan anda tentang jangka masa penangguhan pembaharuan sekarang. Jika anda mempunyai pembaharuan frontier dalam 90 hari akan datang, perolehan perlu tahu terdapat pencabar berat terbuka yang boleh dipercayai pada kos 30% lebih rendah. Itu bukan bermaksud bertukar. Ini bermakna ketua perolehan anda boleh merujuk alternatif itu semasa berunding. Vendor bertindak balas terhadap alternatif yang boleh dipercayai, dan Nemotron 3 Ultra pada skala dan jejak pengedaran ini adalah boleh dipercayai.
Dorongan perusahaan autonomi SAP Sapphire 2026 dan keputusan tindanan Summit Snowflake kedua-duanya menandakan bahawa lapisan perisian perusahaan sedang mengeras di sekitar infrastruktur ejen dengan cepat. Lapisan model di bawah infrastruktur itu kini menjadi pembolehubah kos yang aktif. CTO yang menganggap perolehan model sebagai keputusan yang ditetapkan dan dilupakan akan menanggung perbezaan apabila pengiraan berubah.
Bacaan Berkaitan
- NVIDIA Membuka Platform Ejen: 17 Pengguna Perusahaan, Pelan Tindakan NemoClaw, dan Apa yang Sebenarnya Diwarisi CTO: Sudut platform dan tindanan daripada pengumuman GTC Taipei NVIDIA.
- Siri-H Opus 4.8 Anthropic: Keputusan Model CTO yang Tiba Sebelum Kitaran Perancangan Anda Seterusnya: Cara model frontier proprietari terkemuka memposisikan dirinya sejurus sebelum cabaran berat terbuka NVIDIA.
- AntiGravity 2 Google dan Gemini Enterprise Agent Platform: Keputusan Integrasi CTO: Di mana platform ejen perusahaan Google berada dalam landskap persaingan yang sama.
- Platform Ejen Windows Build 2026 Microsoft dan Kedai: Keputusan Seni Bina CTO: Cara strategi platform ejen Microsoft bersilang dengan pilihan perolehan model.
Soalan Lazim
Apakah NVIDIA Nemotron 3 Ultra dan bilakah ia tersedia?
Nemotron 3 Ultra adalah model berat terbuka campuran-pakar 550-bilion-parameter yang dibangunkan oleh NVIDIA. Ia mencapai ketersediaan umum pada 4 Jun 2026, diumumkan di GTC Taipei pada 31 Mei 2026. Pada GA ia akan tersedia melalui Hugging Face, ModelScope, OpenRouter, build.nvidia.com, perkhidmatan mikro NVIDIA NIM, dan Rakan Kongsi Awan NVIDIA.
Bagaimana kos Nemotron 3 Ultra berbanding dengan model frontier proprietari?
NVIDIA mendakwa Nemotron 3 Ultra memberikan sehingga 30% kos inferens lebih rendah dan sehingga 5x daya pengeluaran lebih pantas berbanding model frontier terbuka yang setanding untuk tugasan berasaskan ejen yang kompleks. Penanda aras bebas akan muncul selepas GA pada 4 Jun. Walaupun hasil dunia sebenar mendarat di bawah angka tajuk utama, perbezaan kos cukup besar untuk diambil kira dalam keputusan perolehan perusahaan, terutamanya untuk saluran ejen bervolum tinggi.
Haruskah CTO beralih daripada Anthropic atau OpenAI kepada Nemotron 3 Ultra?
Kebanyakan CTO perusahaan tidak akan membuat peralihan penuh pada 2026. Laluan yang lebih biasa adalah kedudukan tulang belakang hibrid: menggunakan Nemotron 3 Ultra untuk panggilan ejen bervolum tinggi dan berisiko rendah sambil mengekalkan model frontier proprietari untuk penaakulan kompleks, interaksi berhadapan pelanggan, dan beban kerja terkawal. Prasyarat utama adalah memetakan kos inferens semasa mengikut jenis beban kerja supaya anda tahu panggilan mana yang merupakan calon untuk model berat terbuka yang lebih murah.
Apakah risiko yang diperkenalkan oleh model berat terbuka seperti Nemotron 3 Ultra?
Risiko utama adalah tanggungjawab penalaan halus (pasukan anda memiliki kemas kini penjajaran keselamatan, bukan vendor), liputan jejak audit (anda membina dan menyelenggara infrastruktur penversiaan dan pengelogan keputusan), peningkatan sokongan (tiada SLA vendor untuk insiden produksi), dan pengerasan keselamatan (masa jalan OpenShell berada dalam pratayangan awal, belum bersedia untuk produksi pada GA). Tiada satu pun daripada ini tidak memenuhi syarat, tetapi setiap satu memerlukan pemilik yang dinamakan dalam pasukan kejuruteraan atau ML anda sebelum anda boleh menjalankan Nemotron 3 Ultra dalam saluran ejen produksi.
Sumber: NVIDIA Newsroom (GTC Taipei, 31 Mei 2026). Liputan: SiliconANGLE.

Co-Founder, Rework.com
On this page
- Apa yang Sebenarnya NVIDIA Hantar di GTC Taipei
- Mengapa Inferens 30 Peratus Lebih Rendah Mengubah Pengiraan Model Frontier untuk Beban Kerja Ejen
- Tiga Kedudukan Perolehan yang Akan Dipilih CTO Menjelang Q3
- Profil Risiko Berat Terbuka yang Masih Perlu Anda Tanggung
- Apa yang Perlu Dilakukan Minggu Ini
- Bacaan Berkaitan
- Soalan Lazim