Intelligenza Artificiale / 17 Giugno 2026 / Di Redazione

Nvidia Blackwell frantuma i record: ora l’IA agentica diventa industriale (e consuma 20 volte meno)

Nvidia consolida la propria posizione nell’infrastruttura globale per l’intelligenza artificiale con una serie di risultati e annunci che spostano il baricentro dall’AI generativa sperimentale alla produzione agentica su larga scala. L’architettura Blackwell, nelle configurazioni GB200 NVL72 e GB300 NVL72, ha stabilito nuovi record nei benchmark MLPerf Training 6.0 e nei test AgentPerf sviluppati da Artificial Analysis, dimostrando non solo maggiore velocità nell’addestramento dei modelli di frontiera ma anche un’efficienza superiore nell’esecuzione di agenti AI concorrenti. Il quadro tecnico viene completato dall’espansione delle interconnessioni ottiche con Coherent in Texas, dall’arrivo dell’HPE AI Factory per deployment agentici on-premise e dalla beta pubblica di NVIDIA XR AI, libreria pensata per portare agenti multimodali in ambienti di realtà estesa, fabbriche, laboratori e workflow industriali. Il messaggio industriale è chiaro: Nvidia non vende più soltanto GPU, ma una piattaforma completa che combina silicio, networking, software, sicurezza, inferenza agentica e strumenti di sviluppo per rendere sostenibile l’AI di nuova generazione.

Potresti non leggerci più: Seguici su Google ★

Cosa leggere

Blackwell stabilisce nuovi record in MLPerf Training 6.0

Annuncio

Nvidia Blackwell frantuma i record: ora l'IA agentica diventa industriale (e consuma 20 volte meno) 7

Nel benchmark MLPerf Training 6.0, Blackwell ha ottenuto il tempo di addestramento più basso su tutti e sette i workload presentati, confermando una superiorità trasversale sia nei modelli tradizionali sia nei nuovi carichi basati su architetture mixture-of-experts (MoE). La suite introduce due workload particolarmente rilevanti, DeepSeek-V3 671B e GPT-OSS-20B, pensati per misurare la capacità delle piattaforme AI di gestire modelli di frontiera con comunicazioni complesse tra esperti, memoria distribuita e sincronizzazione su larga scala.

Nvidia Blackwell frantuma i record: ora l'IA agentica diventa industriale (e consuma 20 volte meno) 8

Nvidia è stata l’unica azienda a presentare risultati su tutti i benchmark e ha raggiunto la scala massima con 8.192 GPU GB200 NVL72 su DeepSeek-V3 671B, il workload più grande della suite, mentre su Llama 3.1 405B ha scalato fino a 5.120 GPU. Il risultato deriva da un codesign profondo tra acceleratori, interconnessioni, memoria e software di training, con i fifth-generation NVIDIA NVLink Switches capaci di collegare le 72 GPU di un rack NVL72 in un unico pool di calcolo e memoria ad altissima larghezza di banda.

Nvidia Blackwell frantuma i record: ora l'IA agentica diventa industriale (e consuma 20 volte meno) 9

Questa architettura affronta uno dei problemi più difficili dell’addestramento MoE, cioè la comunicazione all-to-all tra esperti distribuiti, riducendo colli di bottiglia che su cluster meno integrati possono diventare dominanti rispetto al calcolo puro.

GB300 NVL72 accelera training e precisione ridotta

La configurazione GB300 NVL72 mostra un ulteriore salto rispetto a GB200 NVL72, con un vantaggio fino a 1,6 volte alla stessa scala grazie a maggiore densità di calcolo, capacità di memoria ampliata e limite di potenza più elevato. L’ottimizzazione non riguarda soltanto la forza bruta delle GPU, ma anche l’uso di precisioni numeriche più efficienti come NVFP4, che consentono di aumentare il throughput mantenendo i requisiti di accuratezza richiesti nei workload di pretraining e fine-tuning.

Nvidia Blackwell frantuma i record: ora l'IA agentica diventa industriale (e consuma 20 volte meno) 10

Questa combinazione diventa decisiva nei modelli di frontiera, dove ogni incremento di efficienza nella rappresentazione numerica può tradursi in risparmi enormi su tempi di addestramento, consumi energetici e costi infrastrutturali. Il punto strategico è che Blackwell non si limita a eseguire più operazioni al secondo, ma riduce l’attrito complessivo dell’intero ciclo di training, dalla comunicazione tra GPU alla gestione della memoria, fino alla stabilità del job in condizioni di scala estrema. Nei cluster con migliaia di acceleratori, infatti, anche una piccola inefficienza diventa un costo operativo enorme, mentre un piccolo guasto può compromettere settimane di elaborazione. Per questo la piattaforma integra meccanismi di affidabilità e resilienza direttamente nell’architettura.

Resilienza e self-healing diventano requisiti dell’AI su larga scala

L’affidabilità è uno degli aspetti più rilevanti dei risultati MLPerf di Blackwell, perché l’addestramento di modelli di frontiera richiede job che possono durare settimane o mesi e coinvolgere migliaia di GPU contemporaneamente. I chip Blackwell superano oltre 30 fasi di test di produzione e integrano un Reliability, Availability and Serviceability Engine capace di monitorare quasi l’intero chip, individuare anomalie e attivare meccanismi di self-healing che instradano i workload intorno ai guasti senza interrompere l’esecuzione. A livello di rete, Spectrum-X Ethernet può deviare collegamenti falliti in millisecondi, mentre NVIDIA Resiliency Extension gestisce rilevamento dei fault e ripristino da checkpoint recenti, evitando riavvii completi di job di addestramento estremamente costosi. Questo approccio mostra come l’AI industriale non possa più essere valutata soltanto in termini di prestazioni di picco. La metrica reale diventa la capacità di mantenere prestazioni elevate in modo continuo, prevedibile e recuperabile, anche quando componenti hardware o collegamenti di rete mostrano degradazioni. In infrastrutture hyperscale, la resilienza è ormai parte integrante della performance.

AgentPerf misura l’AI agentica oltre la singola chiamata LLM

I nuovi benchmark AgentPerf di Artificial Analysis introducono una metrica più vicina al modo in cui le aziende stanno realmente sperimentando gli agenti AI. A differenza dei test tradizionali, che spesso misurano una singola chiamata a un modello linguistico, AgentPerf valuta workload agentici composti da traiettorie complete di agenti di coding tratte da repository pubblici in oltre 12 linguaggi di programmazione. Queste traiettorie includono decine o centinaia di chiamate a modelli LLM, uso di strumenti esterni, crescita progressiva del contesto e ritardi rappresentativi di ambienti di produzione. In questo scenario la piattaforma GB300 NVL72 ha ottenuto le prestazioni più alte, eseguendo fino a 20 volte più agenti per megawatt rispetto a un sistema HGX H200 basato su Hopper. Il vantaggio resta valido sia a 20 token al secondo sia a 60 token al secondo per agente, due soglie rilevanti perché misurano livelli diversi di reattività percepita e produttività. La metrica è particolarmente importante per le imprese che vogliono passare da demo di agenti AI a deployment reali, dove contano numero di sessioni concorrenti, costo per task, consumo per watt e rispetto degli obiettivi di servizio.

TensorRT LLM e CUDA ottimizzano gli agenti concorrenti

La superiorità di Blackwell nei workload AgentPerf dipende dalla combinazione tra architettura rack-scale, ottimizzazioni software e capacità di gestire modelli MoE con elevata concorrenza. Il sistema GB300 NVL72 collega 72 GPU in un’unica piattaforma, permettendo una distribuzione efficiente di modelli di frontiera come DeepSeek V4 Pro. I kernel CUDA sovrappongono comunicazione e calcolo, assorbendo i costi di coordinamento tra esperti invece di aggiungerli alla latenza percepita dagli agenti. TensorRT LLM mantiene l’efficienza anche quando cresce il numero di sessioni agentiche simultanee, separando la fase di elaborazione degli input dalla generazione degli output e consentendo ottimizzazioni indipendenti. Questo dettaglio è decisivo perché gli agenti non producono carichi uniformi: alternano prompt lunghi, tool call, risposte brevi, lettura di contesto e generazione iterativa. Una piattaforma realmente agentica deve quindi sostenere workload irregolari senza degradare drasticamente throughput e latenza. Nvidia utilizza AgentPerf per mostrare che il parametro chiave non è più solo quanti token al secondo produce una GPU, ma quanti agenti utili possono essere eseguiti per megawatt, per dollaro e per rack.

Coherent e Nvidia spingono le interconnessioni ottiche in Texas

La corsa all’AI agentica richiede infrastrutture di connettività capaci di sostenere cluster sempre più grandi senza dissipare energia in ritiming, condizionamento del segnale e collegamenti elettrici inefficaci su lunghe distanze. Per questo Nvidia ha rafforzato la collaborazione pluriennale con Coherent, investendo 2 miliardi di dollari in ricerca, sviluppo e capacità produttiva statunitense. Coherent ha avviato l’espansione dello stabilimento di Sherman, Texas, che ospita la prima fabbrica al mondo in volume di wafer di indio fosfuro da 6 pollici. L’espansione, sostenuta anche da un grant CHIPS Act da 50 milioni di dollari, aumenterà la produzione di laser, transceiver ottici e moduli pluggable utilizzati negli switch NVIDIA Spectrum-X Photonics e Quantum-X Photonics.

Le interconnessioni ottiche basate su InP consentono di trasmettere dati alla velocità della luce su distanze di centinaia o migliaia di piedi, dove il rame richiederebbe apparati aggiuntivi ad alto consumo. L’ottica introduce un costo energetico iniziale per la conversione elettrico-luce, ma rende quasi gratuita la distanza in termini di potenza, permettendo ai data center di destinare più energia al calcolo invece che al mantenimento del segnale.

Vera Rubin Ultra NVL576 richiede networking fotonico

Il passaggio verso sistemi come Vera Rubin Ultra NVL576, progettati per collegare 576 GPU su otto rack, rende il networking ottico non più opzionale ma strutturale. A questa scala, il rame non può sostenere con la stessa efficienza energetica e con la stessa latenza il volume di comunicazioni richiesto da modelli di frontiera, training distribuito e inferenza agentica concorrente. La piattaforma fotonica di Nvidia punta a risolvere il problema direttamente a livello di data center, portando l’interconnessione ottica dentro switch e architetture rack-scale. Il vantaggio non riguarda soltanto la velocità, ma la possibilità di progettare cluster più grandi senza moltiplicare in modo lineare consumi, complessità e dissipazione. In una fase in cui l’AI è sempre più vincolata da potenza elettrica disponibile, densità termica e capacità di rete, l’investimento in ottica diventa parte della strategia complessiva per aumentare il lavoro utile per watt. La partnership con Coherent rafforza inoltre la dimensione industriale statunitense della filiera AI, collegando produzione avanzata di semiconduttori fotonici, supply chain nazionale e infrastrutture per hyperscaler.

HPE AI Factory porta l’AI agentica on-premise

La collaborazione tra Nvidia e Hewlett Packard Enterprise estende il concetto di AI Factory all’era degli agenti autonomi. HPE AI Factory viene proposta come infrastruttura pre-assemblata e co-ingegnerizzata per permettere alle grandi aziende di distribuire elaborazione agentica on-premise in modo sicuro, scalabile e governabile. La piattaforma include sistemi rack-scale come NVIDIA Vera Rubin NVL72, pensati per modelli oltre il trilione di parametri, e integra Confidential Computing full-stack su ogni chip. La CPU NVIDIA Vera, progettata specificamente per scenari agentici, gestisce tool call, orchestrazione e processing dati real-time con latenza deterministica e bassa. Il NVIDIA Agent Toolkit fornisce uno strato operativo per monitorare il comportamento degli agenti, applicare policy di governance e costruire agenti in sicurezza. A questo si affiancano HPE Private Cloud AI, con registrazione locale sicura degli agenti e approvazione centralizzata di modelli, skill e strumenti, e HPE Zerto, che rileva azioni anomale e consente il ripristino a uno stato pulito tramite protezione continua dei dati. La proposta è pensata per organizzazioni che non possono affidare workload sensibili esclusivamente al cloud pubblico.

InfiniBand, Spectrum-X e governance definiscono la fabbrica agentica

Le configurazioni HPE AI Factory supportano sia InfiniBand Quantum-X800 sia Spectrum-X Ethernet, offrendo un miglioramento di 1,6 volte nelle prestazioni di networking rispetto a Ethernet generico. Questa scelta riflette l’esigenza di portare nei data center aziendali tecnologie finora tipiche degli hyperscaler, mantenendo però controllo locale su dati, modelli, policy e ambienti regolati. Le varianti disponibili includono AI Factory at Scale, Sovereign AI Factory e Private Cloud AI, mentre i sistemi basati su Vera CPU sono attesi nel 2027. Il valore strategico sta nel trasformare l’AI agentica da progetto isolato a infrastruttura IT governabile, con registri, approvazioni, sicurezza, monitoraggio e capacità di rollback. Gli agenti aziendali non possono infatti essere trattati come semplici chatbot: possono invocare tool, accedere a dati, modificare workflow e produrre effetti operativi. Per questo servono controlli nativi sull’intero ciclo di vita, dalla costruzione del modello alla sua esecuzione, fino alla verifica delle azioni compiute in produzione.

NVIDIA XR AI porta agenti multimodali in ambienti fisici

Con la beta pubblica di NVIDIA XR AI, l’azienda porta l’infrastruttura agentica anche nel mondo della realtà estesa e dell’edge computing. La libreria consente agli sviluppatori di costruire agenti AI multimodali per occhiali AR, dispositivi XR e ambienti fisici in cui servono comprensione visiva, ragionamento contestuale e interazione con strumenti aziendali. La piattaforma integra input real-world come video, audio, profondità, pose e sensori con modelli di ragionamento come Nemotron e Cosmos Reason, strumenti come Metropolis per il video understanding, NeMo Retriever per il retrieval enterprise e servizi di orchestrazione tramite NeMo Agent Toolkit. Gli agenti possono percepire l’ambiente, recuperare conoscenza aziendale, ragionare sulle azioni da compiere e suggerire istruzioni con latenza sufficientemente bassa da non disturbare il lavoro dell’utente. I casi d’uso includono assistenza hands-free per ingegneri di fabbrica, supporto a workflow sperimentali nei laboratori di ricerca, guida contestuale in sala operatoria e acquisizione di informazioni da review di design e digital twin.

DGX Spark, RTX PRO e edge accelerato chiudono il ciclo agentico

L’esecuzione degli agenti XR AI avviene su piattaforme accelerate edge come DGX Spark, DGX Station e RTX PRO, portando l’AI generativa in tempo reale dentro ambienti industriali, sanitari e di ricerca. Il punto non è soltanto creare interfacce più immersive, ma integrare agenti capaci di agire in spazi fisici dove contesto, percezione e latenza determinano l’utilità del sistema. In fabbrica un agente deve riconoscere componenti, verificare procedure e recuperare documentazione tecnica senza interrompere l’operatore. In laboratorio deve seguire esperimenti, ricordare passaggi, collegare osservazioni e fornire supporto contestuale. In ambito medico deve assistere senza distrarre e senza compromettere sicurezza e governance dei dati. NVIDIA XR AI estende quindi la strategia agentica oltre il data center, collegando accelerazione locale, modelli multimodali e toolkit di orchestrazione in una piattaforma pensata per ambienti ad alta intensità operativa.

Nvidia costruisce l’infrastruttura completa per l’AI agentica

I risultati di Blackwell in MLPerf Training 6.0 e AgentPerf, insieme agli annunci su ottica, HPE AI Factory e NVIDIA XR AI, delineano una strategia integrata per portare l’AI agentica dalla sperimentazione alla produzione industriale. Nvidia dimostra prestazioni record nel training, efficienza superiore nell’esecuzione di agenti concorrenti, networking progettato per cluster multi-rack, factory on-premise per aziende regolamentate e strumenti edge per agenti multimodali negli ambienti fisici. Il valore competitivo non risiede più soltanto nella singola GPU, ma nell’intera piattaforma che collega GPU Blackwell, NVLink, Spectrum-X, Quantum-X, TensorRT LLM, CUDA, Agent Toolkit, XR AI e infrastrutture co-ingegnerizzate con partner come HPE e Coherent. Per le imprese che vogliono superare la fase dei proof-of-concept, la questione centrale diventa misurare quanta attività agentica utile possa essere eseguita con vincoli realistici di potenza, costo, sicurezza e latenza. Nvidia sta rispondendo a questa domanda con un ecosistema verticale che punta a controllare ogni livello dell’AI industriale, dal wafer fotonico al rack, dal modello al tool call, fino all’agente che opera in tempo reale dentro fabbriche, data center e laboratori.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.