La corsa globale all’intelligenza artificiale multimodale sta ridefinendo il concetto stesso di infrastruttura digitale. I tradizionali data center progettati per archiviare dati e servire applicazioni cloud vengono sostituiti da sistemi capaci di produrre intelligenza continua, addestrare modelli di dimensioni senza precedenti e gestire inferenza distribuita in tempo reale. In questo scenario NVIDIA e Google stanno imponendo una nuova architettura industriale basata su potenza computazionale, reti ottiche ultra veloci, acceleratori AI e ottimizzazione energetica estrema. Le nuove piattaforme non vengono più misurate soltanto in FLOPS o capacità storage, ma in token prodotti per watt, throughput inferenziale, latenza prevedibile e resilienza autonoma. Il risultato è la nascita delle cosiddette AI Factories, fabbriche di intelligenza progettate per sostenere modelli multimodali che spostano terabyte di pesi e sincronizzano centinaia di migliaia di acceleratori in tempo reale.
Cosa leggere
NVIDIA trasforma i data center in AI Factories sempre attive
NVIDIA descrive le nuove AI Factories come una categoria completamente diversa rispetto ai data center tradizionali. Queste infrastrutture non immagazzinano semplicemente dati o applicazioni, ma convertono energia in output cognitivo continuo sotto forma di token generati dai modelli di ragionamento. L’economia dell’infrastruttura cambia radicalmente: le metriche principali diventano token al secondo, token per watt, costo per token, uptime e utilizzo dell’hardware. Ogni componente viene ottimizzato per mantenere costante la produzione di intelligenza artificiale in tempo reale. Le AI Factories sincronizzano enormi pool di GPU, networking, memoria HBM, storage e sistemi di raffreddamento per alimentare workload agentici permanenti. I modelli non rispondono più soltanto a prompt statici ma orchestrano agenti autonomi che pianificano, cercano informazioni, generano codice, utilizzano strumenti e creano sub-agenti specializzati. Questo porta a carichi computazionali molto più lunghi, profondi e imprevedibili rispetto all’inferenza classica dei chatbot di prima generazione. NVIDIA sostiene che l’IA sia ormai una nuova infrastruttura critica paragonabile a energia, telecomunicazioni e trasporto strategico.
Blackwell Ultra ridefinisce il costo per token
Il cuore tecnologico delle nuove AI Factories è rappresentato dall’architettura Blackwell Ultra, evoluzione della piattaforma Hopper progettata per massimizzare throughput e performance energetica. NVIDIA afferma che il sistema GB300 NVL72 riesca a generare fino a 50 volte più token per megawatt rispetto alle generazioni precedenti, riducendo contemporaneamente del 35 percento il costo per token. Questo aspetto è cruciale perché il futuro dell’IA dipende dalla sostenibilità economica dell’inferenza continua. Modelli multimodali e agentici richiedono infatti enormi quantità di memoria, banda e potenza elettrica. Il vantaggio competitivo non deriva più soltanto dalla dimensione del modello ma dalla capacità di produrre ragionamento a basso costo energetico. NVIDIA integra quindi hardware e software attraverso una codifica estrema dell’intera pila tecnologica. Networking, storage, sistemi liquid-cooled, orchestrazione e framework inferenziali vengono progettati come un unico ecosistema coordinato. Il framework Dynamo ottimizza inferenza massiva e ragionamento a lungo contesto, mentre la futura piattaforma Vera Rubin promette ulteriori salti nelle prestazioni per watt grazie all’architettura LPX. Le AI Factories diventano così impianti industriali dedicati alla produzione continua di intelligenza computazionale.
Google ripensa il data center come un computer distribuito

Parallelamente Google sta ridefinendo l’architettura delle proprie infrastrutture seguendo la filosofia campus as a computer. In questo modello il singolo data center perde centralità a favore di un ecosistema distribuito composto da domini di rete indipendenti e altamente specializzati. Google separa infatti la rete in tre componenti fondamentali: il dominio scale-up intra-pod, il fabric east-west dedicato agli acceleratori e la rete frontend Jupiter per traffico nord-sud. Questa segmentazione permette evoluzione indipendente dei diversi livelli della rete e maggiore velocità nell’introduzione di innovazioni. Al centro della nuova architettura compare il Virgo Network, fabric scale-out progettato per collegare enormi cluster TPU con topologie flat non bloccanti. Virgo utilizza switch high-radix e architetture multi-planari per offrire banda di bisezione massiva e isolamento dei domini di controllo. Il sistema collega fino a 134.000 chip TPU 8t con una banda non bloccante di 47 petabit al secondo. Ogni acceleratore TPU riceve fino a quattro volte la banda disponibile nella generazione precedente, mentre la latenza del fabric si riduce del 40 percento.
Virgo Network punta alla scalabilità quasi infinita

Il Virgo Network rappresenta probabilmente uno dei più avanzati fabric AI mai progettati per ambienti hyperscale. Integrato con i framework Pathways e JAX, Virgo consente una scalabilità quasi lineare fino a un milione di chip TPU 8t all’interno di un singolo cluster logico distribuito. Questo livello di scaling è necessario perché l’addestramento dei moderni modelli multimodali richiede trasferimenti continui di pesi giganteschi e sincronizzazione millisecondo per millisecondo tra migliaia di acceleratori.

Virgo implementa sistemi autonomi di rilevamento anomalie e gestione degli hang per identificare rapidamente guasti hardware, isolare istanze difettose e ripristinare workload tramite checkpoint automatici. La telemetria ad alta risoluzione monitora micro-burst di traffico sub-millisecondo e ottimizza il goodput complessivo riducendo stragglers e colli di bottiglia. Google costruisce così una rete capace di mantenere prestazioni prevedibili anche sotto carichi AI estremi. La resilienza non viene più considerata un elemento accessorio ma parte integrante della progettazione architetturale dell’intero fabric.
Le reti WAN diventano AI-native

L’evoluzione dell’IA multimodale non riguarda soltanto il data center interno ma anche le reti WAN globali. Google ha infatti trasformato la propria dorsale planetaria in un’infrastruttura AI-native capace di sostenere trasferimenti petabit tra regioni cloud, edge e campus distribuiti. La rete globale di Google supera oggi dieci milioni di chilometri di fibra terrestre e sottomarina e collega oltre 43 regioni cloud con più di 200 location edge. Il traffico WAN è aumentato di dieci volte tra il 2020 e il 2025, spinto dalla crescita dei workload AI distribuiti. Per sostenere questa pressione Google implementa una rete multi-shard globale che separa piano dati, controllo e gestione per garantire isolamento e scalabilità orizzontale. L’AI-native Cloud Interconnect introduce collegamenti da 400 gigabit al secondo che scalano fino a 3,2 terabit al secondo con capacità complessive petabit. Questo riduce drasticamente il tempo necessario per trasferire petabyte di dati e pesi modellistici tra cloud e data center privati. Secondo Google, il trasferimento di un petabyte passa da oltre 22 ore su rete 100G a meno di un’ora su connessioni 3,2T.
L’era dei modelli multimodali impone nuove architetture

Le innovazioni introdotte da NVIDIA e Google nascono da una trasformazione fondamentale dei workload AI contemporanei. I moderni modelli multimodali gestiscono testo, immagini, video, audio, simulazioni fisiche e agenti autonomi contemporaneamente. Questo comporta esigenze completamente diverse rispetto ai carichi cloud tradizionali. I modelli devono sincronizzare enormi volumi di pesi durante l’addestramento distribuito e servire inferenza a bassa latenza per milioni di utenti simultanei. Le reti devono quindi affrontare burst sincronizzati al millisecondo, banda esponenziale e latenza tail estremamente ridotta. Google distribuisce workload AI su campus vicini a fonti energetiche sostenibili per costruire pool di hypercomputing geografici che superano i limiti fisici del singolo data center. NVIDIA invece ottimizza l’intera catena hardware-software per mantenere il massimo utilizzo delle GPU anche in presenza di workload agentici imprevedibili. Entrambe le aziende convergono su una visione comune: il data center del futuro non sarà più uno spazio di archiviazione ma una fabbrica computazionale capace di produrre intelligenza continua in tempo reale.
Performance per watt come nuova misura geopolitica

Uno degli aspetti più importanti di questa trasformazione riguarda la nascita della performance per watt come parametro strategico e geopolitico. NVIDIA misura il successo delle proprie AI Factories in token prodotti per unità energetica, mentre Google valuta le proprie reti in termini di banda non bloccante e latenza minima per TPU. In entrambi i casi, il vero obiettivo è massimizzare la produzione di intelligenza utilizzando il minimo envelope energetico possibile.
Questo cambia profondamente la competizione tecnologica globale. Le nazioni che riescono a costruire infrastrutture AI efficienti dal punto di vista energetico ottengono vantaggio economico, autonomia strategica e controllo sui dati. NVIDIA sostiene apertamente che ogni Paese debba sviluppare proprie AI Factories per mantenere sovranità tecnologica e indipendenza nell’era dell’intelligenza artificiale. Le fabbriche AI diventano così infrastrutture critiche paragonabili a centrali elettriche, reti di telecomunicazione e porti strategici.
Sovranità dei dati e infrastrutture nazionali AI
Il tema della sovranità dei dati emerge in modo centrale nelle strategie di entrambe le aziende. NVIDIA promuove reference design come DSX per consentire a governi e imprese di costruire AI Factories proprietarie, mentre Google espande le capacità del Cloud Interconnect per facilitare integrazione sicura tra cloud pubblico e data center privati. Le organizzazioni possono così mantenere modelli, dati sensibili e workload strategici sotto controllo diretto pur beneficiando della scalabilità delle infrastrutture hyperscale. NVIDIA integra inoltre strumenti di simulazione tramite Omniverse, creando digital twin completi delle future AI Factories prima ancora della costruzione fisica. Questo permette di ottimizzare progettazione energetica, raffreddamento, networking e layout hardware anticipando colli di bottiglia e inefficienze operative. Le AI Factories non sono quindi soltanto cluster GPU ma ecosistemi industriali progettati scientificamente per produrre intelligenza continua.
Hardware e software vengono codificati insieme
Sia NVIDIA sia Google stanno dimostrando che l’era dell’IA richiede una codifica strettissima tra hardware e software. NVIDIA integra compute accelerato, networking ad alta velocità, liquid cooling e orchestrazione inferenziale in un’unica piattaforma coordinata. Google costruisce invece reti AI-native basate su switch high-radix, topologie flat e telemetria sub-millisecondo integrate direttamente con TPU e framework software. Questa convergenza elimina progressivamente la distinzione classica tra infrastruttura fisica e livello applicativo. I modelli AI vengono progettati tenendo conto delle caratteristiche del fabric di rete, mentre il networking evolve in funzione delle necessità dei modelli multimodali. Il risultato è una nuova generazione di infrastrutture computazionali dove ogni componente viene ottimizzato per sostenere throughput cognitivo continuo e resilienza automatica.
Le AI Factories diventano la nuova infrastruttura critica globale
La convergenza tra le AI Factories di NVIDIA e le reti hyperscale di Google segna il passaggio definitivo dall’era del cloud tradizionale a quella delle infrastrutture AI-native. I data center non sono più ambienti passivi dedicati allo storage ma sistemi industriali progettati per produrre ragionamento autonomo 24 ore su 24. Le aziende e le nazioni che controlleranno queste architetture disporranno non soltanto di potenza computazionale ma di una nuova forma di sovranità tecnologica. Token per watt, banda petabit, latenza prevedibile e resilienza autonoma diventano i nuovi parametri della competizione globale. Le infrastrutture AI del futuro non saranno giudicate per la quantità di dati immagazzinati ma per la capacità di generare intelligenza continua, distribuire modelli multimodali su scala planetaria e sostenere ecosistemi agentici sempre attivi.
Iscriviti alla Newsletter
Non perdere le analisi settimanali: Entra nella Matrice Digitale.
Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.









