NVIDIA ridimensiona Rubin Ultra, Meta riutilizza la DDR4 per contenere i costi dell'AI

📌 In Sintesi

NVIDIA avrebbe abbandonato la GPU Rubin Ultra a quattro die per un progetto dual-GPU più semplice da produrre e raffreddare.
Meta introduce il chip Vistara, un controller CXL 2.0 che consente di riutilizzare memoria DDR4 nei nuovi server DDR5.
Le due strategie evidenziano come prestazioni, costi e sostenibilità stiano diventando centrali nello sviluppo delle infrastrutture AI.

La rapida espansione dell’intelligenza artificiale sta imponendo nuove sfide ai produttori di hardware e ai grandi operatori cloud. Se fino a pochi anni fa il principale obiettivo era aumentare semplicemente la potenza di calcolo, oggi entrano in gioco fattori come complessità produttiva, consumi energetici, disponibilità di memoria e costi dell’infrastruttura. Due notizie emerse nelle ultime ore descrivono perfettamente questo cambiamento. Da un lato NVIDIA avrebbe deciso di rivedere radicalmente il progetto della futura Rubin Ultra, rinunciando a una GPU a quattro die ritenuta troppo complessa da realizzare. Dall’altro Meta ha presentato un ASIC proprietario che permette di riutilizzare grandi quantità di memoria DDR4 all’interno di server di nuova generazione basati su DDR5, riducendo gli investimenti necessari per l’espansione dei data center dedicati all’AI.

Potresti non leggerci più: Seguici su Google ★

Cosa leggere

NVIDIA rivede Rubin Ultra e abbandona il progetto quad-die

NVIDIA ridimensiona Rubin Ultra, Meta riutilizza la DDR4 per contenere i costi dell'AI 7

Secondo le indiscrezioni provenienti dalla filiera produttiva, NVIDIA avrebbe cancellato il progetto originale della Rubin Ultra previsto per il 2027. L’architettura iniziale prevedeva un package composto da quattro die di grandi dimensioni collegati attraverso tecnologie di packaging avanzato e affiancati da sedici moduli HBM4E. Una configurazione di questo tipo avrebbe rappresentato uno dei processori grafici più complessi mai progettati, ma avrebbe anche imposto sfide notevoli dal punto di vista della produzione industriale. Gestire quattro chip vicini ai limiti del reticolo litografico significa infatti aumentare il rischio di difetti, ridurre le rese produttive e complicare sensibilmente l’assemblaggio del package. A questi aspetti si aggiunge la difficoltà di dissipare il calore generato da una simile concentrazione di transistor e memoria ad altissima banda passante.

Un design dual-GPU più semplice da produrre

La soluzione individuata da NVIDIA sarebbe quella di sostituire il progetto quad-die con una configurazione dual-GPU, probabilmente basata su due grandi chiplet. Pur rinunciando a parte delle prestazioni teoriche, questa scelta consentirebbe di semplificare il packaging, migliorare le rese produttive e ridurre il rischio di problemi termici. La nuova Rubin Ultra continuerebbe comunque a utilizzare memoria HBM4E, evoluzione dell’attuale HBM4, ma il numero di stack passerebbe da sedici a otto per package. Ciò comporterebbe un abbassamento del costo della singola GPU, anche se i clienti interessati a raggiungere la stessa capacità di calcolo complessiva potrebbero essere costretti ad acquistare un numero maggiore di acceleratori. NVIDIA sembra quindi confermare la propria strategia orientata ai sistemi rack-scale, nei quali le prestazioni dipendono sempre meno dalla singola GPU e sempre più dalla capacità di aggregare centinaia di acceleratori in un’unica infrastruttura raffreddata a liquido.

Le conseguenze sul mercato degli acceleratori AI

La revisione del progetto potrebbe avere effetti importanti sull’intero settore dell’hardware per l’intelligenza artificiale. Una Rubin Ultra meno ambiziosa potrebbe lasciare maggiore spazio ai futuri acceleratori concorrenti, come la famiglia AMD Instinct MI500, soprattutto negli scenari HPC e di addestramento dei grandi modelli linguistici. Allo stesso tempo, però, NVIDIA potrebbe compensare il minore numero di die con miglioramenti architetturali, interconnessioni più efficienti e ottimizzazioni software all’interno dell’ecosistema CUDA, che continua a rappresentare uno dei principali vantaggi competitivi dell’azienda. Anche il mercato della memoria ad alta larghezza di banda potrebbe risentire della scelta, poiché un numero inferiore di moduli HBM4E per acceleratore modificherebbe la domanda prevista dai produttori di memoria.

Meta punta sul riutilizzo della memoria DDR4

Annuncio

NVIDIA ridimensiona Rubin Ultra, Meta riutilizza la DDR4 per contenere i costi dell'AI 8

Mentre NVIDIA affronta problemi di progettazione dei futuri acceleratori, Meta concentra l’attenzione sull’ottimizzazione economica dei propri data center. L’azienda ha sviluppato un ASIC denominato Vistara, progettato per consentire il riutilizzo della memoria DDR4 proveniente da server dismessi all’interno di nuove piattaforme basate esclusivamente su DDR5. Il componente opera come memory expander CXL 2.0 Type 3 e comunica con il processore attraverso un collegamento PCI Express 5.0, trasformando moduli DDR4 standard in una risorsa di memoria aggiuntiva perfettamente integrata nel sistema. La soluzione permette di recuperare hardware ancora perfettamente funzionante invece di sostituirlo integralmente con costosi moduli DDR5, il cui prezzo continua a rimanere elevato per effetto della crescente domanda legata ai server AI.

Come funziona il chip Vistara

NVIDIA ridimensiona Rubin Ultra, Meta riutilizza la DDR4 per contenere i costi dell'AI 9

Il progetto di Meta sfrutta l’interfaccia Compute Express Link (CXL) per creare un secondo livello di memoria accessibile dal sistema operativo. Ogni ASIC Vistara gestisce due canali DDR4 indipendenti e può arrivare fino a 256 GB di capacità, anche se nelle configurazioni attuali vengono generalmente utilizzati 128 GB per dispositivo. Nei server sperimentali la memoria DDR5-6400 locale raggiunge 768 GB, mentre ulteriori 256 GB di DDR4 vengono collegati tramite CXL, portando la memoria totale del nodo a circa 1 terabyte.

NVIDIA ridimensiona Rubin Ultra, Meta riutilizza la DDR4 per contenere i costi dell'AI 10

Il sistema operativo Linux vede la memoria collegata tramite CXL come un nodo NUMA separato e sposta automaticamente i dati meno utilizzati verso la DDR4, lasciando sulla memoria DDR5 più veloce le informazioni che richiedono la massima banda disponibile. Questa gestione gerarchica consente di sfruttare memoria già ammortizzata senza penalizzare in modo significativo le prestazioni delle applicazioni AI.

Ridurre i costi diventa una priorità strategica

L’iniziativa di Meta riflette un cambiamento sempre più evidente tra gli hyperscaler. Con investimenti annuali nell’intelligenza artificiale che raggiungono decine di miliardi di dollari, ogni componente dell’infrastruttura viene analizzato per individuare possibili risparmi. Recuperare memoria DDR4 ancora funzionante significa ridurre la dipendenza dal mercato della DDR5, caratterizzato da prezzi elevati e disponibilità limitata. Parallelamente, la scelta di NVIDIA di semplificare Rubin Ultra dimostra che anche i leader del mercato devono confrontarsi con limiti fisici e industriali sempre più stringenti. La prossima generazione di infrastrutture AI sarà quindi definita non soltanto dalla potenza dei nuovi acceleratori, ma anche dalla capacità di produrli in modo sostenibile, raffreddarli efficacemente e contenere il costo complessivo dei data center. Prestazioni e ottimizzazione economica stanno diventando due facce della stessa strategia, destinata a influenzare l’intera evoluzione dell’ecosistema hardware per l’intelligenza artificiale.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.