OpenAI svela Jalapeno e Qualcomm sfida HBM con HBC per l'inferenza AI

📌 In Sintesi

OpenAI presenta Jalapeno, primo chip custom per inferenza AI sviluppato con Broadcom in nove mesi.
Qualcomm risponde con HBC, architettura near-memory pensata per ridurre consumi e colli di bottiglia.
AI250 arriverà con HBC Gen 1, mentre la roadmap Qualcomm punta ad AI300 con HBC Gen 2.

La corsa all’hardware per intelligenza artificiale entra in una nuova fase, dominata da chip proprietari, architetture di memoria più efficienti e piattaforme costruite su misura per l’inferenza dei grandi modelli linguistici. OpenAI ha presentato Jalapeno, il suo primo processore custom sviluppato con Broadcom per eseguire carichi LLM in produzione, segnando un passaggio strategico nella riduzione della dipendenza da acceleratori generalisti. Il chip nasce come ASIC ottimizzato per l’inferenza e il suo tape-out in nove mesi evidenzia il ruolo crescente della co-progettazione software-hardware e dell’uso degli stessi modelli AI nei processi di sviluppo dei semiconduttori. In parallelo, Qualcomm spinge sull’architettura HBC, acronimo di Hierarchical Block Cache, una soluzione near-memory destinata agli acceleratori AI250 e alla futura generazione AI300. Le due strategie seguono percorsi diversi ma convergono sullo stesso obiettivo: aumentare efficienza, scalabilità e controllo dell’infrastruttura AI in una fase in cui l’inferenza diventa il vero collo di bottiglia economico dei servizi generativi.

Cosa leggere

OpenAI entra nel silicio custom con Jalapeno

Il processore Jalapeno rappresenta il primo passo concreto di OpenAI verso una piattaforma hardware proprietaria per l’inferenza dei modelli linguistici. Il chip è stato sviluppato insieme a Broadcom, partner con forte esperienza nella progettazione di ASIC avanzati e nella realizzazione di piattaforme custom per hyperscaler e grandi operatori cloud. La scelta di puntare su un processore dedicato all’inferenza indica con chiarezza la direzione industriale dell’azienda: non limitarsi più all’ottimizzazione software dei modelli, ma controllare progressivamente anche l’infrastruttura fisica che esegue le richieste degli utenti. L’inferenza è infatti la fase più ricorrente e costosa nella vita operativa di un servizio come ChatGPT, perché ogni prompt, ogni risposta generata e ogni operazione agentica richiedono calcolo, memoria, larghezza di banda e consumi energetici. Un chip custom permette di ottimizzare questi elementi attorno ai carichi effettivi di OpenAI, evitando compromessi tipici delle GPU generaliste. Il tape-out in nove mesi è un dato rilevante perché i cicli di sviluppo dei semiconduttori avanzati richiedono normalmente anni tra definizione architetturale, validazione, implementazione fisica, verifica e preparazione alla produzione. In questo caso la collaborazione con Broadcom e l’uso di strumenti AI nel processo progettuale hanno compresso drasticamente i tempi, trasformando Jalapeno in un caso osservato con attenzione dall’intero settore.

Il ruolo di Broadcom nella piattaforma AI di OpenAI

OpenAI svela Jalapeno e Qualcomm sfida HBM con HBC per l'inferenza AI 7

La partnership con Broadcom è decisiva perché consente a OpenAI di accedere a competenze di silicon implementation, packaging, validazione e industrializzazione che difficilmente possono essere replicate internamente in tempi brevi. Broadcom opera da anni come fornitore chiave di soluzioni custom per grandi clienti cloud e ha maturato una posizione strategica nel mercato degli acceleratori AI progettati su specifiche dei committenti. Con Jalapeno, il rapporto non si limita alla fornitura di un componente, ma assume la forma di una co-progettazione profonda tra stack software, requisiti dei modelli e architettura fisica del chip. Questo modello è coerente con l’evoluzione del settore: i grandi player AI non vogliono più dipendere esclusivamente dalla disponibilità di GPU Nvidia, ma cercano piattaforme verticalmente integrate capaci di migliorare prestazioni per watt, prevedibilità della supply chain e controllo dei costi. Il programma di OpenAI non va quindi interpretato come un esperimento isolato, ma come l’avvio di una piattaforma multi-generazionale nella quale il chip diventa parte di un sistema più ampio composto da modelli, runtime, networking, memoria, data center e software di orchestrazione. Per Broadcom, il progetto rafforza il ruolo di partner privilegiato nella nuova generazione di infrastrutture AI custom, mentre per OpenAI offre una via concreta per scalare l’inferenza senza dipendere interamente dal mercato degli acceleratori standard.

Jalapeno punta all’inferenza dei modelli LLM

Il focus di Jalapeno è l’inferenza, cioè la fase in cui un modello già addestrato elabora input, genera token, gestisce contesto e restituisce risposte. Questa scelta è strategica perché l’addestramento resta concentrato in grandi cluster ad altissima intensità computazionale, mentre l’inferenza cresce in modo continuo con l’aumento degli utenti, delle sessioni, delle applicazioni integrate e dei workflow agentici. Ottimizzare l’inferenza significa ridurre il costo marginale di ogni richiesta e migliorare la sostenibilità economica dei servizi AI. Un ASIC dedicato può eliminare componenti non necessari, aumentare l’efficienza dei percorsi dati e adattare la microarchitettura ai pattern tipici dei transformer, come attenzione, gestione della KV cache, operazioni tensoriali e accessi ripetuti alla memoria. Il valore industriale non risiede soltanto nella potenza nominale, ma nella capacità di servire grandi volumi di richieste con consumi prevedibili, latenza contenuta e migliore densità per rack. In questo scenario, Jalapeno diventa una risposta al problema strutturale dell’AI generativa: i modelli crescono, gli utenti aumentano e il costo dell’inferenza rischia di diventare il principale limite alla scalabilità. La scelta di progettare silicio dedicato indica che OpenAI considera il controllo dell’hardware una componente centrale della propria competitività futura.

Il design reticle-sized spinge al limite l’integrazione del silicio

Uno degli elementi più discussi di Jalapeno riguarda la natura di ASIC di grandi dimensioni, indicato come chip vicino al limite del reticolo litografico. Un design reticle-sized sfrutta al massimo l’area disponibile in una singola esposizione litografica, consentendo di integrare più logica, più interconnessioni interne e più risorse dedicate al calcolo.

OpenAI svela Jalapeno e Qualcomm sfida HBM con HBC per l'inferenza AI 8

Questa scelta può offrire vantaggi significativi per carichi AI ad alta parallelizzazione, ma introduce anche vincoli importanti in termini di resa produttiva, distribuzione dell’alimentazione, dissipazione termica, verifica fisica e tolleranza ai difetti. Più un die è grande, più aumenta la probabilità che imperfezioni del wafer incidano sulla produzione utile. Per questo la progettazione di un ASIC di tali dimensioni richiede competenze avanzate nella gestione del layout, nella segmentazione funzionale e nella validazione dei blocchi critici. Broadcom porta in questo ambito un’esperienza industriale rilevante, mentre OpenAI contribuisce con la conoscenza dei propri carichi effettivi. Il risultato è un processore pensato non per coprire genericamente ogni workload, ma per massimizzare efficienza e throughput in scenari di inferenza su larga scala. In un mercato dominato da GPU sempre più potenti ma anche costose e contese, un chip custom di grandi dimensioni diventa una scelta di controllo strategico oltre che tecnologico.

Qualcomm sfida il paradigma HBM con l’architettura HBC

Annuncio

Mentre OpenAI lavora sul silicio custom, Qualcomm propone una strategia diversa, centrata sul problema della memoria. L’architettura HBC, o Hierarchical Block Cache, nasce per ridurre il collo di bottiglia tra calcolo e dati negli acceleratori AI destinati all’inferenza. Il settore ha puntato in larga parte sulle memorie HBM per garantire larghezza di banda elevata, ma questa scelta comporta costi, complessità di packaging, disponibilità limitata e consumi significativi. Qualcomm prova a rispondere con un approccio near-memory che punta a migliorare l’efficienza effettiva della larghezza di banda, avvicinando i dati alle unità di calcolo e organizzandoli in blocchi gerarchici. L’obiettivo è ridurre trasferimenti ridondanti, minimizzare il traffico verso memoria esterna e aumentare l’utilizzo reale dell’acceleratore. Nei carichi di inferenza, soprattutto con modelli di grandi dimensioni e contesti lunghi, la memoria pesa quanto il calcolo puro perché la generazione di token richiede continui accessi a pesi, cache e stati intermedi. HBC affronta proprio questa criticità: non promette soltanto più banda teorica, ma una gestione più efficiente dei dati necessari al modello. La roadmap di Qualcomm prevede l’arrivo di HBC Gen 1 con AI250 e una successiva evoluzione HBC Gen 2 associata alla generazione AI300.

AI250 introduce il near-memory computing nella roadmap Qualcomm

L’acceleratore AI250 è il punto di ingresso della nuova architettura HBC nella strategia data center di Qualcomm. L’azienda lo presenta come una piattaforma per inferenza AI capace di combinare memoria ad alta capacità, efficienza energetica e architettura near-memory. La scelta riflette una lettura precisa del mercato: non tutti i carichi AI richiedono la stessa struttura delle GPU progettate per addestramento massivo, e l’inferenza può beneficiare di soluzioni più specializzate, con migliore rapporto tra prestazioni, consumo e costo totale di proprietà. AI250 punta a offrire maggiore efficienza nell’accesso ai dati, riducendo il peso del movimento continuo tra acceleratore e memoria esterna.

OpenAI svela Jalapeno e Qualcomm sfida HBM con HBC per l'inferenza AI 9

Questo aspetto diventa particolarmente importante nei servizi generativi commerciali, dove l’obiettivo non è eseguire un singolo benchmark, ma sostenere milioni di richieste con latenza prevedibile e costi controllati. L’uso di una gerarchia di blocchi consente di sfruttare meglio località, riuso e organizzazione dei dati durante l’inferenza, migliorando l’efficienza del sistema nel suo complesso. Qualcomm non cerca quindi di replicare direttamente il modello HBM dominante, ma di costruire un’alternativa che valorizza memoria capiente, architettura specializzata e ottimizzazione del throughput reale. La disponibilità commerciale prevista per AI250 colloca la proposta in una finestra competitiva delicata, perché il mercato degli acceleratori AI evolve rapidamente e richiede roadmap credibili, supply chain stabile e software maturo.

HBC cambia il rapporto tra cache, memoria e calcolo

Il concetto di Hierarchical Block Cache introduce un modo diverso di pensare il flusso dei dati negli acceleratori AI. Nei sistemi tradizionali, la memoria viene spesso trattata come una risorsa esterna da interrogare continuamente, con costi energetici e latenza che crescono al crescere del modello. HBC prova invece a organizzare i dati in blocchi gerarchici vicini al calcolo, riducendo il volume di trasferimenti e migliorando l’efficienza della banda disponibile.

OpenAI svela Jalapeno e Qualcomm sfida HBM con HBC per l'inferenza AI 10

Questo è particolarmente rilevante per l’inferenza dei LLM, dove la generazione token-by-token produce pattern di accesso alla memoria molto diversi dall’addestramento batch. La KV cache, i pesi del modello e le strutture intermedie devono essere recuperati con continuità, e ogni inefficienza nella movimentazione dei dati si traduce in consumo energetico, latenza e costo operativo. Qualcomm prova a trasformare la memoria da vincolo passivo a componente attivo dell’architettura, avvicinandola alla logica di calcolo e sfruttando una gestione più intelligente dei blocchi. In termini industriali, questa scelta è importante perché sposta la competizione oltre la sola potenza di calcolo dichiarata. Il futuro degli acceleratori AI sarà determinato dalla capacità di bilanciare compute, memoria, rete, software e consumi. HBC si inserisce in questa tendenza, offrendo una possibile alternativa al dominio delle architetture basate esclusivamente su memoria HBM ad altissima banda.

La roadmap Qualcomm guarda oltre AI250 verso AI300

Le informazioni più solide sulla roadmap Qualcomm indicano una progressione da AI250 con HBC Gen 1 verso una generazione successiva AI300 basata su HBC Gen 2. Questa precisazione è importante perché alcune ricostruzioni citano sigle differenti, ma la linea documentata punta su una seconda fase evolutiva destinata a sistemi rack-scale più avanzati. AI300 dovrebbe combinare una nuova generazione dell’architettura HBC con soluzioni pensate per workload agentici, inferenza a bassa latenza e gestione di modelli sempre più complessi. Il riferimento agli agenti AI non è secondario: i sistemi agentici richiedono molte chiamate iterative, memoria contestuale, pianificazione, recupero di informazioni e interazione con strumenti esterni, generando un profilo di carico diverso dalla semplice generazione testuale. In questo contesto, l’efficienza della memoria diventa ancora più rilevante perché l’infrastruttura deve sostenere un numero elevato di operazioni coordinate senza esplodere in costi energetici. Qualcomm mira quindi a costruire una piattaforma che non si limiti a un singolo acceleratore, ma evolva verso rack completi ottimizzati per inferenza distribuita. La sfida sarà dimostrare che questa architettura può competere non soltanto nei dati dichiarati, ma anche in ecosistema software, disponibilità commerciale, integrazione cloud e supporto agli stack AI usati dai grandi clienti enterprise.

Due strategie diverse per ridurre il costo dell’inferenza AI

OpenAI e Qualcomm affrontano lo stesso problema da prospettive differenti. OpenAI sceglie il chip custom con Jalapeno, costruendo un acceleratore su misura per i propri modelli, il proprio traffico e la propria infrastruttura. Qualcomm lavora invece su un’architettura di memoria pensata per rendere più efficiente l’inferenza su piattaforme data center commerciali. Nel primo caso il vantaggio deriva dalla verticalizzazione: chi controlla modelli, software e hardware può ottimizzare l’intero stack. Nel secondo caso il valore sta nella possibilità di offrire un’alternativa più efficiente ai clienti che cercano capacità elevata e consumi inferiori rispetto alle soluzioni basate esclusivamente su HBM. Entrambe le strategie riconoscono che l’inferenza è diventata il centro economico dell’AI generativa. Addestrare modelli resta estremamente costoso, ma servire quei modelli a milioni di utenti ogni giorno impone un’altra scala di problemi: latenza, densità, consumo, disponibilità di memoria, costo per token e resilienza della supply chain. Jalapeno prova a rispondere con un ASIC proprietario ottimizzato a livello di workload. HBC risponde riducendo l’inefficienza del movimento dati. La convergenza è evidente: la prossima generazione di infrastrutture AI sarà meno generalista, più specializzata e sempre più costruita attorno a vincoli energetici e di memoria.

Il mercato degli acceleratori AI si sposta verso piattaforme verticali

La presentazione di Jalapeno e la roadmap HBC di Qualcomm mostrano che il mercato degli acceleratori AI sta superando la fase dominata dalla semplice disponibilità di GPU ad alte prestazioni. Gli operatori più esposti alla crescita dei carichi AI cercano piattaforme verticali, capaci di integrare chip, memoria, rete, software e data center in un’unica architettura economica. Nvidia resta il riferimento del settore, ma la pressione di hyperscaler, aziende AI-native e produttori di semiconduttori sta aprendo spazi per soluzioni custom. Google ha già consolidato le proprie TPU, Amazon sviluppa Trainium e Inferentia, Microsoft lavora su acceleratori proprietari e ora OpenAI entra direttamente nel silicio con il supporto di Broadcom. In parallelo, Qualcomm prova a differenziarsi non sul terreno dell’addestramento generalista, ma su quello dell’inferenza efficiente, dove la memoria e il costo per richiesta diventano variabili determinanti. Questa frammentazione non indica necessariamente la fine del dominio GPU, ma segnala una maturazione del mercato: l’AI non è più un carico sperimentale, bensì un’infrastruttura industriale da ottimizzare con la stessa disciplina dei grandi sistemi cloud. Chi riuscirà a ridurre il costo dell’inferenza senza sacrificare prestazioni e compatibilità software avrà un vantaggio decisivo nella prossima fase della competizione.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.