Sommario
Nel mondo dell’IA generativa, la potenza di calcolo è fondamentale. Kneron, un’azienda leader nel settore dell’AI edge, ha annunciato che spedirà i suoi nuovi chip NPU entro la fine dell’anno.
Dettagli sul nuovo chip NPU KL730
Kneron ha dichiarato che i chip NPU, denominati KL730, renderanno più economico l’esecuzione di grandi modelli linguistici (LLM) poiché il processore è specificamente progettato per applicazioni di apprendimento automatico e IA. Il KL730 rappresenta la generazione successiva rispetto ai processori precedenti di Kneron. Nel 2021, l’azienda ha lanciato i chip KL530 che supportavano modelli transformer alla base di alcuni modelli di IA generativa.
Albert Liu, CEO di Kneron, ha dichiarato a The Verge che i chip NPU sono specificamente progettati per l’IA e non sono una forzatura di qualcosa originariamente creato per la grafica, una critica velata al leader del settore dei chip per IA, Nvidia. Liu ha sottolineato che con un chip potente e leggero come il loro, è possibile portare un modello transformer potente come il GPT su molti tipi di dispositivi. Anche se Liu non ha rivelato il prezzo del KL730, ha notato che gli utenti del chip KL530 hanno registrato una riduzione del 75% dei costi operativi rispetto ai chip GPU.
Il contesto del mercato dei chip per l’IA
La maggior parte delle aziende di IA e dei fornitori di cloud si rivolgono ai chip GPU H100 Tensor Core di Nvidia, poiché si ritiene che le GPU siano i processori più accessibili in grado di eseguire i calcoli necessari per far funzionare i modelli di IA generativa. Tuttavia, il prezzo per l’H100 è salito a circa $40.000 per chip a causa della crescente domanda. Nvidia ha già annunciato piani per rilasciare un chip IA più potente nel secondo trimestre del 2024, mentre AMD prevede di lanciare i suoi chip IA nell’ultimo trimestre di quest’anno.
Prestazioni e caratteristiche del KL730
Kneron ha affermato che il KL730 offre un salto di “tre o quattro volte” in termini di efficienza energetica rispetto ai chip precedenti e ha una potenza di calcolo di base che parte da 0,35 tera operazioni al secondo. L’azienda ha anche sottolineato che il nuovo chip permette agli utenti di eseguire LLM completamente offline, senza la necessità di connettersi a un provider cloud, garantendo una gestione dei dati più sicura.