Microsoft Bing aumenta la velocità di consegna degli annunci con NVIDIA Triton

da Redazione
0 commenti 2 minuti leggi
bing microsoft

Il team di Jiusheng Chen ha appena ottenuto un’accelerazione significativa. Stanno fornendo annunci personalizzati agli utenti di Microsoft Bing con una capacità di elaborazione 7 volte superiore a un costo ridotto, grazie al server di inferenza NVIDIA Triton che funziona su NVIDIA A100 Tensor Core GPU. È un risultato sorprendente per il manager principale dell’ingegneria del software e il suo team.

Sintonizzazione di un Sistema Complesso

Il servizio di annunci di Bing utilizza centinaia di modelli che sono in costante evoluzione. Ognuno deve rispondere a una richiesta in poco meno di 10 millisecondi, circa 10 volte più veloce di un battito di ciglia. L’ultimo aumento di velocità ha avuto inizio con due innovazioni che il team ha fornito per far funzionare i modelli di IA più velocemente: Bang e EL-Attention. Insieme, applicano tecniche sofisticate per fare più lavoro in meno tempo con meno memoria del computer. L’addestramento del modello si basava su Azure Machine Learning per l’efficienza.

Annunci

Volare con NVIDIA A100 MIG

Successivamente, il team ha aggiornato il servizio di annunci da NVIDIA T4 a GPU A100. La funzione Multi-Instance GPU (MIG) di quest’ultima consente agli utenti di dividere una singola GPU in diverse istanze. Il team di Chen ha sfruttato al massimo la funzione MIG, trasformando una A100 fisica in sette indipendenti. Questo ha permesso al team di ottenere una capacità di elaborazione 7 volte superiore per GPU con risposta di inferenza in 10ms.

Software Flessibile, Facile, Open

Triton ha reso possibile il passaggio, in parte, perché consente agli utenti di eseguire contemporaneamente diversi software di runtime, framework e modalità di IA su istanze isolate di una singola GPU. Il software di inferenza viene fornito in un contenitore software, quindi è facile da distribuire. E Triton open-source – disponibile anche con sicurezza e supporto di livello aziendale attraverso NVIDIA AI Enterprise – è supportato da una comunità che migliora il software nel tempo.

Accelerare il sistema di annunci di Bing con Triton su GPU A100 è un esempio di ciò che a Chen piace del suo lavoro. Ha la possibilità di assistere a progressi con l’IA. Mentre gli scenari spesso cambiano, l’obiettivo del team rimane lo stesso: creare una vittoria per i suoi utenti e inserzionisti.

Si può anche come

MatriceDigitale.it – Copyright © 2024, Livio Varriale – Registrazione Tribunale di Napoli n° 60 del 18/11/2021. – P.IVA IT10498911212 Privacy Policy e Cookies

Developed with love by Giuseppe Ferrara