Servizi & Sistemi Linux

Domini, hosting, PEC, infrastruttura email, servizi di rete e sistemi Linux. Assistenza e gestione dell’infrastruttura Open Source.

Scopri →

Un modello ASR aperto e multilingue

Il 21 settembre 2022 OpenAI rilascia Whisper sotto licenza MIT, insieme all’articolo “Robust Speech Recognition via Large-Scale Weak Supervision”. Si tratta di un sistema di Automatic Speech Recognition (ASR) addestrato su 680.000 ore di audio raccolto dal web in regime di weak supervision: coppie audio-testo di qualità variabile ma in quantità molto superiore rispetto ai dataset curati tradizionalmente usati in ASR.

La dimensione del dataset e la varietà delle fonti portano a un modello robusto rispetto a rumore, accenti, termini tecnici e condizioni audio non ideali, ambiti in cui i sistemi ASR precedenti mostravano limiti significativi.

Architettura e task

Whisper adotta un’architettura encoder-decoder Transformer standard. L’audio viene convertito in spettrogramma log-Mel a 80 canali con finestre da 30 secondi; l’encoder lo processa e il decoder genera token di testo condizionati da token speciali che specificano il task richiesto.

Il modello gestisce nativamente tre task: trascrizione nella lingua originale, traduzione verso l’inglese e identificazione della lingua parlata. La scelta del task avviene tramite token di controllo nella sequenza di input del decoder, senza fine-tuning separati.

Dimensioni disponibili

Whisper è rilasciato in una famiglia di varianti: tiny, base, small, medium, large, con la variante large successivamente affiancata da large-v2 (dicembre 2022) e large-v3 (novembre 2023), che migliorano accuratezza e copertura linguistica. Nell’ottobre 2024 viene rilasciato Whisper Turbo, una variante ottimizzata per l’inferenza che mantiene accuratezza vicina al large con velocità significativamente maggiore.

Licenza e adozione

La licenza MIT consente qualunque uso commerciale, modifica e ridistribuzione. Whisper è oggi alla base di numerose implementazioni ASR in produzione, inclusi framework ottimizzati come whisper.cpp e faster-whisper che ne consentono l’esecuzione su CPU o hardware consumer.

Link: github.com/openai/whisper

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

Whisper: il modello ASR multilingue open source di OpenAI

Servizi & Sistemi Linux

Un modello ASR aperto e multilingue

Architettura e task

Dimensioni disponibili

Licenza e adozione