Un modello ASR aperto e multilingue
Il 21 settembre 2022 OpenAI rilascia Whisper sotto licenza MIT, insieme all’articolo “Robust Speech Recognition via Large-Scale Weak Supervision”. Si tratta di un sistema di Automatic Speech Recognition (ASR) addestrato su 680.000 ore di audio raccolto dal web in regime di weak supervision: coppie audio-testo di qualità variabile ma in quantità molto superiore rispetto ai dataset curati tradizionalmente usati in ASR.
La dimensione del dataset e la varietà delle fonti portano a un modello robusto rispetto a rumore, accenti, termini tecnici e condizioni audio non ideali, ambiti in cui i sistemi ASR precedenti mostravano limiti significativi.
Architettura e task
Whisper adotta un’architettura encoder-decoder Transformer standard. L’audio viene convertito in spettrogramma log-Mel a 80 canali con finestre da 30 secondi; l’encoder lo processa e il decoder genera token di testo condizionati da token speciali che specificano il task richiesto.
Il modello gestisce nativamente tre task: trascrizione nella lingua originale, traduzione verso l’inglese e identificazione della lingua parlata. La scelta del task avviene tramite token di controllo nella sequenza di input del decoder, senza fine-tuning separati.
Dimensioni disponibili
Whisper è rilasciato in una famiglia di varianti: tiny, base, small, medium, large, pensate per coprire diversi trade-off fra accuratezza, memoria e velocità di inferenza.
Licenza e adozione
La licenza MIT consente qualunque uso commerciale, modifica e ridistribuzione, rendendo Whisper utilizzabile come base per implementazioni ASR aperte in ricerca e in produzione.