Un modello ASR aperto e multilingue
Il 21 settembre 2022 OpenAI rilascia Whisper sotto licenza MIT, insieme all’articolo “Robust Speech Recognition via Large-Scale Weak Supervision”. Si tratta di un sistema di Automatic Speech Recognition (ASR) addestrato su 680.000 ore di audio raccolto dal web in regime di weak supervision: coppie audio-testo di qualità variabile ma in quantità molto superiore rispetto ai dataset curati tradizionalmente usati in ASR.
La dimensione del dataset e la varietà delle fonti portano a un modello robusto rispetto a rumore, accenti, termini tecnici e condizioni audio non ideali, ambiti in cui i sistemi ASR precedenti mostravano limiti significativi.
Architettura e task
Whisper adotta un’architettura encoder-decoder Transformer standard. L’audio viene convertito in spettrogramma log-Mel a 80 canali con finestre da 30 secondi; l’encoder lo processa e il decoder genera token di testo condizionati da token speciali che specificano il task richiesto.
Il modello gestisce nativamente tre task: trascrizione nella lingua originale, traduzione verso l’inglese e identificazione della lingua parlata. La scelta del task avviene tramite token di controllo nella sequenza di input del decoder, senza fine-tuning separati.
Dimensioni disponibili
Whisper è rilasciato in una famiglia di varianti: tiny, base, small, medium, large, con la variante large successivamente affiancata da large-v2 (dicembre 2022) e large-v3 (novembre 2023), che migliorano accuratezza e copertura linguistica. Nell’ottobre 2024 viene rilasciato Whisper Turbo, una variante ottimizzata per l’inferenza che mantiene accuratezza vicina al large con velocità significativamente maggiore.
Licenza e adozione
La licenza MIT consente qualunque uso commerciale, modifica e ridistribuzione. Whisper è oggi alla base di numerose implementazioni ASR in produzione, inclusi framework ottimizzati come whisper.cpp e faster-whisper che ne consentono l’esecuzione su CPU o hardware consumer.
