Una famiglia di modelli progettata per l’esecuzione locale
Il 16 luglio 2024 Hugging Face rilascia la famiglia SmolLM: tre modelli linguistici di dimensioni ridotte — 135 milioni, 360 milioni e 1,7 miliardi di parametri — progettati esplicitamente per l’esecuzione su dispositivi edge, laptop e hardware consumer, senza dipendenza da GPU dedicate.
La famiglia si inserisce in un filone tecnico che privilegia l’efficienza: invece di aumentare la dimensione dei modelli, SmolLM investe nella qualità del dataset per ottenere prestazioni competitive con architetture compatte. Tutti i modelli sono rilasciati sotto licenza Apache 2.0.
Il dataset SmolLM-Corpus
Il dataset di training, SmolLM-Corpus, è a sua volta pubblicato su Hugging Face e combina tre componenti principali: Cosmopedia v2 — contenuti sintetici di qualità prodotti da modelli di grandi dimensioni su argomenti educativi —, FineWeb-Edu — un sottoinsieme filtrato e orientato all’istruzione del corpus FineWeb — e Python-Edu, focalizzato su codice Python ben documentato.
La curatela del dataset è parte integrante del contributo: Hugging Face pubblica, insieme ai modelli, anche il dataset e la metodologia con cui è stato costruito, rendendo l’intero processo riproducibile.
SmolLM2
Nell’ottobre 2024 viene rilasciata la seconda generazione, SmolLM2, con le stesse tre dimensioni (135M, 360M, 1.7B) ma una mixture di dati migliorata e tempi di training più lunghi. Il modello da 1,7B di SmolLM2 è addestrato su circa 11 trilioni di token, una quantità elevata rispetto alla sua dimensione, seguendo il principio che small language model beneficiano significativamente di training prolungato su dati di alta qualità.
Uso pratico
SmolLM è utilizzabile tramite transformers, llama.cpp, ONNX Runtime e Core ML. Le dimensioni ridotte consentono esecuzione in-browser (via transformers.js) e deployment su CPU o NPU mobili, rendendo SmolLM rilevante nei contesti in cui privacy, latenza o assenza di connettività richiedono inferenza locale.
