Una linea di Small Language Models
La serie Phi è sviluppata da Microsoft Research come alternativa compatta ai Large Language Models. L’ipotesi centrale, formalizzata nel paper “Textbooks Are All You Need”, è che la qualità dei dati di addestramento — in particolare testo didattico sintetico o filtrato — sia più determinante della scala pura dei parametri.
Phi-1 viene rilasciato a giugno 2023 con 1,3 miliardi di parametri, specializzato nella generazione di codice Python, ottenendo pass@1 del 50,6% su HumanEval nonostante la dimensione ridotta. Phi-2, a dicembre 2023, porta i parametri a 2,7 miliardi generalizzando il paradigma oltre il codice.
Phi-3 e licenza MIT
Il 23 aprile 2024 Microsoft rilascia la famiglia Phi-3 sotto licenza MIT, permissiva e commercialmente utilizzabile senza restrizioni. La famiglia comprende tre tagli:
- Phi-3-mini — 3,8 miliardi di parametri, context fino a 128K token (variante
phi-3-mini-128k-instruct) oltre alla variante 4K - Phi-3-small — 7 miliardi di parametri, context 128K
- Phi-3-medium — 14 miliardi di parametri, context 128K
Il training set di Phi-3 combina dati web fortemente filtrati e dati sintetici generati per massimizzare la densità informativa. I risultati sui benchmark standard (MMLU, HellaSwag, GSM8K) mostrano Phi-3-mini competitivo con modelli di taglio Llama-3 8B.
Ottimizzazione per edge e on-device
Phi-3-mini è progettato per esecuzione su dispositivi con risorse limitate: la quantizzazione a 4 bit consente l’esecuzione su smartphone moderni e workstation senza GPU dedicate. Microsoft pubblica varianti ONNX ottimizzate per DirectML e CPU, rendendo il modello adatto a scenari edge e inferenza locale con requisiti di privacy.
Phi-3.5 ed evoluzione
Ad agosto 2024 Microsoft rilascia Phi-3.5 con tre varianti: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct (16 esperti, 42B totali, 6,6B attivi) e Phi-3.5-vision-instruct multimodale. Tutti i modelli restano sotto licenza MIT e sono distribuiti su Hugging Face.
La linea Phi dimostra che la riduzione dei parametri non implica necessariamente la perdita di qualità: con una pipeline di dati selezionata è possibile raggiungere prestazioni utili in produzione con un ordine di grandezza in meno di risorse.
Link: huggingface.co/microsoft
