Phi: Small Language Models open source di Microsoft Research

La serie Phi di Microsoft Research da Phi-1 (2023) a Phi-3 (aprile 2024) sotto licenza MIT: SLM addestrati con 'textbook quality data', context 128K su Phi-3-mini.

Open SourceAI Open SourcePhiSLMMicrosoftLLMAI

Una linea di Small Language Models

La serie Phi è sviluppata da Microsoft Research come alternativa compatta ai Large Language Models. L’ipotesi centrale, formalizzata nel paper “Textbooks Are All You Need”, è che la qualità dei dati di addestramento — in particolare testo didattico sintetico o filtrato — sia più determinante della scala pura dei parametri.

Phi-1 viene rilasciato a giugno 2023 con 1,3 miliardi di parametri, specializzato nella generazione di codice Python, ottenendo pass@1 del 50,6% su HumanEval nonostante la dimensione ridotta. Phi-2, a dicembre 2023, porta i parametri a 2,7 miliardi generalizzando il paradigma oltre il codice.

Phi-3 e licenza MIT

Il 23 aprile 2024 Microsoft rilascia la famiglia Phi-3 sotto licenza MIT, permissiva e commercialmente utilizzabile senza restrizioni. La famiglia comprende tre tagli:

  • Phi-3-mini — 3,8 miliardi di parametri, context fino a 128K token (variante phi-3-mini-128k-instruct) oltre alla variante 4K
  • Phi-3-small — 7 miliardi di parametri, context 128K
  • Phi-3-medium — 14 miliardi di parametri, context 128K

Il training set di Phi-3 combina dati web fortemente filtrati e dati sintetici generati per massimizzare la densità informativa. I risultati sui benchmark standard (MMLU, HellaSwag, GSM8K) mostrano Phi-3-mini competitivo con modelli di taglio Llama-3 8B.

Ottimizzazione per edge e on-device

Phi-3-mini è progettato per esecuzione su dispositivi con risorse limitate: la quantizzazione a 4 bit consente l’esecuzione su smartphone moderni e workstation senza GPU dedicate. Microsoft pubblica varianti ONNX ottimizzate per DirectML e CPU, rendendo il modello adatto a scenari edge e inferenza locale con requisiti di privacy.

Phi-3.5 ed evoluzione

Ad agosto 2024 Microsoft rilascia Phi-3.5 con tre varianti: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct (16 esperti, 42B totali, 6,6B attivi) e Phi-3.5-vision-instruct multimodale. Tutti i modelli restano sotto licenza MIT e sono distribuiti su Hugging Face.

La linea Phi dimostra che la riduzione dei parametri non implica necessariamente la perdita di qualità: con una pipeline di dati selezionata è possibile raggiungere prestazioni utili in produzione con un ordine di grandezza in meno di risorse.

Link: huggingface.co/microsoft

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi