Un code LLM aperto e responsabile
Il 4 maggio 2023, il progetto BigCode — iniziativa congiunta di Hugging Face e ServiceNow Research — rilascia StarCoder, un modello linguistico per codice da 15,5 miliardi di parametri. StarCoder è distribuito sotto BigCode Open RAIL-M v1, una licenza Responsible AI che consente l’uso commerciale mantenendo alcune restrizioni d’uso di tipo etico.
Il progetto BigCode nasce con l’obiettivo dichiarato di produrre modelli per codice aperti, tracciabili e costruiti nel rispetto dei diritti degli autori del codice sorgente. A differenza di altri modelli per programmazione, pesi, dataset, processi di training e strumenti di valutazione sono pubblicati interamente.
Architettura e capacità
StarCoder adotta una finestra di contesto di 8.192 token, significativamente più ampia della maggior parte dei code LLM contemporanei, e supporta la modalità Fill-in-the-Middle (FIM) che permette al modello di completare porzioni di codice date il prefisso e il suffisso. Questa capacità lo rende particolarmente adatto all’integrazione in editor di codice, dove il completamento avviene tipicamente in mezzo al file e non solo in coda.
Il training è stato effettuato su The Stack, un dataset di oltre 80 linguaggi di programmazione costruito a partire da repository pubblici con licenze permissive. BigCode ha implementato un processo formale di opt-out: gli sviluppatori possono richiedere la rimozione del proprio codice dal dataset, e la richiesta viene effettivamente applicata nelle versioni successive del corpus.
StarCoder2 e l’evoluzione del progetto
Il 29 febbraio 2024, BigCode rilascia StarCoder2 in tre dimensioni — 3B, 7B e 15B — addestrato su The Stack v2, un dataset ampliato che copre oltre 600 linguaggi. La licenza di StarCoder2 è derivata da quella di BigCode con aggiustamenti che la rendono più simile ad Apache 2.0, pur mantenendo clausole sull’uso responsabile.
Licenza e implicazioni
BigCode Open RAIL-M v1 consente l’uso commerciale, la ridistribuzione e la modifica, ponendo però limiti su categorie d’uso specifiche (disinformazione, sorveglianza illegittima, danni a persone). Per l’ecosistema dello sviluppo software, StarCoder ha rappresentato un punto di riferimento come modello per codice aperto costruito con una catena di fornitura dei dati verificabile.
Link: huggingface.co/bigcode
