Intelligenza Artificiale

Soluzioni AI on-premise, LLM locali, AI governance, compliance EU AI Act. Dalla prototipazione al deploy produttivo.

Il contesto 2024

Tra 2023 e 2024 la quantizzazione aggressiva dei modelli LLM (Q4, Q3, Q2 con GGUF format) e l’ottimizzazione CPU/GPU di llama.cpp rendono eseguibili modelli di 1-7B parametri su hardware inattesi: Raspberry Pi 5, Jetson Orin Nano, laptop entry-level. Ollama fornisce un runtime user-friendly che nasconde la complessità di model download, quantizzazione, serving HTTP.

Raspberry Pi 5 + Ollama

Specifiche rilevanti del Raspberry Pi 5 (ottobre 2023):

Cortex-A76 quad-core a 2.4 GHz (ARMv8.2)
4 o 8 GB RAM LPDDR4X
NVMe PCIe disponibile via HAT
Supporto istruzioni SIMD Neon

Performance tipiche con Ollama + llama.cpp:

Llama 3.2 1B Q4: 15-20 token/s
Phi-3 mini 3.8B Q4: 5-8 token/s
Qwen 2.5 3B Q4: 4-6 token/s
Llama 3.1 8B Q4: 1-2 token/s (ai limiti dell’usabilità)

Modelli 1-3B sono usabili in real-time per task semplici (classificazione, estrazione, routing conversazionale). 7-8B sono slow ma funzionali per batch processing.

Jetson Orin Nano per edge AI più serio

Il Jetson Orin Nano (2023) con 40 TOPS INT8 è un gradino superiore:

Llama 3.2 3B Q4 via CUDA: 30-40 token/s
Phi-3 mini 3.8B con TensorRT-LLM: 50+ token/s
Llama 3.1 8B Q4: 10-15 token/s usabili per chat

Costo maggiore (~500 €) ma performance sufficienti per dispositivi commerciali.

Casi d’uso pratici

Edge AI locale su SBC abilita scenari che non erano praticabili prima:

Assistenti vocali offline — speech-to-text (Whisper) + NLU (LLM piccolo) + text-to-speech, senza cloud
IoT con ragionamento linguistico — sensori che spiegano letture in linguaggio naturale
Classificazione documentale locale — smistamento di email, fatture, ticket senza inviare dati esterni
Assistenti in contesti privati — studi medici, legali, finanziari dove i dati non possono uscire
RAG documentale offline — ricerca conversazionale su archivi locali (manuali, procedure, policy)
Chatbot di supporto tecnico per prodotti fisici senza connessione

Stack consigliato

Per progetti edge AI standard:

Sistema operativo: Raspberry Pi OS 64-bit o Ubuntu 24.04 per Pi 5; JetPack per Jetson
Runtime LLM: Ollama (più semplice) oppure llama.cpp diretto (più efficiente)
Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5 1.5B/3B, Gemma 2 2B — tutti open e quantizzabili
Embedding: nomic-embed-text, bge-small (Ollama)
RAG: ChromaDB, LanceDB, SQLite-vec (lightweight)
Speech: whisper.cpp, Piper TTS
Orchestrazione: LangChain, LlamaIndex (anche se pesantini per Pi)

Il supporto noze

noze utilizza Raspberry Pi 5 e Jetson Orin Nano in progetti R&D di digital health (assistenti vocali offline per case di riposo, sensoristica con NLP per assistenza domiciliare), industria (monitoraggio macchine con diagnostica linguistica), PA (chatbot locali per servizi territoriali). I device si integrano con Admina per la governance dei modelli locali e con AIHealth / CyberScan per specifici domini.

Per workload più pesanti, il pattern è: Pi / Jetson come edge locale per task semplici e privacy-critical, workstation NVIDIA GB10 per modelli medi (30-70B), server DGX per training e batch pesante.

Riferimenti: Raspberry Pi 5 (ottobre 2023). Ollama. llama.cpp con backend CPU SIMD Neon. GGUF format (quantizzazione Q4/Q3/Q2). Jetson Orin Nano (2023). Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5, Gemma 2 2B. Runtime stack: Whisper.cpp, Piper TTS, ChromaDB.

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

Edge AI su Raspberry Pi: LLM locali con Ollama e llama.cpp