Il contesto 2024
Tra 2023 e 2024 la quantizzazione aggressiva dei modelli LLM (Q4, Q3, Q2 con GGUF format) e l’ottimizzazione CPU/GPU di llama.cpp rendono eseguibili modelli di 1-7B parametri su hardware inattesi: Raspberry Pi 5, Jetson Orin Nano, laptop entry-level. Ollama fornisce un runtime user-friendly che nasconde la complessità di model download, quantizzazione, serving HTTP.
Raspberry Pi 5 + Ollama
Specifiche rilevanti del Raspberry Pi 5 (ottobre 2023):
- Cortex-A76 quad-core a 2.4 GHz (ARMv8.2)
- 4 o 8 GB RAM LPDDR4X
- NVMe PCIe disponibile via HAT
- Supporto istruzioni SIMD Neon
Performance tipiche con Ollama + llama.cpp:
- Llama 3.2 1B Q4: 15-20 token/s
- Phi-3 mini 3.8B Q4: 5-8 token/s
- Qwen 2.5 3B Q4: 4-6 token/s
- Llama 3.1 8B Q4: 1-2 token/s (ai limiti dell’usabilità)
Modelli 1-3B sono usabili in real-time per task semplici (classificazione, estrazione, routing conversazionale). 7-8B sono slow ma funzionali per batch processing.
Jetson Orin Nano per edge AI più serio
Il Jetson Orin Nano (2023) con 40 TOPS INT8 è un gradino superiore:
- Llama 3.2 3B Q4 via CUDA: 30-40 token/s
- Phi-3 mini 3.8B con TensorRT-LLM: 50+ token/s
- Llama 3.1 8B Q4: 10-15 token/s usabili per chat
Costo maggiore (~500 €) ma performance sufficienti per dispositivi commerciali.
Casi d’uso pratici
Edge AI locale su SBC abilita scenari che non erano praticabili prima:
- Assistenti vocali offline — speech-to-text (Whisper) + NLU (LLM piccolo) + text-to-speech, senza cloud
- IoT con ragionamento linguistico — sensori che spiegano letture in linguaggio naturale
- Classificazione documentale locale — smistamento di email, fatture, ticket senza inviare dati esterni
- Assistenti in contesti privati — studi medici, legali, finanziari dove i dati non possono uscire
- RAG documentale offline — ricerca conversazionale su archivi locali (manuali, procedure, policy)
- Chatbot di supporto tecnico per prodotti fisici senza connessione
Stack consigliato
Per progetti edge AI standard:
- Sistema operativo: Raspberry Pi OS 64-bit o Ubuntu 24.04 per Pi 5; JetPack per Jetson
- Runtime LLM: Ollama (più semplice) oppure llama.cpp diretto (più efficiente)
- Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5 1.5B/3B, Gemma 2 2B — tutti open e quantizzabili
- Embedding: nomic-embed-text, bge-small (Ollama)
- RAG: ChromaDB, LanceDB, SQLite-vec (lightweight)
- Speech: whisper.cpp, Piper TTS
- Orchestrazione: LangChain, LlamaIndex (anche se pesantini per Pi)
Il supporto noze
noze utilizza Raspberry Pi 5 e Jetson Orin Nano in progetti R&D di digital health (assistenti vocali offline per case di riposo, sensoristica con NLP per assistenza domiciliare), industria (monitoraggio macchine con diagnostica linguistica), PA (chatbot locali per servizi territoriali). I device si integrano con Admina per la governance dei modelli locali e con AIHealth / CyberScan per specifici domini.
Per workload più pesanti, il pattern è: Pi / Jetson come edge locale per task semplici e privacy-critical, workstation NVIDIA GB10 per modelli medi (30-70B), server DGX per training e batch pesante.
Riferimenti: Raspberry Pi 5 (ottobre 2023). Ollama. llama.cpp con backend CPU SIMD Neon. GGUF format (quantizzazione Q4/Q3/Q2). Jetson Orin Nano (2023). Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5, Gemma 2 2B. Runtime stack: Whisper.cpp, Piper TTS, ChromaDB.
