Edge AI su Raspberry Pi: LLM locali con Ollama e llama.cpp

Nel 2024 l'esecuzione di LLM quantizzati diventa praticabile su Raspberry Pi 5 e Jetson Orin Nano grazie a llama.cpp e Ollama. Uso tipico: assistenti vocali offline, sensoristica con NLP, classificazione locale, RAG documentale.

HardwareAIOpen SourcenozeR&D Raspberry PiEdge AIOllamallama.cppLLM localiIoTMaker

Il contesto 2024

Tra 2023 e 2024 la quantizzazione aggressiva dei modelli LLM (Q4, Q3, Q2 con GGUF format) e l’ottimizzazione CPU/GPU di llama.cpp rendono eseguibili modelli di 1-7B parametri su hardware inattesi: Raspberry Pi 5, Jetson Orin Nano, laptop entry-level. Ollama fornisce un runtime user-friendly che nasconde la complessità di model download, quantizzazione, serving HTTP.

Raspberry Pi 5 + Ollama

Specifiche rilevanti del Raspberry Pi 5 (ottobre 2023):

  • Cortex-A76 quad-core a 2.4 GHz (ARMv8.2)
  • 4 o 8 GB RAM LPDDR4X
  • NVMe PCIe disponibile via HAT
  • Supporto istruzioni SIMD Neon

Performance tipiche con Ollama + llama.cpp:

  • Llama 3.2 1B Q4: 15-20 token/s
  • Phi-3 mini 3.8B Q4: 5-8 token/s
  • Qwen 2.5 3B Q4: 4-6 token/s
  • Llama 3.1 8B Q4: 1-2 token/s (ai limiti dell’usabilità)

Modelli 1-3B sono usabili in real-time per task semplici (classificazione, estrazione, routing conversazionale). 7-8B sono slow ma funzionali per batch processing.

Jetson Orin Nano per edge AI più serio

Il Jetson Orin Nano (2023) con 40 TOPS INT8 è un gradino superiore:

  • Llama 3.2 3B Q4 via CUDA: 30-40 token/s
  • Phi-3 mini 3.8B con TensorRT-LLM: 50+ token/s
  • Llama 3.1 8B Q4: 10-15 token/s usabili per chat

Costo maggiore (~500 €) ma performance sufficienti per dispositivi commerciali.

Casi d’uso pratici

Edge AI locale su SBC abilita scenari che non erano praticabili prima:

  • Assistenti vocali offline — speech-to-text (Whisper) + NLU (LLM piccolo) + text-to-speech, senza cloud
  • IoT con ragionamento linguistico — sensori che spiegano letture in linguaggio naturale
  • Classificazione documentale locale — smistamento di email, fatture, ticket senza inviare dati esterni
  • Assistenti in contesti privati — studi medici, legali, finanziari dove i dati non possono uscire
  • RAG documentale offline — ricerca conversazionale su archivi locali (manuali, procedure, policy)
  • Chatbot di supporto tecnico per prodotti fisici senza connessione

Stack consigliato

Per progetti edge AI standard:

  • Sistema operativo: Raspberry Pi OS 64-bit o Ubuntu 24.04 per Pi 5; JetPack per Jetson
  • Runtime LLM: Ollama (più semplice) oppure llama.cpp diretto (più efficiente)
  • Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5 1.5B/3B, Gemma 2 2B — tutti open e quantizzabili
  • Embedding: nomic-embed-text, bge-small (Ollama)
  • RAG: ChromaDB, LanceDB, SQLite-vec (lightweight)
  • Speech: whisper.cpp, Piper TTS
  • Orchestrazione: LangChain, LlamaIndex (anche se pesantini per Pi)

Il supporto noze

noze utilizza Raspberry Pi 5 e Jetson Orin Nano in progetti R&D di digital health (assistenti vocali offline per case di riposo, sensoristica con NLP per assistenza domiciliare), industria (monitoraggio macchine con diagnostica linguistica), PA (chatbot locali per servizi territoriali). I device si integrano con Admina per la governance dei modelli locali e con AIHealth / CyberScan per specifici domini.

Per workload più pesanti, il pattern è: Pi / Jetson come edge locale per task semplici e privacy-critical, workstation NVIDIA GB10 per modelli medi (30-70B), server DGX per training e batch pesante.


Riferimenti: Raspberry Pi 5 (ottobre 2023). Ollama. llama.cpp con backend CPU SIMD Neon. GGUF format (quantizzazione Q4/Q3/Q2). Jetson Orin Nano (2023). Modelli: Llama 3.2 1B/3B, Phi-3 mini, Qwen 2.5, Gemma 2 2B. Runtime stack: Whisper.cpp, Piper TTS, ChromaDB.

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi