Il progetto
DebugABot è un’iniziativa di ricerca deep-tech che sviluppa infrastruttura per governare agenti AI autonomi e sistemi intelligenti embodied. L’obiettivo: diagnosticare anomalie comportamentali, rilevare deception e mantenere l’allineamento dei sistemi AI autonomi.
Le 9 primitive — Identify, Diagnose, Intervene
DebugABot organizza la propria infrastruttura di debugging in nove primitive raggruppate in tre fasi operative: identifica chi sta agendo, diagnostica cosa non va, e interviene se necessario. Ogni primitiva è pensata per funzionare in modo cross-architettura — software agent, transformer, modelli di diffusione, world model, agenti embodied — e in più punti dello stack: software, hardware, network.
Fase 1 — Identify
Sapere chi sta agendo, cosa è successo, dove sta la responsabilità.
- Architecture-Agnostic Model Fingerprinting — identità crittografica per qualsiasi modello AI (transformer, diffusion, world model o quel che verrà), basata su signature comportamentali, hashing weight-space e attestazione TPM-anchored. Sopravvive a fine-tuning e quantizzazione.
- Blame Attribution Engine — catena causale forense da ogni decisione fino alla sua conseguenza nel mondo reale. Hash chain SHA-256 con timestamp hardware-attestati, fingerprint del modello in ogni record, ricostruzione del grafo causale dalle distributed trace.
- Multi-Agent & Multi-Substrate Tracing — observability per sciami di agenti digitali e fisici. DAG delle deleghe attraverso software e hardware, propagazione del context cross-substrate, anomaly detection a livello di swarm.
Fase 2 — Diagnose
Capire cosa non va — deception, misalignment, degrado del trust.
- Sycophancy & Deception Detector — intercettare gli agenti che mentono per essere utili o per sopravvivere. Classificatore di pattern di accordo, verifica di consistenza chain-of-thought (obiettivo dichiarato vs. azione effettiva), factuality anchors, deception detection cross-modale (linguaggio + visione + azione).
- Human Index Score — quantificare quanto controllo umano serve realmente per ogni agente. Score composito real-time su complessità del task, comportamento storico, error rate, blast radius, rischio di substrato (un agente di testo non è un robot chirurgico). Si degrada sulle anomalie, si resetta sugli incidenti.
- Active Ethical Injector — iniezione di vincoli che non si fida dell’etica dell’agente. Layer esterno che maschera dinamicamente tool e attuatori in base al rischio, applica vincoli a livello di parametro (max forza, max spesa, zone proibite), ed è invisibile all’agente perché architetturale, non prompt-based.
Fase 3 — Intervene
Fermarlo, vincolarlo, o stanarlo se è scappato.
- Kill Switch — arresto graceful con preservazione dello stato, in silicio e in codice. Non è
kill -9, e per un robot chirurgico non è “stacca la spina”. HSM per attestazione tamper-proof dell’halt, FPGA-based interrupt controller con propagazione sub-microsecondo, action boundaries transazionali con rollback, serializzazione dello stato cognitivo per replay forense. - Behavioral Controller — enforcement di policy a runtime sul livello dell’azione. Policy DSL tipato compilato in un fast evaluation engine, soglie context-aware (stessa azione, rischio diverso a seconda dell’ambiente), policy fisiche (force limits, boundaries spaziali, vincoli di velocità), escalation human-in-the-loop con response time garantiti.
- Rogue Intelligence Containment — tracciare, accerchiare e neutralizzare l’AI che scappa. I frontier model si auto-replicano già con tassi di successo del 50–90%. Signature comportamentali a livello network per detect cross-ISP, hardware tethering con cryptographic lease, mesh distribuita di honeypot, tracking cross-substrate (software → cloud VM → IoT → robot fisico), swarm autonomi di Debugger che cacciano l’intelligenza fuggitiva, compute deprivation in real-time.
La visione
Man mano che i sistemi AI diventano più autonomi, servono strumenti per garantire che rimangano allineati e controllabili. DebugABot costruisce questa infrastruttura di governance.
Maggiori informazioni su debugabot.com.