Haystack: il framework RAG open source di deepset

Haystack di deepset evolve da pipeline RAG tradizionali a framework component-based. La versione 2.0 (11 marzo 2024) introduce pipeline YAML, component e supporto nativo per agent.

Open SourceAI Open SourceHaystackdeepsetRAGAgenticLLMAI

Origine e azienda

Haystack viene pubblicato nel 2019 da deepset, azienda tedesca fondata da Milos Rusic, Malte Pietsch e Timo Möller. Il framework nasce per affrontare i problemi di neural search: question answering estrattivo, document retrieval semantico, pipeline di ricerca su grandi volumi di dati non strutturati. La licenza è Apache 2.0, il linguaggio principale è Python.

Nella prima generazione — Haystack 1.x — il framework propone il concetto di pipeline come grafo ordinato di componenti: reader, retriever, generator, ranker. L’approccio consente di comporre sistemi RAG modulari, scambiando retriever sparsi e densi, e di valutare le pipeline in modo sistematico tramite metriche integrate.

Haystack 2.0

L’11 marzo 2024 viene rilasciata Haystack 2.0, un refactor architetturale significativo. La nuova versione introduce un modello component-based: ogni operazione — embedding, retrieval, prompt building, chiamata LLM, parsing — è un component con input e output tipizzati dichiarativamente. Le pipeline sono grafi di component connessi tramite gli attributi di input/output, con serializzazione YAML nativa.

La serializzazione dichiarativa consente di versionare le pipeline come artefatti testuali, eseguirle in ambienti diversi e generarle programmaticamente. Il modello component-based semplifica anche l’estensione: un component custom è una classe Python con un metodo run e un insieme di annotazioni di tipo.

Agent e integrazioni

Haystack 2.0 introduce supporto nativo per agent, modellati come component che incapsulano cicli di ragionamento e chiamata di tool. Il framework mantiene un’ampia gamma di integrazioni con database vettoriali — Elasticsearch, OpenSearch, Weaviate, Pinecone, Qdrant, tra gli altri — e con provider LLM (OpenAI, Anthropic, Cohere, modelli open source tramite Hugging Face).

Posizionamento

Rispetto ad altri framework dell’ecosistema RAG, Haystack ha una storia più lunga nella neural search classica, da cui eredita un’attenzione particolare a valutazione, metriche e componenti di retrieval specializzati. Il passaggio a un’architettura component-based con serializzazione YAML lo rende adatto a contesti dove le pipeline sono artefatti di configurazione gestiti come codice, con revisione e deploy indipendenti dall’applicazione che li invoca.

Link: haystack.deepset.ai

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi