multiversemediamultiversemedia

Wissen

RAG - Retrieval-Augmented Generation

RAG ist ein Muster, bei dem ein LLM vor der Antwort die relevanten Stellen aus deiner eigenen Wissensquelle abruft, sie in den Prompt einbettet, und dann mit Bezug auf diese Stellen antwortet. Das spart teures Fine-Tuning, hält das Wissen aktuell, und liefert Quellen-Belege statt Halluzinationen.

Wie RAG technisch abläuft

  1. Indexierung: dein Wissen (PDFs, FAQ, Doku, Tickets) wird in Chunks zerlegt und als Embeddings in einer Vektor-DB gespeichert.
  2. Retrieval: User stellt Frage, Frage wird embeddet, ähnlichste Chunks aus der DB gezogen.
  3. Reranking: oft holen wir 20-50 Chunks raus und reranken sie mit einem zweiten Modell auf 3-5 wirklich relevante.
  4. Generation: das LLM bekommt Frage + Top-Chunks im Prompt und antwortet mit Quellen-Belegen.

Wann RAG das richtige Werkzeug ist

  • Wissensbasis ändert sich häufig (Preise, Produkte, FAQ)
  • Quellen-Belege sind Pflicht (Compliance, Vertrauen)
  • Wissensmenge zu groß, um im Prompt zu landen
  • Multi-Tenant: jeder Kunde hat eigenes Wissen

Wann RAG das falsche Werkzeug ist

  • Wissensmenge ist klein und stabil - dann gehört es einfach in den System-Prompt
  • Es geht nicht um Wissen, sondern um Stil oder Klassifikation - dann ist Few-Shot oder Fine-Tuning passender
  • Du brauchst exakte Lookup-Antworten (Bestellnummer → Lieferdatum) - dann ist eine SQL-Query schneller, billiger, korrekter

Unser Stack für RAG

Postgres mit pgvector als Vektor-DB - kein extra Service nötig, transaktional, und kombinierbar mit klassischer SQL-Suche für Hybrid-Retrieval.

Hybrid-Search: Vector- Similarity + BM25 (klassische Volltext-Suche) parallel, danach Reranking. Schlägt reine Vector-Search in den meisten Use-Cases.

Embeddings wahlweise von OpenAI, Voyage, Cohere oder lokal (BGE, E5). Auswahl hängt von Sprache, Domäne, Datenschutz-Anforderung ab.

Wo RAG-Setups häufig scheitern

  • Schlechtes Chunking (zu groß, zu klein, falsche Grenzen)
  • Kein Reranking, nur naive Vector-Search
  • Kein Evaluation-Setup, niemand weiß wie gut die Antworten sind
  • Kein Mechanismus für "weiß ich nicht" - das Modell antwortet sicher trotz fehlendem Kontext
  • Wissensbasis veraltet, niemand re-indexiert

Genau diese Stellen härten wir, wenn wir RAG bauen oder ein bestehendes Setup übernehmen.

RAG-Setups bauen wir als Teil von KI-Integrationen:Zur Leistung →

Hast du Wissen, das ein LLM nutzen sollte?

Erstgespräch klärt: Reicht ein Workflow, oder lohnt sich RAG?