RAG einfach erklärt: Wie KI mit Ihren eigenen Daten arbeitet
Retrieval-Augmented Generation (RAG) ist die Technologie hinter wissensbasierten KI-Assistenten mit Quellenangabe. Ohne Mathematik erklärt – für Geschäftsführung, IT-Leitung und alle, die KI-Architekturen verstehen wollen.
Eine der häufigsten Fragen in unseren Workshops 2026: „Wenn wir das Sprachmodell mit unseren eigenen Akten füttern – muss man das dann nicht erst trainieren?". Die Antwort lautet: nein. Genau dafür gibt es Retrieval-Augmented Generation, kurz RAG. Diese Architektur ist der Standard hinter praktisch jedem produktiven wissensbasierten KI-Assistenten 2026.
Dieser Artikel erklärt RAG, ohne in Mathematik abzudriften. Er richtet sich an Geschäftsführung, IT-Leitung und Compliance-Funktionen, die verstehen wollen, warum KI mit eigenen Daten funktioniert, wie Quellenangabe dabei zustande kommt und wo die Grenzen liegen.
Warum nicht einfach „das Modell trainieren"?
Viele Erstkontakte mit KI-Themen drehen sich gedanklich darum, das Sprachmodell „auf die eigenen Daten zu trainieren" (Fachbegriff: Fine-Tuning). Das ist möglich, aber für die meisten Mittelstands-Use-Cases der falsche Weg. Drei Gründe:
- Kosten. Fine-Tuning eines mittelgroßen Modells kostet Tage Rechenzeit auf teurer Hardware. Bei jeder Daten-Aktualisierung wieder.
- Aktualität. Ein fine-getuntes Modell „weiß" stand des Trainings. Sobald sich Akten oder Verträge ändern, ist das Modellwissen veraltet – ohne dass es das mitbekommt.
- Quellenangabe. Ein fine-getuntes Modell kann nicht erklären, woher seine Antwort stammt. Es vermischt alle Trainingsdaten zu einer Antwort. Für ein Berufs- oder NIS2-Audit unbrauchbar.
RAG löst alle drei Probleme strukturell.
RAG in einem Satz
RAG bedeutet: bevor das Sprachmodell antwortet, sucht das System in Ihren Dokumenten nach den passenden Textstellen, gibt sie dem Modell als Kontext mit, und das Modell formuliert daraus eine Antwort mit Quellenverweis.
Das war es. Vier Schritte, von denen drei nichts mit dem Sprachmodell zu tun haben. Lassen Sie uns sie einzeln durchgehen.
Die vier Schritte einer RAG-Antwort
Schritt 1 – Frage in Vektor übersetzen
Ein Mitarbeiter stellt eine Frage: „Welche Kündigungsfrist haben wir mit Lieferant Müller GmbH vereinbart?". Diese Frage wird zunächst in einen mathematischen Vektor übersetzt – einen Liste von 768 oder 1024 Zahlen, die den Sinn der Frage repräsentiert. Diese Übersetzung passiert in einem Embedding-Modell (kein Sprachmodell, etwas Spezialisiertes).
Wichtig: ähnliche Fragen ergeben ähnliche Vektoren. „Welche Kündigungsfrist haben wir mit Müller?" und „Wann können wir den Vertrag mit Müller kündigen?" landen mathematisch dicht beieinander.
Schritt 2 – In der Vektordatenbank nach passenden Textstellen suchen
Alle Ihre Dokumente wurden vorab in viele kleine Textstücke (Chunks) zerlegt und ebenfalls in Vektoren übersetzt. Diese Chunks liegen in einer Vektordatenbank (z. B. Qdrant, Weaviate, pgvector).
Jetzt sucht das System: welche Chunks haben Vektoren, die der Vektor der Frage am ähnlichsten sind? Typisch werden die 5–10 ähnlichsten Chunks ausgewählt, mit Quell-Metadaten (Datei, Seite, Datum, Berechtigung).
In unserem Beispiel: das System findet wahrscheinlich genau den Absatz im Liefervertrag mit der Kündigungsfrist – plus zwei oder drei Kontext-Absätze (allgemeine Vertragsbedingungen, Anhang).
Schritt 3 – Kontext + Frage an das Sprachmodell geben
Jetzt kommt das Sprachmodell ins Spiel. Es bekommt eine Aufgabe wie:
„Beantworte die folgende Frage NUR auf Basis der unten stehenden Textstellen. Wenn die Antwort nicht in den Textstellen steht, sage das ehrlich. Verweise in der Antwort auf die Quelle (Datei, Seite).
FRAGE: Welche Kündigungsfrist haben wir mit Müller GmbH?
TEXTSTELLEN: Chunk 1: Liefervertrag-Mueller-2024.pdf, Seite 7, Absatz 3 Die Kündigungsfrist für diesen Vertrag beträgt drei Monate zum Quartalsende… Chunk 2: … …"
Das Modell formuliert nun eine Antwort, die strukturell auf den gefundenen Textstellen basiert. Es darf nicht „raten", was es weiß, sondern muss aus dem mitgelieferten Material antworten.
Schritt 4 – Antwort mit Quellenangabe ausgeben
Die Antwort an den Mitarbeiter sieht typischerweise so aus:
„Die Kündigungsfrist mit Müller GmbH beträgt drei Monate zum Quartalsende. Quelle: Liefervertrag-Mueller-2024.pdf, Seite 7."
Bei guten Implementierungen ist die Quelle direkt klickbar – der Mitarbeiter sieht den genauen Absatz im Originaldokument.
Warum das Halluzinationen reduziert (aber nicht eliminiert)
RAG ist die wichtigste strukturelle Antwort auf das Halluzinations-Problem von Sprachmodellen. Drei Effekte:
- Antwort kommt aus Quelle, nicht aus Trainingswissen. Wenn die richtigen Chunks gefunden werden, muss das Modell sich an sie halten.
- „Ich weiß es nicht" ist erlaubt. Wenn keine passenden Chunks gefunden werden, soll das System ehrlich antworten – statt zu raten.
- Quellenangabe ermöglicht Prüfung. Mitarbeitende können sofort sehen, ob die Antwort wirklich aus dem zitierten Absatz folgt.
Aber: RAG eliminiert Halluzinationen nicht vollständig. Ein Sprachmodell, das die richtigen Chunks bekommt, kann sie immer noch falsch zusammenfassen oder Aussagen verdrehen. Deshalb gehören in jedes produktive RAG-System: Quellenklick, gelegentliche Stichprobenprüfung durch Fachpersonal, und ein klar kommunizierter Anspruch („Antwortvorschlag, nicht Beratungsersatz").
Wo RAG-Implementierungen typischerweise scheitern
In der Praxis sehen wir 2026 vier wiederkehrende Probleme bei schlechten RAG-Setups:
- Naives Chunking. Texte werden auf fester Wortzahl zerschnitten, mitten im Satz. Folge: zerrissene Sinneinheiten, schlechte Suche. Lösung: Chunking entlang von Überschriften, Absätzen, Tabellen-Grenzen.
- Fehlende Permissions. Das System zeigt Mitarbeitenden Chunks aus Dokumenten, die sie eigentlich nicht sehen dürften. Datenschutz-Disaster. Lösung: ACLs aus Quellsystemen mit übernehmen, bei jeder Anfrage prüfen.
- Keine inkrementellen Updates. Verträge ändern sich, Akten werden gelöscht – das System weiß nichts davon und antwortet weiter aus alten Versionen. Lösung: Daily Sync mit Quellsystemen, mit klarem „Lösch-Pfad" für entfernte Dokumente.
- Keine Evaluation. Niemand misst, wie oft das System richtig liegt. Folge: Mitarbeitende verlieren Vertrauen, Nutzung sinkt. Lösung: regelmäßige Stichprobenmessungen mit Fachpersonal, Kennzahlen wie Trefferquote und Prüfquote.
RAG ist nicht magisch – aber es funktioniert
Aus der Architektur-Sicht ist RAG keine besonders komplizierte Idee. Sie kombiniert drei bekannte Bausteine: Embedding-Modell + Vektordatenbank + Sprachmodell mit klarer Anweisung. Die Komplexität liegt in der Daten-Qualität (Chunking, Permissions, Updates) und im Betriebs-Modell (Monitoring, Evaluation, Schulung).
Wer RAG sauber aufsetzt, bekommt 2026 einen wissensbasierten Assistenten, der ein konkretes Praxisproblem löst: das ständige Suchen in eigenen Akten, Verträgen, Verfahrensanweisungen. Der Wert wird oft erst nach 4–6 Wochen Nutzung sichtbar – aber dann nachhaltig.
Wo Sie als Nächstes weiterlesen
- "Private KI für den Mittelstand: Der Leitfaden 2026" – die Architektur-Übersicht, die RAG einbettet.
- "KI im Mittelstand einführen: Das 30-Tage-Playbook" – wie ein RAG-System in 30 Tagen produktiv wird.
- "Private KI vs. ChatGPT" – wann eine RAG-basierte Private-KI sinnvoller ist als öffentliche Tools.
Wer ein RAG-Setup für die eigene Organisation durchsprechen möchte: Direkt mit Nico Meyer, werktags 9–18 Uhr.

Autor
Nico Meyer
Geschäftsführer Code15 GmbH
Gründer von Code15. Baut seit 10+ Jahren Software für den Mittelstand – heute mit Fokus auf Private KI, RAG-Systeme und sichere KI-Einführung in regulierten Branchen.
Mehr von NicoPrivate KI für Unternehmen: Sprechen Sie mit Nico
Direkt mit dem Gründer. Ohne Verkaufsgespräch, werktags 9–18 Uhr. Wir besprechen, ob und wie Private KI in Ihrem Unternehmen Sinn ergibt.
Mehr aus dieser Säule
On-Prem-LLM
Definition: On-Prem-LLM bezeichnet ein Sprachmodell, das auf Hardware betrieben wird, die das Unternehmen selbst kontrolliert – meist im eigenen Rechenzentrum, optional ohne Internetverbindung.
3 Min. Lesezeit GlossarPrivate KI
Definition: Private KI bezeichnet eine KI-Plattform, die ausschließlich auf vom Unternehmen kontrollierter Infrastruktur betrieben wird – on-prem, in souveräner EU-Cloud oder hybrid – und Daten nicht an US-Provider weitergibt.
3 Min. Lesezeit GlossarRAG (Retrieval-Augmented Generation)
Definition: RAG kombiniert ein Sprachmodell mit einer Suche in eigenen Dokumenten. Statt aus Trainingswissen zu raten, antwortet das Modell auf Basis abgerufener Textstellen mit Quellenangabe.
3 Min. Lesezeit