[{"data":1,"prerenderedAt":867},["ShallowReactive",2],{"wissen-\u002Fwissen\u002Frag-einfach-erklaert":3,"autor-nico-meyer":334,"related-\u002Fwissen\u002Frag-einfach-erklaert":500},{"id":4,"title":5,"author":6,"body":7,"cover":314,"coverAlt":314,"dateModified":315,"datePublished":315,"description":316,"draft":317,"extension":318,"faqItems":314,"format":319,"meta":320,"navigation":321,"path":322,"pillar":323,"readMinutes":324,"relatedServiceSlug":325,"relatedVariantSlug":314,"seo":326,"speakable":321,"stem":327,"tags":328,"__hash__":333},"wissen\u002Fwissen\u002Frag-einfach-erklaert.md","RAG einfach erklärt: Wie KI mit Ihren eigenen Daten arbeitet","nico-meyer",{"type":8,"value":9,"toc":297},"minimark",[10,23,38,43,46,72,75,79,85,88,92,97,108,111,115,122,129,132,136,139,159,162,166,169,174,177,181,184,205,212,216,219,245,249,260,263,267,291],[11,12,13,14,18,19,22],"p",{},"Eine der häufigsten Fragen in unseren Workshops 2026: „Wenn wir das Sprachmodell mit unseren eigenen Akten füttern – muss man das dann nicht erst trainieren?\". Die Antwort lautet: nein. Genau dafür gibt es ",[15,16,17],"strong",{},"Retrieval-Augmented Generation",", kurz ",[15,20,21],{},"RAG",". Diese Architektur ist der Standard hinter praktisch jedem produktiven wissensbasierten KI-Assistenten 2026.",[11,24,25,26,29,30,33,34,37],{},"Dieser Artikel erklärt RAG, ohne in Mathematik abzudriften. Er richtet sich an Geschäftsführung, IT-Leitung und Compliance-Funktionen, die verstehen wollen, ",[15,27,28],{},"warum"," KI mit eigenen Daten funktioniert, ",[15,31,32],{},"wie"," Quellenangabe dabei zustande kommt und ",[15,35,36],{},"wo"," die Grenzen liegen.",[39,40,42],"h2",{"id":41},"warum-nicht-einfach-das-modell-trainieren","Warum nicht einfach „das Modell trainieren\"?",[11,44,45],{},"Viele Erstkontakte mit KI-Themen drehen sich gedanklich darum, das Sprachmodell „auf die eigenen Daten zu trainieren\" (Fachbegriff: Fine-Tuning). Das ist möglich, aber für die meisten Mittelstands-Use-Cases der falsche Weg. Drei Gründe:",[47,48,49,56,62],"ul",{},[50,51,52,55],"li",{},[15,53,54],{},"Kosten."," Fine-Tuning eines mittelgroßen Modells kostet Tage Rechenzeit auf teurer Hardware. Bei jeder Daten-Aktualisierung wieder.",[50,57,58,61],{},[15,59,60],{},"Aktualität."," Ein fine-getuntes Modell „weiß\" stand des Trainings. Sobald sich Akten oder Verträge ändern, ist das Modellwissen veraltet – ohne dass es das mitbekommt.",[50,63,64,67,68,71],{},[15,65,66],{},"Quellenangabe."," Ein fine-getuntes Modell ",[15,69,70],{},"kann nicht erklären, woher"," seine Antwort stammt. Es vermischt alle Trainingsdaten zu einer Antwort. Für ein Berufs- oder NIS2-Audit unbrauchbar.",[11,73,74],{},"RAG löst alle drei Probleme strukturell.",[39,76,78],{"id":77},"rag-in-einem-satz","RAG in einem Satz",[80,81,82],"blockquote",{},[11,83,84],{},"RAG bedeutet: bevor das Sprachmodell antwortet, sucht das System in Ihren Dokumenten nach den passenden Textstellen, gibt sie dem Modell als Kontext mit, und das Modell formuliert daraus eine Antwort mit Quellenverweis.",[11,86,87],{},"Das war es. Vier Schritte, von denen drei nichts mit dem Sprachmodell zu tun haben. Lassen Sie uns sie einzeln durchgehen.",[39,89,91],{"id":90},"die-vier-schritte-einer-rag-antwort","Die vier Schritte einer RAG-Antwort",[93,94,96],"h3",{"id":95},"schritt-1-frage-in-vektor-übersetzen","Schritt 1 – Frage in Vektor übersetzen",[11,98,99,100,103,104,107],{},"Ein Mitarbeiter stellt eine Frage: „Welche Kündigungsfrist haben wir mit Lieferant Müller GmbH vereinbart?\". Diese Frage wird zunächst in einen mathematischen Vektor übersetzt – einen Liste von 768 oder 1024 Zahlen, die den ",[15,101,102],{},"Sinn"," der Frage repräsentiert. Diese Übersetzung passiert in einem ",[15,105,106],{},"Embedding-Modell"," (kein Sprachmodell, etwas Spezialisiertes).",[11,109,110],{},"Wichtig: ähnliche Fragen ergeben ähnliche Vektoren. „Welche Kündigungsfrist haben wir mit Müller?\" und „Wann können wir den Vertrag mit Müller kündigen?\" landen mathematisch dicht beieinander.",[93,112,114],{"id":113},"schritt-2-in-der-vektordatenbank-nach-passenden-textstellen-suchen","Schritt 2 – In der Vektordatenbank nach passenden Textstellen suchen",[11,116,117,118,121],{},"Alle Ihre Dokumente wurden vorab in viele kleine Textstücke (Chunks) zerlegt und ebenfalls in Vektoren übersetzt. Diese Chunks liegen in einer ",[15,119,120],{},"Vektordatenbank"," (z. B. Qdrant, Weaviate, pgvector).",[11,123,124,125,128],{},"Jetzt sucht das System: welche Chunks haben Vektoren, die der Vektor der Frage am ähnlichsten sind? Typisch werden die ",[15,126,127],{},"5–10 ähnlichsten"," Chunks ausgewählt, mit Quell-Metadaten (Datei, Seite, Datum, Berechtigung).",[11,130,131],{},"In unserem Beispiel: das System findet wahrscheinlich genau den Absatz im Liefervertrag mit der Kündigungsfrist – plus zwei oder drei Kontext-Absätze (allgemeine Vertragsbedingungen, Anhang).",[93,133,135],{"id":134},"schritt-3-kontext-frage-an-das-sprachmodell-geben","Schritt 3 – Kontext + Frage an das Sprachmodell geben",[11,137,138],{},"Jetzt kommt das Sprachmodell ins Spiel. Es bekommt eine Aufgabe wie:",[80,140,141,144,147],{},[11,142,143],{},"„Beantworte die folgende Frage NUR auf Basis der unten stehenden Textstellen.\nWenn die Antwort nicht in den Textstellen steht, sage das ehrlich.\nVerweise in der Antwort auf die Quelle (Datei, Seite).",[11,145,146],{},"FRAGE: Welche Kündigungsfrist haben wir mit Müller GmbH?",[11,148,149,150,154,155,158],{},"TEXTSTELLEN:\n",[151,152,153],"span",{},"Chunk 1: Liefervertrag-Mueller-2024.pdf, Seite 7, Absatz 3","\nDie Kündigungsfrist für diesen Vertrag beträgt drei Monate zum Quartalsende…\n",[151,156,157],{},"Chunk 2: …","\n…\"",[11,160,161],{},"Das Modell formuliert nun eine Antwort, die strukturell auf den gefundenen Textstellen basiert. Es darf nicht „raten\", was es weiß, sondern muss aus dem mitgelieferten Material antworten.",[93,163,165],{"id":164},"schritt-4-antwort-mit-quellenangabe-ausgeben","Schritt 4 – Antwort mit Quellenangabe ausgeben",[11,167,168],{},"Die Antwort an den Mitarbeiter sieht typischerweise so aus:",[80,170,171],{},[11,172,173],{},"„Die Kündigungsfrist mit Müller GmbH beträgt drei Monate zum Quartalsende.\nQuelle: Liefervertrag-Mueller-2024.pdf, Seite 7.\"",[11,175,176],{},"Bei guten Implementierungen ist die Quelle direkt klickbar – der Mitarbeiter sieht den genauen Absatz im Originaldokument.",[39,178,180],{"id":179},"warum-das-halluzinationen-reduziert-aber-nicht-eliminiert","Warum das Halluzinationen reduziert (aber nicht eliminiert)",[11,182,183],{},"RAG ist die wichtigste strukturelle Antwort auf das Halluzinations-Problem von Sprachmodellen. Drei Effekte:",[185,186,187,193,199],"ol",{},[50,188,189,192],{},[15,190,191],{},"Antwort kommt aus Quelle, nicht aus Trainingswissen."," Wenn die richtigen Chunks gefunden werden, muss das Modell sich an sie halten.",[50,194,195,198],{},[15,196,197],{},"„Ich weiß es nicht\" ist erlaubt."," Wenn keine passenden Chunks gefunden werden, soll das System ehrlich antworten – statt zu raten.",[50,200,201,204],{},[15,202,203],{},"Quellenangabe ermöglicht Prüfung."," Mitarbeitende können sofort sehen, ob die Antwort wirklich aus dem zitierten Absatz folgt.",[11,206,207,208,211],{},"Aber: RAG ",[15,209,210],{},"eliminiert"," Halluzinationen nicht vollständig. Ein Sprachmodell, das die richtigen Chunks bekommt, kann sie immer noch falsch zusammenfassen oder Aussagen verdrehen. Deshalb gehören in jedes produktive RAG-System: Quellenklick, gelegentliche Stichprobenprüfung durch Fachpersonal, und ein klar kommunizierter Anspruch („Antwortvorschlag, nicht Beratungsersatz\").",[39,213,215],{"id":214},"wo-rag-implementierungen-typischerweise-scheitern","Wo RAG-Implementierungen typischerweise scheitern",[11,217,218],{},"In der Praxis sehen wir 2026 vier wiederkehrende Probleme bei schlechten RAG-Setups:",[185,220,221,227,233,239],{},[50,222,223,226],{},[15,224,225],{},"Naives Chunking."," Texte werden auf fester Wortzahl zerschnitten, mitten im Satz. Folge: zerrissene Sinneinheiten, schlechte Suche. Lösung: Chunking entlang von Überschriften, Absätzen, Tabellen-Grenzen.",[50,228,229,232],{},[15,230,231],{},"Fehlende Permissions."," Das System zeigt Mitarbeitenden Chunks aus Dokumenten, die sie eigentlich nicht sehen dürften. Datenschutz-Disaster. Lösung: ACLs aus Quellsystemen mit übernehmen, bei jeder Anfrage prüfen.",[50,234,235,238],{},[15,236,237],{},"Keine inkrementellen Updates."," Verträge ändern sich, Akten werden gelöscht – das System weiß nichts davon und antwortet weiter aus alten Versionen. Lösung: Daily Sync mit Quellsystemen, mit klarem „Lösch-Pfad\" für entfernte Dokumente.",[50,240,241,244],{},[15,242,243],{},"Keine Evaluation."," Niemand misst, wie oft das System richtig liegt. Folge: Mitarbeitende verlieren Vertrauen, Nutzung sinkt. Lösung: regelmäßige Stichprobenmessungen mit Fachpersonal, Kennzahlen wie Trefferquote und Prüfquote.",[39,246,248],{"id":247},"rag-ist-nicht-magisch-aber-es-funktioniert","RAG ist nicht magisch – aber es funktioniert",[11,250,251,252,255,256,259],{},"Aus der Architektur-Sicht ist RAG keine besonders komplizierte Idee. Sie kombiniert drei bekannte Bausteine: Embedding-Modell + Vektordatenbank + Sprachmodell mit klarer Anweisung. Die Komplexität liegt in der ",[15,253,254],{},"Daten-Qualität"," (Chunking, Permissions, Updates) und im ",[15,257,258],{},"Betriebs-Modell"," (Monitoring, Evaluation, Schulung).",[11,261,262],{},"Wer RAG sauber aufsetzt, bekommt 2026 einen wissensbasierten Assistenten, der ein konkretes Praxisproblem löst: das ständige Suchen in eigenen Akten, Verträgen, Verfahrensanweisungen. Der Wert wird oft erst nach 4–6 Wochen Nutzung sichtbar – aber dann nachhaltig.",[39,264,266],{"id":265},"wo-sie-als-nächstes-weiterlesen","Wo Sie als Nächstes weiterlesen",[47,268,269,277,284],{},[50,270,271,276],{},[272,273,275],"a",{"href":274},"\u002Fwissen\u002Fprivate-ki-leitfaden","\"Private KI für den Mittelstand: Der Leitfaden 2026\""," – die Architektur-Übersicht, die RAG einbettet.",[50,278,279,283],{},[272,280,282],{"href":281},"\u002Fwissen\u002Fki-einfuehrung-mittelstand","\"KI im Mittelstand einführen: Das 30-Tage-Playbook\""," – wie ein RAG-System in 30 Tagen produktiv wird.",[50,285,286,290],{},[272,287,289],{"href":288},"\u002Fwissen\u002Fprivate-ki-vs-chatgpt","\"Private KI vs. ChatGPT\""," – wann eine RAG-basierte Private-KI sinnvoller ist als öffentliche Tools.",[11,292,293,294],{},"Wer ein RAG-Setup für die eigene Organisation durchsprechen möchte: ",[15,295,296],{},"Direkt mit Nico Meyer, werktags 9–18 Uhr.",{"title":298,"searchDepth":299,"depth":299,"links":300},"",2,[301,302,303,310,311,312,313],{"id":41,"depth":299,"text":42},{"id":77,"depth":299,"text":78},{"id":90,"depth":299,"text":91,"children":304},[305,307,308,309],{"id":95,"depth":306,"text":96},3,{"id":113,"depth":306,"text":114},{"id":134,"depth":306,"text":135},{"id":164,"depth":306,"text":165},{"id":179,"depth":299,"text":180},{"id":214,"depth":299,"text":215},{"id":247,"depth":299,"text":248},{"id":265,"depth":299,"text":266},null,"2026-05-06","Retrieval-Augmented Generation (RAG) ist die Technologie hinter wissensbasierten KI-Assistenten mit Quellenangabe. Ohne Mathematik erklärt – für Geschäftsführung, IT-Leitung und alle, die KI-Architekturen verstehen wollen.",false,"md","spoke",{},true,"\u002Fwissen\u002Frag-einfach-erklaert","sicherheit","7","private-ki",{"title":5,"description":316},"wissen\u002Frag-einfach-erklaert",[329,330,325,331,332],"rag","retrieval-augmented-generation","vektordatenbank","wissensmanagement","b3Zi_peokGpxoE4ujg44dbeZNA1egv04XjWQXeGpCR8",{"id":335,"title":336,"bioShort":337,"body":338,"company":472,"companyUrl":473,"description":474,"extension":318,"hasOccupation":475,"isGuest":317,"jobTitle":476,"knowsAbout":477,"meta":488,"name":336,"navigation":321,"path":489,"photo":490,"publications":491,"sameAs":496,"seo":497,"slug":6,"stem":498,"__hash__":499},"autoren\u002Fautoren\u002Fnico-meyer.md","Nico Meyer","Gründer von Code15. Baut seit 10+ Jahren Software für den Mittelstand – heute mit Fokus auf Private KI, RAG-Systeme und sichere KI-Einführung in regulierten Branchen.",{"type":8,"value":339,"toc":465},[340,347,351,354,358,361,368,372,398,402,418,422],[11,341,342,343,346],{},"Nico Meyer ist Gründer und Geschäftsführer der Code15 GmbH mit Sitz in Unstrut-Hainich, Thüringen. Er begleitet mittelständische Unternehmen seit über zehn Jahren bei der Konzeption, Entwicklung und dem Betrieb individueller Software-Systeme – seit 2024 mit klarem Schwerpunkt auf ",[15,344,345],{},"sicheren, internen KI-Plattformen"," für Branchen mit hohen Datenschutzanforderungen: Steuerkanzleien, Wirtschaftsprüfung, Anwaltskanzleien, Ingenieurbüros und produzierende Unternehmen.",[39,348,350],{"id":349},"werdegang","Werdegang",[11,352,353],{},"Nach Stationen als Fullstack Engineer in Produkt- und Beratungsumgebungen gründete Nico 2020 die Code15 GmbH. Schwerpunkte: Vue\u002FNuxt-basierte Web-Anwendungen, AWS-Architektur und Cost-Optimierung sowie – seit 2024 – produktionsreife KI-Systeme, die ausschließlich auf eigener Infrastruktur betrieben werden („Private KI\"). Code15 hat in dieser Zeit u. a. SUSS MicroTec, Agile Heroes und German Arrowheads bei Software- und Cloud-Vorhaben unterstützt und das eigene Private-KI-Programm mit definiertem 30-Tage-Go-Live entwickelt.",[39,355,357],{"id":356},"fokus-heute-private-ki-für-regulierte-branchen","Fokus heute: Private KI für regulierte Branchen",[11,359,360],{},"Die meisten KI-Tools, die heute in Unternehmen ankommen, lösen ein neues Problem aus: Sensible Daten landen unkontrolliert in US-Cloud-Diensten. 50 % der Mitarbeitenden nutzen laut Software AG bereits KI-Tools ohne Genehmigung; 38 % geben dabei sensible Daten ein. Die durchschnittliche Datenpanne kostet deutsche Unternehmen 3,87 Mio. €. Mit NIS2 (in Kraft seit 2024, Umsetzungsdruck 2026) haftet die Geschäftsführung im Zweifel persönlich.",[11,362,363,364,367],{},"Nicos Antwort darauf ist eine ",[15,365,366],{},"schlüsselfertige Private-KI-Plattform",": Chat plus Dokumentenwissen mit Quellenangabe, Rollen und Audit-Trail – betrieben on-prem, in EU-Cloud oder in der Kunden-Infrastruktur. Kein Datenabfluss, keine US-Provider-Abhängigkeit, keine Halluzinationen ohne Quellen. Liefermodell: definierter 30-Tage-Pilot mit klarem Scope statt offener Beratungsstunden.",[39,369,371],{"id":370},"schwerpunkte","Schwerpunkte",[47,373,374,380,386,392],{},[50,375,376,379],{},[15,377,378],{},"Architektur und Betrieb"," von Private-KI-Systemen (LLM-Auswahl, RAG-Pipeline, Vector-DBs, Audit-Logging)",[50,381,382,385],{},[15,383,384],{},"DSGVO- und NIS2-konforme Einführung"," von KI in Unternehmen mit Mandantengeheimnis und besonderen Sorgfaltspflichten",[50,387,388,391],{},[15,389,390],{},"KI-Workshops für Geschäftsführung und IT-Verantwortliche"," – Use-Case-Discovery, Risiko-Mapping, Richtlinien-Templates",[50,393,394,397],{},[15,395,396],{},"Modernisierung bestehender Web-Systeme"," (Vue 2 → 3 \u002F Nuxt 3, AWS-Kostenoptimierung)",[39,399,401],{"id":400},"standpunkt","Standpunkt",[80,403,404],{},[11,405,406,407,410,411,414,415,417],{},"„Künstliche Intelligenz im Mittelstand scheitert selten an der Technik. Sie scheitert daran, dass niemand klar definiert, ",[15,408,409],{},"welches Wissen"," das System sehen darf, ",[15,412,413],{},"wer"," Antworten freigibt und ",[15,416,36],{}," die Daten am Ende liegen. Private KI ist die Antwort auf alle drei Fragen.\"",[39,419,421],{"id":420},"kontakt","Kontakt",[47,423,424,435,444,455],{},[50,425,426,429,430,434],{},[15,427,428],{},"Telefon:"," ",[272,431,433],{"href":432},"tel:+491608405463","+49 160 8405463"," – werktags 9–18 Uhr, direkt mit Nico",[50,436,437,429,440],{},[15,438,439],{},"E-Mail:",[272,441,443],{"href":442},"mailto:info@code15.dev","info@code15.dev",[50,445,446,429,449],{},[15,447,448],{},"LinkedIn:",[272,450,454],{"href":451,"rel":452},"https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Ffullstack-entwickler-nico-meyer",[453],"nofollow","fullstack-entwickler-nico-meyer",[50,456,457,429,460],{},[15,458,459],{},"GitHub:",[272,461,464],{"href":462,"rel":463},"https:\u002F\u002Fgithub.com\u002FIc3m4n34",[453],"Ic3m4n34",{"title":298,"searchDepth":299,"depth":299,"links":466},[467,468,469,470,471],{"id":349,"depth":299,"text":350},{"id":356,"depth":299,"text":357},{"id":370,"depth":299,"text":371},{"id":400,"depth":299,"text":401},{"id":420,"depth":299,"text":421},"Code15 GmbH","https:\u002F\u002Fcode15.dev","Nico Meyer ist Gründer und Geschäftsführer der Code15 GmbH mit Sitz in Unstrut-Hainich, Thüringen. Er begleitet mittelständische Unternehmen seit über zehn Jahren bei der Konzeption, Entwicklung und dem Betrieb individueller Software-Systeme – seit 2024 mit klarem Schwerpunkt auf sicheren, internen KI-Plattformen für Branchen mit hohen Datenschutzanforderungen: Steuerkanzleien, Wirtschaftsprüfung, Anwaltskanzleien, Ingenieurbüros und produzierende Unternehmen.","Software Engineer & KI-Berater","Geschäftsführer Code15 GmbH",[478,479,17,480,481,482,483,484,485,486,487],"Private KI","On-Premise LLM","DSGVO-konforme KI","NIS2-Compliance","KI-Workshops Mittelstand","Vue.js","Nuxt","TypeScript","AWS Cloud-Architektur","Vector-Datenbanken",{},"\u002Fautoren\u002Fnico-meyer","\u002Fteam\u002Fnico-meyer.webp",[492],{"title":493,"venue":494,"date":495},"Private KI im Mittelstand – ohne Datenabfluss nach außen","Antenne Thüringen","2026-04",[451,462],{"description":474},"autoren\u002Fnico-meyer","CA3_fRpzY7CdAJHl7InsCwksuCh8z13SWRnazliALy8",[501,656,747],{"id":502,"title":503,"author":6,"body":504,"cover":314,"coverAlt":314,"dateModified":642,"datePublished":315,"description":643,"draft":317,"extension":318,"faqItems":314,"format":644,"meta":645,"navigation":321,"path":646,"pillar":323,"readMinutes":647,"relatedServiceSlug":325,"relatedVariantSlug":314,"seo":648,"speakable":321,"stem":649,"tags":650,"__hash__":655},"wissen\u002Fwissen\u002Fglossar-on-prem-llm.md","On-Prem-LLM",{"type":8,"value":505,"toc":633},[506,517,521,541,545,548,552,572,576,596,600,603,607,621,625],[11,507,508,509,511,512,516],{},"Ein ",[15,510,503],{}," (englisch ",[513,514,515],"em",{},"on-premises Large Language Model",") ist ein Sprachmodell, das auf Hardware betrieben wird, die das Unternehmen selbst besitzt und kontrolliert – meist im eigenen Rechenzentrum oder in einem dedizierten Serverraum. Daten verlassen die Hardware-Umgebung nie; bei air-gapped Setups gibt es keine Internetverbindung.",[39,518,520],{"id":519},"wann-sich-on-prem-lohnt","Wann sich On-Prem lohnt",[47,522,523,529,535],{},[50,524,525,528],{},[15,526,527],{},"Hochsensible Daten"," (Mandantengeheimnis, Verteidigung, Pharma-FuE), bei denen selbst eine EU-Cloud zu viel Drittparteien-Beteiligung darstellt.",[50,530,531,534],{},[15,532,533],{},"Bestehende Operations-Reife"," in der eigenen IT für GPU-Hardware, Modell-Updates und Lastspitzen.",[50,536,537,540],{},[15,538,539],{},"Größenordnung ab 50–150 aktive Nutzende",", ab der Hardware-Investition gegen mehrjährige Cloud-Kosten konkurriert.",[39,542,544],{"id":543},"hardware-anforderungen-2026","Hardware-Anforderungen 2026",[11,546,547],{},"Die meisten Mittelstands-Use-Cases lassen sich mit 7B–17B-Open-Source-Modellen (Llama 4 Scout, Mistral, Qwen 3) auf einer einzelnen GPU mit 24–80 GB VRAM realisieren. Größere Modelle (Llama 4 Maverick 400B, DeepSeek-V3) benötigen mehrere GPUs der H100-Klasse. Die Investition reicht je nach Modellgröße und Skalierung von ca. 30.000 € bis 80.000 € einmalig für 50–150 aktive Nutzende; größere Setups liegen darüber.",[39,549,551],{"id":550},"vorteile-gegenüber-eu-cloud","Vorteile gegenüber EU-Cloud",[47,553,554,560,566],{},[50,555,556,559],{},[15,557,558],{},"Volle Hoheit"," über Daten, Konfigurationen und Modelle.",[50,561,562,565],{},[15,563,564],{},"Keine laufende Cloud-Rechnung",", dafür Hardware-Investition und Strom\u002FKühlung.",[50,567,568,571],{},[15,569,570],{},"Air-Gap möglich"," für regulatorisch besonders sensible Setups.",[39,573,575],{"id":574},"nachteile-und-risiken","Nachteile und Risiken",[47,577,578,584,590],{},[50,579,580,583],{},[15,581,582],{},"Operations-Aufwand:"," GPU-Treiber, Modell-Updates, Backup, Capacity-Planung erfordern reife IT-Funktionen oder einen Managed-Service-Partner.",[50,585,586,589],{},[15,587,588],{},"Eingeschränkte Skalierungs-Geschwindigkeit:"," Lastspitzen lassen sich nicht binnen Stunden abfangen.",[50,591,592,595],{},[15,593,594],{},"Modell-Auswahl beschränkt"," auf Open-Source und einige kommerzielle Modelle, die On-Prem-Lizenzen anbieten.",[39,597,599],{"id":598},"abgrenzung-zu-hybridem-setup","Abgrenzung zu hybridem Setup",[11,601,602],{},"In hybriden Architekturen läuft die Inferenz on-prem (sensible Daten verlassen das Unternehmen nie), während Vektorindex und Anwendungs-Backbone in der EU-Cloud betrieben werden. Diese Variante kombiniert die Datenkontrolle on-prem mit der Skalierungs-Bequemlichkeit der Cloud.",[39,604,606],{"id":605},"verwandte-begriffe","Verwandte Begriffe",[47,608,609,615],{},[50,610,611,614],{},[272,612,478],{"href":613},"\u002Fwissen\u002Fglossar-private-ki"," – die übergeordnete Konzeption.",[50,616,617,620],{},[272,618,21],{"href":619},"\u002Fwissen\u002Fglossar-rag"," – Architektur, die ein On-Prem-LLM für wissensbasierte Antworten erweitert.",[39,622,624],{"id":623},"vertiefung","Vertiefung",[11,626,627,628,632],{},"Hosting-Modell-Vergleich im Detail: ",[272,629,631],{"href":630},"\u002Fwissen\u002Fprivate-ki-leitfaden#hosting-modelle-im-detail","„Private KI für den Mittelstand: Der Leitfaden 2026\"",".",{"title":298,"searchDepth":299,"depth":299,"links":634},[635,636,637,638,639,640,641],{"id":519,"depth":299,"text":520},{"id":543,"depth":299,"text":544},{"id":550,"depth":299,"text":551},{"id":574,"depth":299,"text":575},{"id":598,"depth":299,"text":599},{"id":605,"depth":299,"text":606},{"id":623,"depth":299,"text":624},"2026-05-09","Definition: On-Prem-LLM bezeichnet ein Sprachmodell, das auf Hardware betrieben wird, die das Unternehmen selbst kontrolliert – meist im eigenen Rechenzentrum, optional ohne Internetverbindung.","glossar",{},"\u002Fwissen\u002Fglossar-on-prem-llm","3",{"title":503,"description":643},"wissen\u002Fglossar-on-prem-llm",[651,652,653,644,325,654],"on-prem-llm","on-premise","llm","mittelstand","HxKnmjUCHRcqpMloF0WZQ9quo8P0cia5nUjSr05aWtk",{"id":657,"title":478,"author":6,"body":658,"cover":314,"coverAlt":314,"dateModified":315,"datePublished":315,"description":739,"draft":317,"extension":318,"faqItems":314,"format":644,"meta":740,"navigation":321,"path":613,"pillar":323,"readMinutes":647,"relatedServiceSlug":325,"relatedVariantSlug":314,"seo":741,"speakable":321,"stem":742,"tags":743,"__hash__":746},"wissen\u002Fwissen\u002Fglossar-private-ki.md",{"type":8,"value":659,"toc":732},[660,665,669,689,693,696,700,703,705,725,727],[11,661,662,664],{},[15,663,478],{}," bezeichnet eine KI-Plattform, deren Betrieb in einer Infrastruktur erfolgt, die das Unternehmen selbst kontrolliert. Daten verlassen die Organisation während Verarbeitung und Speicherung nicht.",[39,666,668],{"id":667},"drei-hosting-varianten","Drei Hosting-Varianten",[47,670,671,677,683],{},[50,672,673,676],{},[15,674,675],{},"On-Premise:"," im eigenen Rechenzentrum, optional ohne Internetverbindung (air-gapped). Höchste Kontrolle, höchster Aufwand.",[50,678,679,682],{},[15,680,681],{},"Souveräne EU-Cloud:"," Hosting bei europäischen Anbietern (z. B. STACKIT, IONOS, Open Telekom Cloud). Kein US-Konzern in der Verarbeitungskette, kein Cloud-Act-Konflikt.",[50,684,685,688],{},[15,686,687],{},"Hybrid:"," Inferenz on-prem, Vektorindex und Anwendungs-Backbone in EU-Cloud. Balance aus Kontrolle und operativer Einfachheit.",[39,690,692],{"id":691},"abgrenzung-zu-öffentlichen-ki-diensten","Abgrenzung zu öffentlichen KI-Diensten",[11,694,695],{},"Private KI ist keine Lizenz für ChatGPT Enterprise, Microsoft 365 Copilot oder Google Gemini Enterprise. Diese Dienste laufen auf Infrastruktur von US-Konzernen. Sie sind als Auftragsverarbeitung zulässig, aber für Branchen mit Mandantengeheimnis (Steuerberatung, Wirtschaftsprüfung, Anwaltschaft) oder NIS2-Pflichten ist die strukturelle Datenkontrolle einer Private KI oft erforderlich.",[39,697,699],{"id":698},"typische-bestandteile","Typische Bestandteile",[11,701,702],{},"Eine produktive Private-KI-Plattform setzt sich aus mindestens fünf Bausteinen zusammen: Sprachmodell (LLM), Vektordatenbank, Ingestion-Pipeline, Anwendungs-Layer mit Rollen- und Rechte-Modell, Betriebs-Layer mit Monitoring und Audit-Log.",[39,704,606],{"id":605},[47,706,707,713,720],{},[50,708,709,712],{},[272,710,711],{"href":619},"RAG (Retrieval-Augmented Generation)"," – die Architektur hinter wissensbasierten KI-Antworten.",[50,714,715,719],{},[272,716,718],{"href":717},"\u002Fwissen\u002Fglossar-schatten-ki","Schatten-KI"," – das Problem, das Private KI strukturell löst.",[50,721,722,724],{},[272,723,503],{"href":646}," – die Hardware-Variante einer Private KI.",[39,726,624],{"id":623},[11,728,729,730,632],{},"Detaillierter Leitfaden mit Architektur, DSGVO\u002FNIS2 und 30-Tage-Pilot-Modell: ",[272,731,631],{"href":274},{"title":298,"searchDepth":299,"depth":299,"links":733},[734,735,736,737,738],{"id":667,"depth":299,"text":668},{"id":691,"depth":299,"text":692},{"id":698,"depth":299,"text":699},{"id":605,"depth":299,"text":606},{"id":623,"depth":299,"text":624},"Definition: Private KI bezeichnet eine KI-Plattform, die ausschließlich auf vom Unternehmen kontrollierter Infrastruktur betrieben wird – on-prem, in souveräner EU-Cloud oder hybrid – und Daten nicht an US-Provider weitergibt.",{},{"title":478,"description":739},"wissen\u002Fglossar-private-ki",[325,644,744,652,745],"dsgvo","eu-cloud","idO8StEPZFshAkIWq3HYbuhV7TDfyq7QpTuZnynx_2U",{"id":748,"title":711,"author":6,"body":749,"cover":314,"coverAlt":314,"dateModified":315,"datePublished":315,"description":861,"draft":317,"extension":318,"faqItems":314,"format":644,"meta":862,"navigation":321,"path":619,"pillar":323,"readMinutes":647,"relatedServiceSlug":325,"relatedVariantSlug":314,"seo":863,"speakable":321,"stem":864,"tags":865,"__hash__":866},"wissen\u002Fwissen\u002Fglossar-rag.md",{"type":8,"value":750,"toc":853},[751,757,761,787,791,794,798,824,828,831,833,845,847],[11,752,753,756],{},[15,754,755],{},"Retrieval-Augmented Generation (RAG)"," ist die Architektur hinter wissensbasierten KI-Assistenten 2026. Sie verbindet ein Sprachmodell (LLM) mit einer Suche in vorab indexierten Dokumenten und ermöglicht Antworten mit klarer Quellenangabe.",[39,758,760],{"id":759},"funktionsprinzip-in-vier-schritten","Funktionsprinzip in vier Schritten",[185,762,763,769,775,781],{},[50,764,765,768],{},[15,766,767],{},"Frage in Vektor übersetzen."," Ein Embedding-Modell verwandelt die Frage in einen mathematischen Vektor, der den Sinn (nicht die Wörter) abbildet.",[50,770,771,774],{},[15,772,773],{},"Passende Textstellen suchen."," In einer Vektordatenbank werden die ähnlichsten Chunks aus den eigenen Dokumenten abgerufen, inklusive Quell-Metadaten und Permissions.",[50,776,777,780],{},[15,778,779],{},"Kontext + Frage an das LLM."," Das Modell bekommt die Anweisung, ausschließlich auf Basis der gelieferten Textstellen zu antworten und die Quelle zu zitieren.",[50,782,783,786],{},[15,784,785],{},"Antwort mit Quellenangabe."," Mitarbeitende sehen die Antwort plus den Verweis auf Datei, Seite und Datum – idealerweise klickbar zum Original.",[39,788,790],{"id":789},"warum-rag-halluzinationen-reduziert","Warum RAG Halluzinationen reduziert",[11,792,793],{},"Ein klassisches Sprachmodell „rät\" aus seinem Trainingswissen. Ein RAG-System wird angewiesen, sich an die mitgelieferten Quellen zu halten und „Ich weiß es nicht\" zu sagen, wenn nichts Passendes gefunden wurde. Das eliminiert Halluzinationen nicht vollständig, reduziert sie aber strukturell.",[39,795,797],{"id":796},"wichtige-bestandteile","Wichtige Bestandteile",[47,799,800,806,812,818],{},[50,801,802,805],{},[15,803,804],{},"Embedding-Modell:"," wandelt Fragen und Dokumenten-Chunks in Vektoren um.",[50,807,808,811],{},[15,809,810],{},"Vektordatenbank:"," speichert die Chunk-Vektoren mit Metadaten (Qdrant, Weaviate, pgvector sind 2026 Standard).",[50,813,814,817],{},[15,815,816],{},"Ingestion-Pipeline:"," zerlegt Dokumente in semantisch sinnvolle Chunks, übernimmt Permissions aus Quellsystemen, hält Updates inkrementell.",[50,819,820,823],{},[15,821,822],{},"Sprachmodell mit klarer Anweisung:"," generiert die endgültige Antwort.",[39,825,827],{"id":826},"häufige-implementierungs-fehler","Häufige Implementierungs-Fehler",[11,829,830],{},"Naives Chunking auf fester Wortzahl, fehlende Permissions, keine inkrementellen Updates und keine Evaluation – die vier Stolpersteine, an denen schwache RAG-Setups 2026 erkennbar sind.",[39,832,606],{"id":605},[47,834,835,840],{},[50,836,837,839],{},[272,838,478],{"href":613}," – die Plattform, in der RAG meistens läuft.",[50,841,842,844],{},[272,843,503],{"href":646}," – Sprachmodell-Variante für RAG.",[39,846,624],{"id":623},[11,848,849,850,632],{},"Schritt-für-Schritt-Erklärung mit Beispiel: ",[272,851,852],{"href":322},"„RAG einfach erklärt: Wie KI mit Ihren eigenen Daten arbeitet\"",{"title":298,"searchDepth":299,"depth":299,"links":854},[855,856,857,858,859,860],{"id":759,"depth":299,"text":760},{"id":789,"depth":299,"text":790},{"id":796,"depth":299,"text":797},{"id":826,"depth":299,"text":827},{"id":605,"depth":299,"text":606},{"id":623,"depth":299,"text":624},"Definition: RAG kombiniert ein Sprachmodell mit einer Suche in eigenen Dokumenten. Statt aus Trainingswissen zu raten, antwortet das Modell auf Basis abgerufener Textstellen mit Quellenangabe.",{},{"title":711,"description":861},"wissen\u002Fglossar-rag",[329,330,644,331,325],"fpLC3mtmle5j4J0F-frjjASP4AwmHQN_gnNy1kTBaH8",1778412787340]