[{"data":1,"prerenderedAt":521},["ShallowReactive",2],{"wissen-glossar":3},[4,178,270,395],{"id":5,"title":6,"author":7,"body":8,"cover":157,"coverAlt":157,"dateModified":158,"datePublished":159,"description":160,"draft":161,"extension":162,"faqItems":157,"format":163,"meta":164,"navigation":165,"path":166,"pillar":167,"readMinutes":168,"relatedServiceSlug":169,"relatedVariantSlug":157,"seo":170,"speakable":165,"stem":171,"tags":172,"__hash__":177},"wissen\u002Fwissen\u002Fglossar-on-prem-llm.md","On-Prem-LLM","nico-meyer",{"type":9,"value":10,"toc":146},"minimark",[11,24,29,51,55,58,62,82,86,106,110,113,117,134,138],[12,13,14,15,18,19,23],"p",{},"Ein ",[16,17,6],"strong",{}," (englisch ",[20,21,22],"em",{},"on-premises Large Language Model",") ist ein Sprachmodell, das auf Hardware betrieben wird, die das Unternehmen selbst besitzt und kontrolliert – meist im eigenen Rechenzentrum oder in einem dedizierten Serverraum. Daten verlassen die Hardware-Umgebung nie; bei air-gapped Setups gibt es keine Internetverbindung.",[25,26,28],"h2",{"id":27},"wann-sich-on-prem-lohnt","Wann sich On-Prem lohnt",[30,31,32,39,45],"ul",{},[33,34,35,38],"li",{},[16,36,37],{},"Hochsensible Daten"," (Mandantengeheimnis, Verteidigung, Pharma-FuE), bei denen selbst eine EU-Cloud zu viel Drittparteien-Beteiligung darstellt.",[33,40,41,44],{},[16,42,43],{},"Bestehende Operations-Reife"," in der eigenen IT für GPU-Hardware, Modell-Updates und Lastspitzen.",[33,46,47,50],{},[16,48,49],{},"Größenordnung ab 50–150 aktive Nutzende",", ab der Hardware-Investition gegen mehrjährige Cloud-Kosten konkurriert.",[25,52,54],{"id":53},"hardware-anforderungen-2026","Hardware-Anforderungen 2026",[12,56,57],{},"Die meisten Mittelstands-Use-Cases lassen sich mit 7B–17B-Open-Source-Modellen (Llama 4 Scout, Mistral, Qwen 3) auf einer einzelnen GPU mit 24–80 GB VRAM realisieren. Größere Modelle (Llama 4 Maverick 400B, DeepSeek-V3) benötigen mehrere GPUs der H100-Klasse. Die Investition reicht je nach Modellgröße und Skalierung von ca. 30.000 € bis 80.000 € einmalig für 50–150 aktive Nutzende; größere Setups liegen darüber.",[25,59,61],{"id":60},"vorteile-gegenüber-eu-cloud","Vorteile gegenüber EU-Cloud",[30,63,64,70,76],{},[33,65,66,69],{},[16,67,68],{},"Volle Hoheit"," über Daten, Konfigurationen und Modelle.",[33,71,72,75],{},[16,73,74],{},"Keine laufende Cloud-Rechnung",", dafür Hardware-Investition und Strom\u002FKühlung.",[33,77,78,81],{},[16,79,80],{},"Air-Gap möglich"," für regulatorisch besonders sensible Setups.",[25,83,85],{"id":84},"nachteile-und-risiken","Nachteile und Risiken",[30,87,88,94,100],{},[33,89,90,93],{},[16,91,92],{},"Operations-Aufwand:"," GPU-Treiber, Modell-Updates, Backup, Capacity-Planung erfordern reife IT-Funktionen oder einen Managed-Service-Partner.",[33,95,96,99],{},[16,97,98],{},"Eingeschränkte Skalierungs-Geschwindigkeit:"," Lastspitzen lassen sich nicht binnen Stunden abfangen.",[33,101,102,105],{},[16,103,104],{},"Modell-Auswahl beschränkt"," auf Open-Source und einige kommerzielle Modelle, die On-Prem-Lizenzen anbieten.",[25,107,109],{"id":108},"abgrenzung-zu-hybridem-setup","Abgrenzung zu hybridem Setup",[12,111,112],{},"In hybriden Architekturen läuft die Inferenz on-prem (sensible Daten verlassen das Unternehmen nie), während Vektorindex und Anwendungs-Backbone in der EU-Cloud betrieben werden. Diese Variante kombiniert die Datenkontrolle on-prem mit der Skalierungs-Bequemlichkeit der Cloud.",[25,114,116],{"id":115},"verwandte-begriffe","Verwandte Begriffe",[30,118,119,127],{},[33,120,121,126],{},[122,123,125],"a",{"href":124},"\u002Fwissen\u002Fglossar-private-ki","Private KI"," – die übergeordnete Konzeption.",[33,128,129,133],{},[122,130,132],{"href":131},"\u002Fwissen\u002Fglossar-rag","RAG"," – Architektur, die ein On-Prem-LLM für wissensbasierte Antworten erweitert.",[25,135,137],{"id":136},"vertiefung","Vertiefung",[12,139,140,141,145],{},"Hosting-Modell-Vergleich im Detail: ",[122,142,144],{"href":143},"\u002Fwissen\u002Fprivate-ki-leitfaden#hosting-modelle-im-detail","„Private KI für den Mittelstand: Der Leitfaden 2026\"",".",{"title":147,"searchDepth":148,"depth":148,"links":149},"",2,[150,151,152,153,154,155,156],{"id":27,"depth":148,"text":28},{"id":53,"depth":148,"text":54},{"id":60,"depth":148,"text":61},{"id":84,"depth":148,"text":85},{"id":108,"depth":148,"text":109},{"id":115,"depth":148,"text":116},{"id":136,"depth":148,"text":137},null,"2026-05-09","2026-05-06","Definition: On-Prem-LLM bezeichnet ein Sprachmodell, das auf Hardware betrieben wird, die das Unternehmen selbst kontrolliert – meist im eigenen Rechenzentrum, optional ohne Internetverbindung.",false,"md","glossar",{},true,"\u002Fwissen\u002Fglossar-on-prem-llm","sicherheit","3","private-ki",{"title":6,"description":160},"wissen\u002Fglossar-on-prem-llm",[173,174,175,163,169,176],"on-prem-llm","on-premise","llm","mittelstand","HxKnmjUCHRcqpMloF0WZQ9quo8P0cia5nUjSr05aWtk",{"id":179,"title":125,"author":7,"body":180,"cover":157,"coverAlt":157,"dateModified":159,"datePublished":159,"description":262,"draft":161,"extension":162,"faqItems":157,"format":163,"meta":263,"navigation":165,"path":124,"pillar":167,"readMinutes":168,"relatedServiceSlug":169,"relatedVariantSlug":157,"seo":264,"speakable":165,"stem":265,"tags":266,"__hash__":269},"wissen\u002Fwissen\u002Fglossar-private-ki.md",{"type":9,"value":181,"toc":255},[182,187,191,211,215,218,222,225,227,247,249],[12,183,184,186],{},[16,185,125],{}," bezeichnet eine KI-Plattform, deren Betrieb in einer Infrastruktur erfolgt, die das Unternehmen selbst kontrolliert. Daten verlassen die Organisation während Verarbeitung und Speicherung nicht.",[25,188,190],{"id":189},"drei-hosting-varianten","Drei Hosting-Varianten",[30,192,193,199,205],{},[33,194,195,198],{},[16,196,197],{},"On-Premise:"," im eigenen Rechenzentrum, optional ohne Internetverbindung (air-gapped). Höchste Kontrolle, höchster Aufwand.",[33,200,201,204],{},[16,202,203],{},"Souveräne EU-Cloud:"," Hosting bei europäischen Anbietern (z. B. STACKIT, IONOS, Open Telekom Cloud). Kein US-Konzern in der Verarbeitungskette, kein Cloud-Act-Konflikt.",[33,206,207,210],{},[16,208,209],{},"Hybrid:"," Inferenz on-prem, Vektorindex und Anwendungs-Backbone in EU-Cloud. Balance aus Kontrolle und operativer Einfachheit.",[25,212,214],{"id":213},"abgrenzung-zu-öffentlichen-ki-diensten","Abgrenzung zu öffentlichen KI-Diensten",[12,216,217],{},"Private KI ist keine Lizenz für ChatGPT Enterprise, Microsoft 365 Copilot oder Google Gemini Enterprise. Diese Dienste laufen auf Infrastruktur von US-Konzernen. Sie sind als Auftragsverarbeitung zulässig, aber für Branchen mit Mandantengeheimnis (Steuerberatung, Wirtschaftsprüfung, Anwaltschaft) oder NIS2-Pflichten ist die strukturelle Datenkontrolle einer Private KI oft erforderlich.",[25,219,221],{"id":220},"typische-bestandteile","Typische Bestandteile",[12,223,224],{},"Eine produktive Private-KI-Plattform setzt sich aus mindestens fünf Bausteinen zusammen: Sprachmodell (LLM), Vektordatenbank, Ingestion-Pipeline, Anwendungs-Layer mit Rollen- und Rechte-Modell, Betriebs-Layer mit Monitoring und Audit-Log.",[25,226,116],{"id":115},[30,228,229,235,242],{},[33,230,231,234],{},[122,232,233],{"href":131},"RAG (Retrieval-Augmented Generation)"," – die Architektur hinter wissensbasierten KI-Antworten.",[33,236,237,241],{},[122,238,240],{"href":239},"\u002Fwissen\u002Fglossar-schatten-ki","Schatten-KI"," – das Problem, das Private KI strukturell löst.",[33,243,244,246],{},[122,245,6],{"href":166}," – die Hardware-Variante einer Private KI.",[25,248,137],{"id":136},[12,250,251,252,145],{},"Detaillierter Leitfaden mit Architektur, DSGVO\u002FNIS2 und 30-Tage-Pilot-Modell: ",[122,253,144],{"href":254},"\u002Fwissen\u002Fprivate-ki-leitfaden",{"title":147,"searchDepth":148,"depth":148,"links":256},[257,258,259,260,261],{"id":189,"depth":148,"text":190},{"id":213,"depth":148,"text":214},{"id":220,"depth":148,"text":221},{"id":115,"depth":148,"text":116},{"id":136,"depth":148,"text":137},"Definition: Private KI bezeichnet eine KI-Plattform, die ausschließlich auf vom Unternehmen kontrollierter Infrastruktur betrieben wird – on-prem, in souveräner EU-Cloud oder hybrid – und Daten nicht an US-Provider weitergibt.",{},{"title":125,"description":262},"wissen\u002Fglossar-private-ki",[169,163,267,174,268],"dsgvo","eu-cloud","idO8StEPZFshAkIWq3HYbuhV7TDfyq7QpTuZnynx_2U",{"id":271,"title":233,"author":7,"body":272,"cover":157,"coverAlt":157,"dateModified":159,"datePublished":159,"description":386,"draft":161,"extension":162,"faqItems":157,"format":163,"meta":387,"navigation":165,"path":131,"pillar":167,"readMinutes":168,"relatedServiceSlug":169,"relatedVariantSlug":157,"seo":388,"speakable":165,"stem":389,"tags":390,"__hash__":394},"wissen\u002Fwissen\u002Fglossar-rag.md",{"type":9,"value":273,"toc":378},[274,280,284,311,315,318,322,348,352,355,357,369,371],[12,275,276,279],{},[16,277,278],{},"Retrieval-Augmented Generation (RAG)"," ist die Architektur hinter wissensbasierten KI-Assistenten 2026. Sie verbindet ein Sprachmodell (LLM) mit einer Suche in vorab indexierten Dokumenten und ermöglicht Antworten mit klarer Quellenangabe.",[25,281,283],{"id":282},"funktionsprinzip-in-vier-schritten","Funktionsprinzip in vier Schritten",[285,286,287,293,299,305],"ol",{},[33,288,289,292],{},[16,290,291],{},"Frage in Vektor übersetzen."," Ein Embedding-Modell verwandelt die Frage in einen mathematischen Vektor, der den Sinn (nicht die Wörter) abbildet.",[33,294,295,298],{},[16,296,297],{},"Passende Textstellen suchen."," In einer Vektordatenbank werden die ähnlichsten Chunks aus den eigenen Dokumenten abgerufen, inklusive Quell-Metadaten und Permissions.",[33,300,301,304],{},[16,302,303],{},"Kontext + Frage an das LLM."," Das Modell bekommt die Anweisung, ausschließlich auf Basis der gelieferten Textstellen zu antworten und die Quelle zu zitieren.",[33,306,307,310],{},[16,308,309],{},"Antwort mit Quellenangabe."," Mitarbeitende sehen die Antwort plus den Verweis auf Datei, Seite und Datum – idealerweise klickbar zum Original.",[25,312,314],{"id":313},"warum-rag-halluzinationen-reduziert","Warum RAG Halluzinationen reduziert",[12,316,317],{},"Ein klassisches Sprachmodell „rät\" aus seinem Trainingswissen. Ein RAG-System wird angewiesen, sich an die mitgelieferten Quellen zu halten und „Ich weiß es nicht\" zu sagen, wenn nichts Passendes gefunden wurde. Das eliminiert Halluzinationen nicht vollständig, reduziert sie aber strukturell.",[25,319,321],{"id":320},"wichtige-bestandteile","Wichtige Bestandteile",[30,323,324,330,336,342],{},[33,325,326,329],{},[16,327,328],{},"Embedding-Modell:"," wandelt Fragen und Dokumenten-Chunks in Vektoren um.",[33,331,332,335],{},[16,333,334],{},"Vektordatenbank:"," speichert die Chunk-Vektoren mit Metadaten (Qdrant, Weaviate, pgvector sind 2026 Standard).",[33,337,338,341],{},[16,339,340],{},"Ingestion-Pipeline:"," zerlegt Dokumente in semantisch sinnvolle Chunks, übernimmt Permissions aus Quellsystemen, hält Updates inkrementell.",[33,343,344,347],{},[16,345,346],{},"Sprachmodell mit klarer Anweisung:"," generiert die endgültige Antwort.",[25,349,351],{"id":350},"häufige-implementierungs-fehler","Häufige Implementierungs-Fehler",[12,353,354],{},"Naives Chunking auf fester Wortzahl, fehlende Permissions, keine inkrementellen Updates und keine Evaluation – die vier Stolpersteine, an denen schwache RAG-Setups 2026 erkennbar sind.",[25,356,116],{"id":115},[30,358,359,364],{},[33,360,361,363],{},[122,362,125],{"href":124}," – die Plattform, in der RAG meistens läuft.",[33,365,366,368],{},[122,367,6],{"href":166}," – Sprachmodell-Variante für RAG.",[25,370,137],{"id":136},[12,372,373,374,145],{},"Schritt-für-Schritt-Erklärung mit Beispiel: ",[122,375,377],{"href":376},"\u002Fwissen\u002Frag-einfach-erklaert","„RAG einfach erklärt: Wie KI mit Ihren eigenen Daten arbeitet\"",{"title":147,"searchDepth":148,"depth":148,"links":379},[380,381,382,383,384,385],{"id":282,"depth":148,"text":283},{"id":313,"depth":148,"text":314},{"id":320,"depth":148,"text":321},{"id":350,"depth":148,"text":351},{"id":115,"depth":148,"text":116},{"id":136,"depth":148,"text":137},"Definition: RAG kombiniert ein Sprachmodell mit einer Suche in eigenen Dokumenten. Statt aus Trainingswissen zu raten, antwortet das Modell auf Basis abgerufener Textstellen mit Quellenangabe.",{},{"title":233,"description":386},"wissen\u002Fglossar-rag",[391,392,163,393,169],"rag","retrieval-augmented-generation","vektordatenbank","fpLC3mtmle5j4J0F-frjjASP4AwmHQN_gnNy1kTBaH8",{"id":396,"title":240,"author":7,"body":397,"cover":157,"coverAlt":157,"dateModified":158,"datePublished":159,"description":511,"draft":161,"extension":162,"faqItems":157,"format":163,"meta":512,"navigation":165,"path":239,"pillar":167,"readMinutes":168,"relatedServiceSlug":169,"relatedVariantSlug":157,"seo":513,"speakable":165,"stem":514,"tags":515,"__hash__":520},"wissen\u002Fwissen\u002Fglossar-schatten-ki.md",{"type":9,"value":398,"toc":503},[399,407,411,441,445,448,452,455,459,485,487,494,496],[12,400,401,18,403,406],{},[16,402,240],{},[20,404,405],{},"Shadow AI",") bezeichnet die Nutzung öffentlicher KI-Dienste – ChatGPT, Claude, Gemini, Microsoft Copilot, AI-Wrapper-Tools – durch Mitarbeitende, ohne dass die IT- oder Compliance-Funktion davon Kenntnis hat oder sie genehmigt hat.",[25,408,410],{"id":409},"größenordnung-2026","Größenordnung 2026",[30,412,413,419,425,431],{},[33,414,415,418],{},[16,416,417],{},"Mehr als die Hälfte"," der Knowledge Worker in Deutschland, USA und UK nutzt KI-Tools, die ihre IT nicht kennt (Software AG „Chasing Shadows\" 2024, n=6.000).",[33,420,421,424],{},[16,422,423],{},"38 %"," aller Mitarbeitenden geben sensible Daten in KI-Tools ein – Mandantenakten, Kalkulationen, Strategiepapiere, Quellcode (CybSafe \u002F NCA „Oh Behave!\" 2024, n>7.000).",[33,426,427,430],{},[16,428,429],{},"17 %"," der Unternehmen haben automatisierte technische Controls (Blocking\u002FScanning), die das Hochladen vertraulicher Daten in öffentliche KI-Tools verhindern (IBM Cost of a Data Breach Report 2025).",[33,432,433,436,437,440],{},[16,434,435],{},"97 %"," der Unternehmen mit KI-Sicherheitsvorfall hatten keine sauberen AI-Access-Controls; ",[16,438,439],{},"63 %"," haben gar keine AI-Governance-Policy (IBM 2025).",[25,442,444],{"id":443},"warum-schatten-ki-ein-compliance-problem-ist","Warum Schatten-KI ein Compliance-Problem ist",[12,446,447],{},"Die DSGVO verlangt Kontrolle über Datenflüsse und Auftragsverarbeitung. Schatten-KI bricht diese Kontrolle, weil Daten unbemerkt an Drittstaaten-Provider abfließen. NIS2 verschärft das Problem: Geschäftsführung muss Cyber-Risiken aktiv managen und haftet im Schadensfall persönlich. Eine unkontrollierte KI-Nutzung ist 2026 in einem NIS2-Audit nicht verteidigbar.",[25,449,451],{"id":450},"warum-verbote-nicht-funktionieren","Warum Verbote nicht funktionieren",[12,453,454],{},"Mitarbeitende nutzen Schatten-KI, weil sie damit Zeit sparen – täglich, spürbar. Verbote werden in der Praxis umgangen über private Geräte, persönliche Browser-Profile und alternative Tools. Die einzige strukturell wirksame Antwort ist eine offizielle, gleich gute oder bessere KI-Plattform.",[25,456,458],{"id":457},"eindämmungs-maßnahmen","Eindämmungs-Maßnahmen",[30,460,461,467,473,479],{},[33,462,463,466],{},[16,464,465],{},"Offizielle Private-KI-Plattform"," mit ChatGPT-Niveau-UX als attraktive Alternative.",[33,468,469,472],{},[16,470,471],{},"KI-Richtlinie"," auf einer Seite, die explizit erlaubt, was erlaubt ist – nicht nur verbietet.",[33,474,475,478],{},[16,476,477],{},"Audit-Log"," auf der offiziellen Plattform für NIS2-Nachweis.",[33,480,481,484],{},[16,482,483],{},"Anonyme Bestandsaufnahme"," statt repressiver Sanktionen, um echte Sichtbarkeit zu schaffen.",[25,486,116],{"id":115},[30,488,489],{},[33,490,491,493],{},[122,492,125],{"href":124}," – die strukturelle Antwort auf Schatten-KI.",[25,495,137],{"id":136},[12,497,498,499,145],{},"Praxisleitfaden mit Studienlage und Eindämmungsplan: ",[122,500,502],{"href":501},"\u002Fwissen\u002Fschatten-ki-eindaemmen","„Schatten-KI im Unternehmen: 50 % nutzen sie heimlich – was tun?\"",{"title":147,"searchDepth":148,"depth":148,"links":504},[505,506,507,508,509,510],{"id":409,"depth":148,"text":410},{"id":443,"depth":148,"text":444},{"id":450,"depth":148,"text":451},{"id":457,"depth":148,"text":458},{"id":115,"depth":148,"text":116},{"id":136,"depth":148,"text":137},"Definition: Schatten-KI bezeichnet die ungenehmigte Nutzung öffentlicher KI-Dienste durch Mitarbeitende, ohne Wissen oder Freigabe der IT- oder Compliance-Funktion.",{},{"title":240,"description":511},"wissen\u002Fglossar-schatten-ki",[516,517,163,267,518,519],"schatten-ki","shadow-ai","nis2","compliance","BH-lg9v3PiaSMXvrZyS67fob-7AWAA_qApqtp0AXYdE",1778412786664]