Wie LLM-gestützte Systeme lernen – und warum Benutzung alleine nichts verbessert
9/30/2025
Max
Viele Menschen gehen davon aus, dass ein KI-System mit jeder Nutzung automatisch schlauer wird. „Je öfter wir es verwenden, desto besser wird es schon“, heißt es dann. Das klingt verlockend, ist aber falsch. Ein Large Language Model (LLM) verbessert seine Antworten nicht automatisch, nur weil es oft gefragt oder in einer Konversation korrigiert wird. Ohne die richtigen Datenflüsse, Feedback-Schleifen und Verbesserungsmechanismen bleibt die Qualität stehen, oder wird sogar schlechter.
In diesem Beitrag zeige ich praxisnah, was ein LLM-gestütztes System braucht, um durch reale Nutzung besser zu werden, welche Rolle Nutzer-Feedback spielt und wie sich die drei zentralen Stellschrauben – Context-Engineering (Prompting & Orchestrierung), RAG (Retrieval-Augmented Generation) und Fine-Tuning – unterscheiden. Außerdem beschreibe ich, wie man das Ganze in der Praxis mit einer KI-Middleware wie ONE datenschutzkonform und herstellerunabhängig aufsetzt: von der Feedback-Erfassung über Evaluation bis zur kontinuierlichen Verbesserung.
Vorneweg: Was bedeutet „Lernen“ bei LLM-Systemen?
Wenn wir sagen, ein LLM „lernt“, müssen wir unterscheiden zwischen drei Ebenen:
Gewichtslernen (Model Weights): Das eigentliche Trainieren oder Fine-Tuning des Modells verändert die Modellgewichte. Das ist der einzige Mechanismus, durch den das Modell selbst neues Wissen oder neue Verhaltensmuster in seine Parameter schreibt.
Wissenszufuhr zur Laufzeit (Context): Durch Context-Engineering (also gute Prompts, Tools, Struktur) und RAG (Retrieval aus eigenen Datenquellen) ändert sich nicht das Modell, aber die Information, auf deren Basis es antwortet. Das fühlt sich wie „Lernen“ an, ist aber technisch kein Lernen, sondern bessere Informationsversorgung in der Anfrage.
Systemlernen (Pipelines & Policies): Alles rund um Feedback-Schleifen, Bewertung, Regeln, Tool-Aufrufe, Caching, Guardrails, Tests – also die Architektur um das Modell – kann iterativ verbessert werden. Auch das ist kein Gewichtslernen, führt aber sehr real zu höherer Qualität über die Zeit.
Merke: Nur Fine-Tuning schreibt ins Modell. RAG und Context-Engineering schreiben in deine Systemlandschaft (Daten, Prompts, Policies). Für den Nutzer wirkt alles wie „die KI lernt“, aber unter der Haube sind es verschiedenartige Mechanismen – mit sehr unterschiedlichen Kosten, Risiken und Wartungsaufwänden.
Ohne gutes Feedback kein Fortschritt: „Shit in, shit out“
Wenn du weisst, dass dein System besser werden soll, brauchst du Feedback, das
Task-Outcome (z. B. „Ticket konnte gelöst werden: ja/nein“)
Implizit (verhaltensbasiert):
Abbruchrate (User bricht Konversation ab → Antwort unbrauchbar?)
Reformulierung (User fragt dasselbe anders → Antwort traf nicht)
Zeit bis zum Ziel (lange Bearbeitungszeit → unklarer Output)
Weiterklicken/Copy-Paste (wurde die Antwort weiterverwendet?)
Kontext-Metadaten:
Nutzungsfall (Use Case, Persona, Abteilung)
Datenbasis (welche Quelle, Dokument-Version)
Modell & Prompt-Version (A/B-Test, Temperaturoptionen)
Sicherheitskontext (Mandant, Berechtigungen)
Praxisregel: Feedback muss strukturiert sein. Ein Freitext „War nicht gut“ hilft kaum. Eine markierte Passage + Label „falsch, Quelle X, Stand Y“ ist Gold wert.
Datenqualität entscheidet
Die härteste Wahrheit im KI-Betrieb: Schlechte Feedback-Daten verschlechtern das System.
Wenn du unklare oder widersprüchliche Labels sammelst, trainierst oder konfigurierst du pures Chaos. Qualitätsmaßnahmen sind deshalb Pflicht:
Anleitungsqualität für Annotatoren (wer labelt, nach welcher Definition?)
Doppelte Annotation bei Unklarheiten (Inter-Annotator-Agreement)
Gold-Standards (kuratierte Referenzfälle)
Bias-Checks (vermeidet dein Feedback systematisch falsche Präferenzen?)
Privacy by Design (PII-Erkennung, Maskierung, Zweckbindung, Löschkonzepte)
Drei Wege zur Verbesserung: Context-Engineering, RAG und Fine-Tuning
Diese drei Hebel haben unterschiedliche Eigenschaften. Hier ist der Überblick – danach gehen wir tiefer rein.
Ziel: Das Modell präziser steuern, ohne Trainingsaufwand.
Mittel: System-Prompts, Rollen, Output-Schemas (z. B. JSON), Tool-Aufrufe (z. B. Rechnen, Suche, ERP-API), Guardrails, Agent-Orchestrierung (z. B. Plan-Schritte).
Beispiele:
Ein Incident-Responder-Assistent gibt Antworten immer im Ticket-Template aus, mit Feldern für Impact/Root-Cause/Next Steps.
Ein Vertriebsassistent nutzt ein Kalkulations-Tool, statt die Marge „zu raten“.
Ein HR-Bot ruft eine Policy-Datenbank via Tool auf, statt aus dem Gedächtnis zu fabulieren.
Grenzen:
Kein neues Wissen: Die Antwortqualität hängt stark vom mitgegebenen Kontext und den Tools ab.
Ohne Tests driften Prompts still und leise.
Teams verlieren schnell den Überblick über Versionen.
Best Practices:
Versioniere Prompts.
Erzwinge strukturierte Ausgaben (Schemata).
Baue automatisierte Evals (z. B. Regelsuiten: „Antwort muss Quelle nennen“).
Nutze Agent-Builder, um Tool-Ketten visuell zu testen und zu dokumentieren.
Mit ONE: Der grafische Agent Builder hilft, Prompt-Schritte und Tool-Aufrufe sauber zu orchestrieren. Durch die Middleware bleibst du modellagnostisch – du kannst also verschiedene LLMs testen, ohne ihre Logik neu zu bauen.
2) RAG: Wissen aus deinen Daten – aktuell und belegbar
Ziel: Das LLM soll faktenbasiert aus deinen Quellen antworten – mit Zitaten und aktuellen Inhalten.
Kernbausteine:
Konnektoren zu Dateispeichern (Share, NAS, S3/Blob), Wissensdatenbanken, Ticketsystemen, Datenbanken
Indexierung & Chunking (Text in sinnvolle Abschnitte schneiden)
Vektorisierung (Embeddings), plus Metadaten (Autor, Datum, Mandant, Berechtigung)
Falsches Chunking oder schlechte Embeddings → irrelevante Treffer
Berechtigungen sind kritisch: Ein globaler Index ohne ACLs ist ein Compliance-Risiko
Nicht jedes Problem ist ein Retrieval-Problem (z. B. Stil, Format, Tool-Logik)
Best Practices:
Hybrid Retrieval (dichte + lexikalische Suche)
Freshness-Signale (jüngere Dokumente bevorzugen)
Query-Expansion (Synonyme, Abkürzungen)
Eval-Suiten (IR-Metriken wie Recall@k, nDCG; Antwort-Metriken wie Faithfulness)
Data Ops: Dokument-Lebenszyklus, Versionierung, Löschfristen
Mit ONE: Als datenschutzkonforme KI-Middleware verbindet ONE jede Datenquelle herstellerunabhängig mit dem LLM deiner Wahl. Du kannst mehrere Vektorindizes pro Mandant führen, ACLs erzwingen, und dank MCP-Server Tools (z. B. Such-, Re-Ranking- oder hauseigene APIs) standardisiert einbinden.
3) Fine-Tuning: Wenn das Modell wirklich „lernen“ soll
Ziel: Das LLM erlernt dauerhafte Fähigkeiten oder Stile, z. B.
Deine Domänensprache (Fachjargon, Tonalität)
Spezifische Workflows (z. B. Klassifikationslabel, Extraktionsschemata)
Policy-Konformität (z. B. immer zuerst X prüfen, dann Y)
Voraussetzungen:
Qualitativ hochwertige, repräsentative Beispiele in ausreichender Menge
Klare Zieldefinition (Was soll besser werden? Wie messen wir das?)
Sauberes Splitten (Train/Val/Test, keine Datenleckage)
Evaluations-Pipeline (vorher/nachher; A/B vs. Baseline)
Grenzen:
Kosten und Zeit (Datenaufbereitung ist die Hauptarbeit)
Generalität (zu enge Trainingsdaten → schlechtere Answers außerhalb des Zielraums)
Best Practices:
Starte klein: Instruction-Tuning mit kuratierten 200–2.000 Beispielen kann reichen.
RLHF/RLAIF (Präferenzlernen) gezielt einsetzen, wenn du konsistente Stilpräferenzen brauchst.
Regularisierung (z. B. Mix aus allgemeinen und spezifischen Daten), um Überanpassung zu vermeiden.
Kontinuierliche Evals – und Rollback-Strategie.
Mit ONE: Du kannst Fine-Tuning-Pipelines herstellerunabhängig anstoßen, Feedback-Daten kuratieren, Datenschutzregeln durchsetzen und die neuen Modell-Versionen kontrolliert ausrollen. Über den Agent Builder definierst du, wann welches Fine-tuned-Modell für welchen Use Case genutzt wird.
Wie aus täglicher Nutzung echte Verbesserung wird: Der Lern-Kreislauf
Mit ONE: Dieser Kreislauf lässt sich End-to-End aufsetzen: Feedback-Capture in Custom GPTs/Assistenten, Logging über die Middleware, Eval-Jobs, RAG-Index-Updates und – wo nötig – Fine-Tuning-Runs. Der MCP-Server standardisiert Tool-Anbindungen (Suche, Re-Ranking, interne Systeme), der Agent Builder verknüpft alles visuell.
Praxisbeispiel: Vom „Chatbot“ zum produktiven Assistenten
Ausgangslage:
Ein Unternehmen führt einen IT-Support-Assistenten ein. Erste Version: ein generisches LLM mit einem groben System-Prompt. Ergebnis: wechselhafte Antworten, veraltete Informationen, keine Quellen.
Ziel:
Hohe Erstlösungsquote (>70 %), Antworten mit Quellen, DSGVO-konform, Zugriff nur auf freigegebene Dokumente.
Berechtigungen: Durchgängig – vom Dokumentzugriff bis zum Retrieval.
Löschkonzepte: Feedback und Logs mit Fristen.
Auditierbarkeit: Wer hat was trainiert/gerollt? Versionen & Reports.
Mit ONE: Mandantentrennung, ACL-Durchsetzung, Protokollierung und konfigurierbare Speicherorte (eigener Blob/NAS/DB) sind Kernfunktionen – ideal für DSGVO-konformen Betrieb.
Benutzung allein macht ein LLM-System nicht besser.
Echtes „Lernen“ entsteht durch gezielte Feedback-Schleifen, Evaluations-Pipelines und die kluge Kombination der drei Hebel:
Context-Engineering für Struktur, Tools und Format (schnell, günstig).
RAG für aktuelle, belegte Antworten aus deinen Daten (mittel, sehr wirksam).
Fine-Tuning für dauerhafte Fähigkeiten/Stile (aufwendiger, gezielt einsetzen).
Datenqualität ist der Dreh- und Angelpunkt: Shit in, shit out.
Mit einer Middleware wie ONE setzt du das Ende-zu-Ende datenschutzkonform und herstellerunabhängig um: Konnektoren, MCP-Tools, grafischer Agent Builder, Feedback-Ops, Evals, RAG-Tuning und optionales Fine-Tuning – alles in einem kontrollierten Kreislauf.
Hinweis: Einige der Bilder in diesem Beitrag wurden mit Hilfe von Künstlicher Intelligenz erstellt. Sie sind also nicht „in freier Wildbahn“ aufgenommen – sondern eher am digitalen Reißbrett entstanden.