Worin unterscheidet sich der Ansatz von OMQ von klassischem RAG?

Der Abrufmechanismus ist konzeptionell derselbe. OMQ legt drei Steuerungsschichten darüber: Sichtbarkeit und Kategorie (wer was sehen darf), Gültigkeitszeiträume und Re-Crawl (wann ein Inhalt gilt) und Quellen-Priorität pro Kanal (welche Quelle bei Überschneidung gewinnt).

Kann ich verhindern, dass interne Dokumente im öffentlichen Chat auftauchen?

Ja. Jeder Wissensbaustein trägt eine Sichtbarkeit und eine Kategorie, und jeder Kanal hat einen eigenen Filter darüber. Ein öffentlicher Chat sieht nur die für ihn freigegebene Teilmenge – ein internes Dokument kann dort nicht versehentlich ausgespielt werden.

Macht eine KI mit guter Wissensbasis dann keine Fehler mehr?

Nein. Eine saubere Wissensbasis entscheidet, was die KI sehen darf – nicht, ob die formulierte Antwort korrekt ist. Die KI kann ein Datum falsch lesen oder zwei Treffer vermischen. Deshalb prüft OMQ zusätzlich die tatsächliche Ausgabe (Vier-Augen-Prinzip).

Helping Hands

Was passiert eigentlich, wenn eine KI Ihre Wissensbasis 'liest'?

Q: Was ist Retrieval-Augmented Generation (RAG)?

RAG ist das Standardverfahren, mit dem eine KI Fragen zu Wissen beantworten kann, auf das sie nicht trainiert wurde. Das System ruft im Moment der Frage passende Teile Ihrer Wissensbasis ab (Retrieval), legt sie der KI vor (Augmented) und lässt die KI daraus die Antwort formulieren (Generation).

Q: Warum kann eine KI Fragen zu meinem Unternehmen nicht ohne Wissensbasis beantworten?

Sprachmodelle werden bis zu einem Stichtag (Knowledge Cutoff) auf öffentlichen Texten trainiert und danach nicht weiter aktualisiert. Ihre interne Preisliste, eine letzte Woche geänderte Erstattungsregel oder eine Premium-Ausnahme hat das Modell nie gesehen. Ohne Ihr Wissen, das ihm zur Laufzeit gereicht wird, rät die KI.

Q: Erfüllt ein RAG-basierter KI-Kundenservice DSGVO und EU AI Act?

RAG selbst ist nur ein Verfahren. Entscheidend ist, wie Zugriff, Datenhaltung und Nachvollziehbarkeit umgesetzt sind. OMQ wird in der EU betrieben und die Zugriffs-, Aktualitäts- und Prioritätssteuerung schafft genau die Kontrolle und Dokumentierbarkeit, die regulatorische Anforderungen erwarten.

Eine KI 'liest' Ihre Wissensbasis nicht wie ein Mensch – sie bekommt nur Teile davon gereicht. Wie der Mechanismus funktioniert und wie OMQ ihn kontrollierbar macht.

Yasmin Altmann Dr. Tae-Gil Noh

25. Juni 2026 · 10 Minuten

Yasmin Altmann Dr. Tae-Gil Noh

25. Juni 2026 · 10 Minuten

Wenn eine KI eine Kundenfrage anhand Ihrer Wissensbasis beantwortet – was liest sie dabei eigentlich? Nicht die ganze Basis. Nicht annähernd. Stellen Sie sich die KI als brillante neue Mitarbeiterin vor: Sie hat letzten Sommer ihr Studium abgeschlossen und weiß enorm viel über die Welt, aber noch nichts über Ihr Unternehmen. Sie hat Ihre Erstattungsregelungen nie gelesen, Ihre Preisliste nie gesehen, von Ihrem Premium-Tarif nie gehört. Damit sie eine Kundenfrage beantworten kann, muss ihr jemand bei jeder einzelnen Frage die richtige Seite aus dem Handbuch zeigen.

Für jede Organisation, die KI im Kundenservice einsetzt, ist genau dieser Mechanismus die wichtigste – und am häufigsten übersehene – Stellschraube für Antwortqualität, Kontrolle und Compliance.

Das Wichtigste in Kürze

Definition: Retrieval-Augmented Generation (RAG) ist das Verfahren, das einer KI im Moment der Frage passende Teile Ihres Wissens vorlegt, damit sie korrekt antworten kann.
Kernursache: Sprachmodelle kennen Ihr Unternehmen nicht – ohne zugespieltes Wissen raten sie.
Vier typische Grenzen: veraltete Snapshots, kontextlose Textfragmente, mehrere widersprüchliche Versionen und fehlende Zugriffsgrenzen.
OMQ-Ansatz: derselbe Abrufmechanismus plus drei Steuerungsschichten – Zugriff, Aktualität und Quellen-Priorität.
Kontrolle statt Vendor-Lock-in: Welche Quelle gewinnt, entscheiden Sie pro Kanal – nicht der Anbieter.
Ehrliche Grenze: RAG entscheidet, was die KI sehen darf; ob die Antwort stimmt, sichert zusätzlich das Vier-Augen-Prinzip.

1Die Wissensgrenze: Warum eine KI Ihr Unternehmen nicht kennt
2Retrieval-Augmented Generation einfach erklärt
3Drei Wege, wie KI heute an Ihr Wissen kommt
4Die vier natürlichen Grenzen dieser Methoden
5Wie OMQ dasselbe Problem angeht
6Retrieval ist nur die halbe Wahrheit
7Fazit
8Häufig gestellte Fragen (FAQ)

Die Wissensgrenze: Warum eine KI Ihr Unternehmen nicht kennt

Die intuitive Erklärung zuerst: Heutige KI-Modelle werden auf enormen Mengen öffentlicher Texte trainiert (z.B. Lexika, Bücher, Nachrichten, Foren) bis zu einem bestimmten Stichtag. Das Training passiert einmal, dann stoppt es. Danach weiß das Modell alles, was es bis zu diesem Datum gelernt hat, und nichts über das, was danach kam. Dieser Stichtag heißt Wissensgrenze (Knowledge Cutoff).

Für Ihr Unternehmen hat das eine direkte Konsequenz. Die neue Erstattungsregel, die Ihr Team letzte Woche beschlossen hat? Hat das Modell nicht gesehen. Ihre interne Preisliste? Vielleicht in einer alten öffentlichen Version, die heutige bestimmt nicht. Die Premium-Ausnahme, die Ihr Support-Lead gestern dokumentiert hat? Definitiv nie gesehen. “Kostenloser Versand ab 50€” – war das die Sommeraktion oder die diesjährige Regel? Das Modell kann es nicht wissen.

Das ist kein Fehler, sondern die Natur der Sache. Aber die Folge ist eindeutig: Ein Sprachmodell allein kann keine Fragen zu Ihrem konkreten Geschäft beantworten. Es klingt überzeugend, aber es rät – mal gut, mal schlecht. Wer eine KI Kundenfragen beantworten lassen will, muss ihr das eigene Wissen im Moment jeder Frage zuspielen. Genau das tut jeder moderne KI-Assistent unter der Haube.

Merksatz:

Ein Sprachmodell allein kann keine Fragen zu Ihrem spezifischen Geschäft beantworten. Die Qualität jeder KI-Antwort hängt fast vollständig davon ab, welche Seiten ihm gezeigt wurden.

Retrieval-Augmented Generation einfach erklärt

In der KI-Welt hat dieses Muster einen Namen: Retrieval-Augmented Generation, meist kurz RAG. Der Begriff zerfällt in drei einfache Schritte:

Beim Retrieval durchsucht das System in dem Moment, in dem ein Kunde etwas fragt, Ihr Wissen nach relevanten Teilen. Beim Augmented werden diese Teile direkt neben die Kundenfrage in das Sichtfeld der KI gelegt. Bei der Generation formuliert die KI ihre Antwort auf Basis dessen, was sie nun vor sich hat.

Bildlich gesprochen: Der Kunde kommt mit einer Frage zur Aushilfe, und kurz bevor sie den Mund aufmacht, schiebt ihr jemand ein paar Seiten aus dem Handbuch über den Tisch. Die Aushilfe liest diese Seiten und antwortet dann. Ohne die Seiten würde sie sich etwas Plausibles ausdenken. Mit den richtigen Seiten antwortet sie korrekt. Mit den falschen Seiten antwortet sie selbstbewusst – und falsch. Dieser letzte Satz ist die ganze Geschichte.

Viele stellen sich vor, die KI „liest” die Wissensbasis. In Wahrheit schiebt das System ihr bei jeder Kundenfrage eine Handvoll Seiten auf den Tisch. Fast die gesamte Technik – und fast alle Fehlerfälle – stecken in der Frage, welche Seiten das sind.

Gil Noh, ML Engineering bei OMQ

Drei Wege, wie KI heute an Ihr Wissen kommt

In der Praxis stammen die „Seiten auf dem Tisch” aus einem von drei Mechanismen. Die meisten KI-Produkte nutzen einen davon oder eine Kombination.

Websuche

Die KI schickt ein paar Stichworte an eine Suchmaschine, bekommt Ausschnitte öffentlicher Webseiten zurück und liest sie. Das ist gut für allgemeine, öffentliche Informationen. Es ist weniger gut, wenn Sie die spezifische Version Ihrer Seite brauchen – und es sieht nichts, was nicht öffentlich ist.

Datei- und Dokumentensuche mit Embeddings

Das ist der Standardmechanismus hinter „Lade deine PDFs hoch und chatte mit ihnen”. Im Hintergrund werden Ihre Dokumente in kleine Stücke zerlegt. Jedes Stück bekommt einen numerischen „Fingerabdruck” – ein sogenanntes Embedding. Stellt der Kunde eine Frage, wird auch sie zum Fingerabdruck, und das System holt die Stücke mit den ähnlichsten Fingerabdrücken. Die werden über den Tisch geschoben. Funktioniert oft erstaunlich gut – und hat berechenbare Schwachstellen.

Tool-Calls

Das neueste Muster. Statt automatischem Abruf entscheidet die KI selbst, wann sie etwas nachschlägt, und ruft eine Funktion auf – „durchsuche die FAQ”, „schlage die Bestellung nach”, „hole die Preisliste”. Das gibt der KI mehr Spielraum, aber der eigentliche Mechanismus unter jedem Tool-Call ist meist wieder einer der ersten beiden.

Der verbindende Punkt: In keinem Fall „liest” die KI Ihre Wissensbasis so, wie ein Mensch ein Buch liest. Ihr wird eine kleine, oft unbeschriftete Handvoll Fragmente gereicht – und sie soll daraus eine selbstbewusste Antwort schreiben.

Die vier natürlichen Grenzen dieser Methoden

Wer den Mechanismus verstanden hat, dem werden die typischen Fehlerquellen wenig überraschend vorkommen. Sie sind nicht jemandes Schuld – sie sind die natürliche Folge der zugrunde liegenden Verfahren.

Veraltete Snapshots: Was die KI liest, wurde irgendwann in der Vergangenheit indexiert. Änderte sich Ihre Erstattungsregel gestern und stammt der Index von letzter Woche, liest die KI die Version von letzter Woche.
Fragmente ohne Kontext: Wird ein langes Dokument in Stücke zerlegt, verliert ein Stück schnell seine Überschrift, den vorigen Absatz, die Tabelle, auf die es sich bezog. Die KI liest „Sie können den Artikel innerhalb von 14 Tagen zurückgeben” – ohne den nächsten Satz „… außer bei Sonderbestellungen”.
Mehrere Versionen ohne klaren Sieger: Ihre Wissensbasis enthält die Regel von 2024 und die von 2026. Beide werden indexiert, beide kommen zurück. Welcher soll die KI trauen? Ohne Regeln wählt sie eine – manchmal die falsche.
Keine Vorstellung davon, wer was sehen darf: Ein Stapel Dateien ist nur ein Stapel Dateien. Im Mechanismus selbst steckt nichts, das weiß „dieser Abschnitt ist nur für Support-Agenten” oder „das darf nie an einen öffentlichen Besucher gehen”. Wird es nicht von außen abgeschottet, kann es von jedem abgerufen werden.

Diese vier Grenzen sind die wiederkehrende Geschichte im produktiven KI-Kundenservice. Sie sind auch die vier Dinge, um die jedes ernstzunehmende KI-Werkzeug – OMQ eingeschlossen – herum konstruiert sein muss.

Wie OMQ dasselbe Problem angeht

Der Abrufmechanismus in OMQ ist konzeptionell derselbe wie bei allen anderen: relevante Teile Ihres Wissens finden, der KI reichen, sie die Antwort schreiben lassen. Was wir darüberlegen, ist Struktur – drei Schichten davon – damit die KI immer die richtigen Teile bekommt, aktuell und in der richtigen Priorität. Das ist keine Upgrade-Stufe, sondern die Bauweise des Systems. Für ein Ops-Team heißt das konkret: weniger Korrekturschleifen, weniger Eskalationen aus falschen Auskünften und eine dokumentierbare Kontrolle darüber, welches Wissen welcher Kanal ausspielt.

Wer was sehen darf (Zugriff)

Jeder Wissensbaustein in OMQ trägt zwei Merkmale, die seine Zielgruppe bestimmen.

Sichtbarkeit sagt: Ist dieser Baustein für die öffentliche Welt, für interne Teams, für Agenten zum manuellen Einblenden – oder noch ein Entwurf, den niemand ausspielen soll?
Eine Kategorie sagt: zu welchem Segment gehört er? Eine Kategorie „allgemeine Besucher”, eine „nur für Mitglieder”, eine „Premium”, eine „Support-Team”. Kategorien können ineinander liegen, sodass der Zugriff auf eine Oberkategorie alles darunter mit einschließt.

Jeder Kanal, der Website-Chat, der E-Mail-Bot, der Voice-Bot, das smarte FAQ, das Assistenz-Tool des Agenten,hat einen eigenen Filter über Sichtbarkeit und Kategorie. Dieselbe Wissensbasis bedient alle, aber jeder sieht nur die Teilmenge, die er sehen soll. Ein öffentlicher Chat kann kein internes Dokument ausspielen; ein Mitglieder-Portal verpasst keine Mitglieder-Antwort.

Wichtig: Das funktioniert gleich, egal ob das Wissen ein gepflegter FAQ-Eintrag, eine gecrawlte Webseite oder eine hochgeladene Datei ist. Ein Modell, drei Quelltypen.

Wann es gültig ist (Aktualität)

Wissen altert. OMQ behandelt das direkt auf zwei Wegen. Gepflegte Antworten können ein Start- und ein Ablaufdatum tragen: Eine Sommeraktion wird ab dem 1. September automatisch nicht mehr ausgespielt, eine ausgemusterte Regel am Tag ihrer Ausmusterung. Der Kalender erledigt das, niemand muss daran denken.

Gecrawlte Webseiten und hochgeladene Dateien lassen sich nach Zeitplan neu indexieren – täglich, wöchentlich, monatlich – und können selbst Ablaufdaten tragen. Sie müssen nicht rätseln, wann der Snapshot entstand; Sie legen die Regel fest. Wenn Aktualität im Datenmodell steckt, hört “hat die KI die Aktion von gestern benutzt?” auf, eine Frage zu sein, die Sie stellen müssen.

Zwei konkrete Beispiele aus derselben Wissensbasis

Eintrag A – Erstattungsregel: Sichtbarkeit öffentlich · Kategorie Abrechnung, Retouren · Deutsch · gültig ab 1. Januar 2026, offen · genutzt von Website-Chat und E-Mail-Assistent · Quelle: gepflegte FAQ.

Eintrag B – Ausnahmeliste Erstattung Q1-2026: Sichtbarkeit intern · Kategorie Support-Team · Deutsch · gültig bis 1. April 2026 (abgelaufen – wird nicht mehr ausgespielt) · genutzt von Agenten-Assistent · Quelle: hochgeladene Datei.

Dieselbe Wissensbasis, zwei völlig unterschiedliche Zielgruppen- und Lebenszyklus-Behandlungen. Der öffentliche Chat sieht Eintrag B nie. Der Agenten-Assistent könnte beide sehen – aber seit April 2026 sieht er nur noch Eintrag A. Eintrag B hat sich selbst ausgemustert.

Welche Quelle gewinnt (Priorität)

Das ist die Schicht, die die meisten Werkzeuge gar nicht offenlegen. Angenommen, ein Kunde fragt “Wie lange dauert der Versand?” – und die Antwort steht sowohl in einem gepflegten FAQ-Eintrag als auch auf einer gecrawlten Help-Center-Seite. Die beiden formulieren es vielleicht leicht unterschiedlich oder widersprechen sich sogar. Welche soll die KI nehmen?

OMQ lässt Sie das pro Kanal entscheiden: Bevorzugen Sie den gepflegten Eintrag (“wir pflegen unsere FAQ von Hand, ihr zuerst vertrauen, auf die Website ausweichen, wenn die FAQ nichts hat”), bevorzugen Sie die gecrawlte Quelle (“unser Web-Team hält die Live-Seite aktuell, ihr zuerst vertrauen”) oder nutzen Sie beides (“kombiniere, was gefunden wird”). Es gibt hier keine universell richtige Antwort. Verschiedene Teams vertrauen verschiedenen Quellen. Worauf es ankommt: Die Wahl liegt bei Ihnen, nicht beim Anbieter.

Steuerbar statt Vendor-Lock-in: Wer die Quellen-Priorität pro Kanal selbst setzt, behält die Kontrolle über die Antwortlogik. Das ist die Voraussetzung für Auditierbarkeit und für Anforderungen aus DSGVO und EU AI Act.

Retrieval ist nur die halbe Wahrheit

Selbst wenn der Abruf gut gelöst ist, aktuell, abgeschottet, priorisiert, kann die KI beim Formulieren der eigentlichen Antwort irren. Ein Datum falsch lesen, zwei abgerufene Einträge vermischen, eine Zahl falsch wiedergeben. Das ist die andere Hälfte des Bildes, und genau darum geht es im Companion-Artikel, dem Vier-Augen-Prinzip für KI.

Kurz gesagt: Der Abruf entscheidet, was die KI sehen darf. Die Vier-Augen-Prüfung entscheidet, ob das, was die KI dann schreibt, tatsächlich korrekt ist. Beides, standardmäßig. So bauen wir OMQ.

Fazit

Die wichtigste Erkenntnis ist unspektakulär: Eine KI liest Ihre Wissensbasis nicht – ihr wird eine Handvoll Fragmente zugespielt, und sie schreibt daraus eine Antwort. Sobald das klar ist, werden die Engineering-Entscheidungen, die KI im Kundenservice sicher machen, viel greifbarer. Veraltete Snapshots, kontextlose Fragmente, widersprüchliche Versionen und fehlende Zugriffsgrenzen sind keine Pannen, sondern die natürlichen Grenzen des Verfahrens. OMQ begegnet ihnen mit drei Steuerungsschichten – Zugriff, Aktualität und Priorität – und prüft zusätzlich die Ausgabe. Für ein Ops-Team bedeutet das Kontrolle, Nachvollziehbarkeit und weniger Risiko, ohne Vendor-Lock-in.

Was passiert eigentlich, wenn eine KI Ihre Wissensbasis 'liest'?

Die Wissensgrenze: Warum eine KI Ihr Unternehmen nicht kennt

Retrieval-Augmented Generation einfach erklärt

Drei Wege, wie KI heute an Ihr Wissen kommt

Websuche

Datei- und Dokumentensuche mit Embeddings

Tool-Calls

Die vier natürlichen Grenzen dieser Methoden

Wie OMQ dasselbe Problem angeht

Wer was sehen darf (Zugriff)

Wann es gültig ist (Aktualität)

Welche Quelle gewinnt (Priorität)

Retrieval ist nur die halbe Wahrheit

Fazit

Häufig gestellte Fragen (FAQ)

Was ist Retrieval-Augmented Generation (RAG)?

Warum kann eine KI Fragen zu meinem Unternehmen nicht ohne Wissensbasis beantworten?

Lohnt sich der Aufwand für eine strukturierte Wissensbasis überhaupt – wo ist der ROI?

Erzeugt das einen Vendor-Lock-in bei der Antwortlogik?

Erfüllt ein RAG-basierter KI-Kundenservice DSGVO und EU AI Act?

Heißt eine gute Wissensbasis, dass die KI keine Fehler mehr macht?

Die Wissensgrenze: Warum eine KI Ihr Unternehmen nicht kennt

Retrieval-Augmented Generation einfach erklärt

Drei Wege, wie KI heute an Ihr Wissen kommt

Websuche

Datei- und Dokumentensuche mit Embeddings

Tool-Calls

Die vier natürlichen Grenzen dieser Methoden

Wie OMQ dasselbe Problem angeht

Wer was sehen darf (Zugriff)

Wann es gültig ist (Aktualität)

Welche Quelle gewinnt (Priorität)

Retrieval ist nur die halbe Wahrheit

Fazit

Häufig gestellte Fragen (FAQ)

Was ist Retrieval-Augmented Generation (RAG)?

Warum kann eine KI Fragen zu meinem Unternehmen nicht ohne Wissensbasis beantworten?

Lohnt sich der Aufwand für eine strukturierte Wissensbasis überhaupt – wo ist der ROI?

Erzeugt das einen Vendor-Lock-in bei der Antwortlogik?

Erfüllt ein RAG-basierter KI-Kundenservice DSGVO und EU AI Act?

Heißt eine gute Wissensbasis, dass die KI keine Fehler mehr macht?

Magazine Newsletter