Skip to main content

Memory-Architektur für KI-Systeme: Forschungsstand und Methodik

Erstellt von Hary Stubnya | | Künstliche Intelligenz

Große Sprachmodelle vergessen nach jeder Sitzung alles. Die aktuelle Forschung entwickelt mehrstufige Architekturen, die diese Limitierung adressieren. Eine systematische Übersicht der Ansätze, Ergebnisse und offenen Fragen.

Memory-Architektur für KI-Systeme: Forschungsstand, Methodik und offene Fragen

Große Sprachmodelle sind grundsätzlich zustandslos. Jede Sitzung beginnt bei null. Für wissensintensive Berufe -- Immobilienbewertung, Steuerberatung, Rechtsanwendung -- ist das eine fundamentale Einschränkung, die sich architektonisch adressieren lässt. Die Forschung der Jahre 2024 bis 2026 hat dafür mehrere Ansätze hervorgebracht, deren Belastbarkeit und Zusammenspiel Gegenstand laufender Untersuchungen sind.

Dieser Beitrag ordnet die wesentlichen Architekturansätze systematisch ein, benennt die zugrundeliegende Forschung und zeigt, welche Fragen noch offen sind. Er ist als Orientierungshilfe für Fachleute gedacht, die sich ein quellenbasiertes Bild der aktuellen Entwicklung verschaffen möchten.

Datenstand: März 2026.


1. Ausgangslage: Das Kontextfenster als strukturelle Grenze

Sprachmodelle verarbeiten Eingaben innerhalb eines begrenzten Kontextfensters. Obwohl dieses bei aktuellen Modellen bis zu einer Million Tokens umfassen kann, zeigt die Forschung, dass die effektive Nutzbarkeit mit zunehmender Kontextlänge sinkt. Liu et al. (2024) haben dieses Phänomen als "Lost in the Middle" beschrieben: Informationen im mittleren Bereich langer Kontexte werden signifikant schlechter verarbeitet als solche am Anfang oder Ende.

Eine Erhebung von Tribe AI (2025) beziffert den Anteil von Enterprise-KI-Ausfällen, die auf Context Drift oder Memory Loss bei mehrstufigem Reasoning zurückzuführen sind, auf 65 Prozent. Das bedeutet: Die Mehrheit der Fehler in professionellen Anwendungen entsteht nicht durch mangelnde Modellqualität, sondern durch den Verlust von Kontext über Verarbeitungsschritte hinweg.

Für die Immobilienbewertung ist diese Einschränkung besonders relevant. Ein Verkehrswertgutachten nach ImmoWertV erfordert die konsistente Berücksichtigung von Normen, Marktdaten, Vergleichswerten und objektspezifischen Merkmalen über einen Zeitraum von Wochen. Ein System, das bei jedem Sitzungswechsel den gesamten Kontext verliert, kann diese Anforderung strukturell nicht erfüllen.


2. Retrieval-Augmented Generation (RAG): Externes Wissen bei Bedarf

Grundprinzip

RAG-Architekturen lagern Fachwissen in externe Datenbanken aus und rufen es bei Bedarf ab, anstatt es im Modell selbst zu speichern. Gao et al. haben in ihrem grundlegenden Survey (arXiv 2312.10997) die Architekturvarianten systematisch aufgearbeitet.

Aktuelle Varianten und Forschungsergebnisse

VarianteMethodikQuelle
Standard RAGVektorsuche über Embedding-Datenbank, Top-k-Ergebnisse als KontextGao et al., arXiv 2312.10997
Graph RAGVerbindung von Vektorsuche mit strukturierten Taxonomien und OntologienSquirro (2026): bis 99 % Suchpräzision
SimRAGSelf-Improving RAG mit automatischer Qualitätsverbesserung der Retrieval-ErgebnissearXiv 2506.00054
RAFTRetrieval Augmented Fine-Tuning: Modell lernt, relevante von irrelevanter Kontextinformation zu unterscheidenarXiv 2506.00054
Reasoning-IntegrationDrei Entwicklungsstufen: Reasoning-Enhanced RAG, RAG-Enhanced Reasoning, Synergized RAG-ReasoningComprehensive RAG Survey, arXiv 2506.00054

Eine Veröffentlichung in Business & Information Systems Engineering (Springer, 2025, DOI: 10.1007/s12599-025-00945-3) analysiert RAG-Architekturen spezifisch im Unternehmenskontext und bestätigt deren Eignung für wissensintensive Anwendungen, benennt aber gleichzeitig die Abhängigkeit der Ergebnisqualität von der Chunk-Granularität und der Embedding-Qualität.

Methodische Einschränkungen

Die Qualität von RAG-Systemen hängt maßgeblich von zwei Faktoren ab:

1. Chunk-Granularität: Zu grobe Segmentierung verliert Detailinformation, zu feine erzeugt Kontextverlust zwischen zusammengehörigen Passagen.
2. Suchverfahren: Textbasierte Suche (ILIKE) und semantische Suche (Vektorähnlichkeit) liefern systematisch unterschiedliche Ergebnisse. Beide Verfahren haben blinde Flecken.

Für die Immobilienbewertung bedeutet das: Eine RAG-Fachbibliothek mit Sprengnetter-Lehrbüchern, Marktberichten und Normtexten kann den Zugriff auf Fachwissen erheblich verbessern. Die Qualität der Antworten bleibt aber abhängig davon, wie die Wissensbasis strukturiert und indexiert ist.


3. Persistentes Langzeitgedächtnis: Frameworks im Vergleich

Die Forschung hat mehrere Frameworks hervorgebracht, die Sprachmodellen eine Form von sitzungsübergreifendem Gedächtnis geben sollen. Die folgende Übersicht fasst die wesentlichen Ansätze zusammen.

FrameworkMethodikErgebnisQuelle
Mem0Dynamische Extraktion und Konsolidierung salienter Informationen; Graph-Variante mit relationalen Strukturen91 % niedrigere p95-Latenz, 90 %+ Token-Einsparung, 26 % Verbesserung gegenüber OpenAI-BaselinearXiv 2504.19413
MemoriaModulares Framework: dynamische Session-Summarisierung und gewichteter Knowledge-Graph für NutzermodellierungPersistent, interpretierbar, kontextreicharXiv 2512.12686
MAGMAMulti-Graph-basierte Agentic Memory ArchitectureRelationale Multi-Graph-StrukturenJanuar 2026
EverMemOSSelf-Organizing Memory Operating System für strukturiertes Long-Horizon ReasoningSelbstorganisierendes GedächtnisJanuar 2026
MemGPTOS-Paradigma: Kontextfenster als Arbeitsspeicher, persistenter Speicher als FestplatteRessourcen-Management nach Betriebssystem-AnalogieSerokell (2025)

Gemeinsames Architekturprinzip

Alle genannten Frameworks trennen zwischen transientem Speicher (Kurzzeit, aufgabenbezogen) und persistentem Speicher (Langzeit, sitzungsübergreifend). Die Mechanismen für Erstellung, Aktualisierung, Beibehaltung und Bereinigung gespeicherter Informationen unterscheiden sich, das Grundprinzip ist identisch: Relevante Information wird aus dem Gesprächsverlauf extrahiert, verdichtet und dauerhaft abgelegt.

Serokell (2025) beschreibt in ihrer Analyse "Design Patterns for Long-Term Memory in LLM-Powered Architectures" wiederkehrende Entwurfsmuster, die sich in den verschiedenen Frameworks bestätigen lassen.

Offene methodische Fragen

Die Pruning-Strategie -- also die Entscheidung, welches Wissen behalten und welches verworfen wird -- ist kein gelöstes Problem. Kein Framework hat bisher ein zuverlässiges Verfahren vorgelegt, das in allen Anwendungsbereichen funktioniert. Für normgebundene Tätigkeiten wie die Immobilienbewertung ist das besonders relevant: Hier darf Fachwissen nicht stillschweigend verworfen werden, nur weil es selten abgerufen wird.


4. Adaptiver Moduswechsel: Denktiefe proportional zur Aufgabe

Ein jüngerer Forschungszweig befasst sich mit der Frage, ob Sprachmodelle die Tiefe ihres Reasoning automatisch an die Aufgabenkomplexität anpassen können.

PaperMethodikErgebnisQuelle
ASRR (Adaptive Self-Recovery Reasoning)Unterdrückung unnötigen Reasonings, accuracy-aware length reward regulationReasoning-Budget -32,5 % (1.5B-Modell) bzw. -25,7 % (7B-Modell) bei minimalem Genauigkeitsverlust (1,2 % bzw. 0,6 %)arXiv 2505.15400
Adaptive Deep ReasoningReinforcement Learning für Short-Chain vs. Long-Chain Reasoning; logit-based mode switchingDynamischer Wechsel zwischen Reasoning-Modi ohne signifikanten Performance-VerlustarXiv 2505.20101

Das Kernprinzip: Nicht bei jeder Aufgabe maximal nachdenken, sondern die Denktiefe proportional zur Komplexität steuern. Bei Routineaufgaben schnell handeln, bei komplexen oder fehlerträchtigen Fragestellungen den Analysemodus vertiefen.

Für die Praxis der Immobilienbewertung lässt sich das Prinzip gedanklich übertragen: Die Bestimmung des Liegenschaftszinssatzes aus Vergleichstransaktionen erfordert eine andere Analysetiefe als die Übernahme eines Bodenrichtwerts aus dem Grundstücksmarktbericht.


5. Hierarchische Aufgabenzerlegung: Komplexe Prozesse in handhabbare Schritte

FrameworkAnsatzQuelle
TDAGDynamic Task Decomposition and Agent Generation: zerlegt komplexe Aufgaben dynamisch und weist Teilaufgaben generierten Sub-Agenten zuarXiv 2505.11814
HiAgentHierarchical Working Memory Management: strukturierte Arbeitsgedächtnis-Verwaltung für KI-AgentenACL 2025
AgentOrchestraHierarchisches Multi-Agent Framework für General-Purpose Task SolvingarXiv 2506.12508
ChatHTNHierarchical Task Networks: Dekomposition in Compound TasksZylos Research (2026)

Die Entwicklung verläuft von linearer, sequentieller Zerlegung hin zu paralleler und hierarchischer Aufgabenverarbeitung. Moderne Frameworks ermöglichen, dass ein zentraler Planning Agent als Orchestrator arbeitet und mehrstufige Prozesse in handhabbare Teilaufgaben zerlegt.

Für die Bewertungspraxis bietet sich eine Analogie an: Ein Verkehrswertgutachten zerlegt sich methodisch in die Phasen Objekterfassung, Datenerhebung, Wertermittlung und Plausibilisierung. Jede Phase hat definierte Eingaben, Verarbeitungsschritte und Ausgaben. Die Forschung zur hierarchischen Aufgabenzerlegung formalisiert genau dieses Prinzip für KI-Systeme.


6. Konvergenz: Das mehrstufige Architekturmodell

Die verschiedenen Forschungsstränge konvergieren auf ein mehrschichtiges Modell, das sich wie folgt systematisieren lässt:

EbeneFunktionForschungsbasis
1. Operatives GedächtnisAufgabenstand, Entscheidungen, Fortschritt innerhalb einer AufgabeMem0 (RAM-Analogie), MemGPT
2. Domänenwissen (RAG)Fachbibliothek, Normen, Marktdaten, abrufbar bei BedarfGraph RAG, SimRAG, RAFT
3. ErfahrungswissenGelernte Muster, bewährte Lösungswege, FehlervermeidungMemoria (Knowledge-Graph), EverMemOS
4. ArbeitsabläufeStandardisierte Prozesse, reproduzierbar und nachvollziehbarTDAG, AgentOrchestra, HiAgent
5. Adaptiver ModuswechselDenktiefe proportional zur AufgabenkomplexitätASRR, Adaptive Deep Reasoning

Dieses Schichtenmodell ist kein Standard und keine Norm, sondern eine Systematisierung, die sich aus dem aktuellen Forschungsstand ableiten lässt. Die einzelnen Ebenen sind vergleichsweise gut untersucht. Ihr optimales Zusammenspiel -- also die Integration der Schichten zu einem funktionierenden Gesamtsystem -- ist hingegen weniger erforscht.


7. Qualitätsgrenzen: Sycophancy, Reasoning-Treue und systematische Fehler

Memory-Architektur allein löst nicht alle Qualitätsprobleme. Die Forschung identifiziert mehrere systematische Schwächen, die auch bei optimaler Gedächtnisarchitektur bestehen bleiben:

BefundKernaussageQuelle
Sycophancy skaliert mit ModellgrößeJe fähiger das Modell, desto stärker die Tendenz, Nutzern zuzustimmen statt korrekt zu arbeitenBeacon, arXiv 2510.16727
Chain-of-Thought-UntreueDas geschriebene Reasoning spiegelt nur in 25 % der Fälle die tatsächlichen Entscheidungsgründe widerAnthropic, arXiv 2505.05410
Selbstkorrektur-EngpassSelbstkorrektur ohne externes Signal funktioniert nicht zuverlässigHuang et al., ICLR 2024
Fehlertiefe77 % der Fehler sind Logikfehler (falsche Grundannahme), nicht RechenfehlerarXiv 2601.00828

Für normgebundene Tätigkeiten wie die Immobilienbewertung nach ImmoWertV hat dieser Befund erhebliche Bedeutung: Ein System, das zwar über alle relevanten Daten verfügt, aber systematisch die falschen Schlüsse zieht oder den Anwender beschwichtigt statt korrekt zu arbeiten, liefert keine belastbaren Ergebnisse. Memory-Architektur muss deshalb immer im Zusammenhang mit der Reasoning-Qualität des zugrundeliegenden Modells betrachtet werden.


8. Offene Fragen und Limitierungen

Die folgenden Punkte sind im aktuellen Forschungsstand nicht abschließend geklärt:

1. Skalierung und Qualität: Größere Kontextfenster verbessern nicht automatisch die Ergebnisqualität (Lost-in-the-Middle-Effekt, arXiv 2509.21361).
2. Pruning-Strategie: Welches Wissen behalten, welches verwerfen? Es existiert kein allgemein gültiges Verfahren.
3. Sitzungsübergreifende Konsistenz: Praktische Implementierungen zeigen, dass Konsistenz über Sitzungen hinweg ständige Nachjustierung erfordert.
4. Integration der Ebenen: Die einzelnen Architekturschichten sind gut erforscht, ihr optimales Zusammenspiel weniger.
5. Evaluation: Standardisierte Benchmarks für die Bewertung von Memory-Systemen fehlen weitgehend.
6. Sycophancy-Verstärkung: Memory-Systeme können Beschwichtigungsmuster verstärken, wenn sie unkritisch aus vergangenen Interaktionen lernen.

Diese offenen Fragen sind keine theoretischen Randthemen. Für jeden, der KI-Systeme in wissensintensiven Berufen einsetzt oder einsetzen möchte, sind sie entscheidend für die Frage, welches Vertrauen in die Ergebnisse gerechtfertigt ist.


9. Relevanz für die Immobilienbewertung

Die Anforderungen der Immobilienbewertung treffen auf die beschriebenen Architekturansätze in mehreren Punkten:

AnforderungArchitekturantwortStatus
Normkonformität (ImmoWertV, BauGB) über Wochen und MonatePersistentes Langzeitgedächtnis, RAG-FachbibliothekAktive Forschung, erste Frameworks produktiv
Nachvollziehbarkeit des GutachtensStrukturierte Arbeitsabläufe, protokolliertes ReasoningMöglich, aber Reasoning-Treue nur bei 25 % (Anthropic)
Konsistente Anwendung von WertermittlungsverfahrenStandardisierte Arbeitsabläufe (Skills)Frameworks vorhanden (TDAG, HiAgent)
Quellenbasiertes Arbeiten (Fachliteratur, Marktberichte)RAG mit FachbibliothekGraph RAG bis 99 % Suchpräzision
Fehlervermeidung bei komplexen SachverhaltenAdaptiver Moduswechsel, ErfahrungswissenASRR: -32,5 % Ressourcen bei 1,2 % Genauigkeitsverlust

Die Ergebnisse zeigen: Die Architekturansätze adressieren reale Anforderungen der Bewertungspraxis. Ob sie diese Anforderungen tatsächlich zuverlässig erfüllen, ist eine andere Frage -- und eine, die sich nur durch methodische Erprobung und kritische Evaluation beantworten lässt.


10. Cross-Over: Relevanz für angrenzende Fachdisziplinen

Die beschriebenen Architekturansätze sind nicht auf die Immobilienbewertung beschränkt. Wissensintensive Berufe teilen strukturell ähnliche Anforderungen:

DisziplinGemeinsame Anforderung
SteuerberatungMandantenübergreifendes Wissen, Gesetzesänderungen, Konsistenz in Stellungnahmen
RechtsanwaltschaftFachrecherche, mandatsübergreifende Muster, Schriftsatzqualität über lange Zeiträume
ArchitekturNormenwerke, Planungsabläufe, Projektdokumentation über Monate
IT-DienstleistungArchitekturkompetenz für Implementierung und Systemintegration

Das Zusammenspiel der Disziplinen wird durch gemeinsame Wissensarchitekturen erleichtert: Ein Sachverständiger, der in einem Erbschaftsfall mit Steuerberater und Rechtsanwalt zusammenarbeitet, profitiert davon, wenn alle Beteiligten ihre jeweiligen Fachsysteme auf Basis belastbarer Architekturen nutzen.


Quellenverzeichnis

Primärquellen (Peer-Reviewed / Preprints)

Nr.TitelReferenz
1RAG Survey (Gao et al.)arXiv 2312.10997
2Comprehensive RAG Survey: Architectures, Enhancements, Robustness FrontiersarXiv 2506.00054
3Mem0: Production-Ready AI Agents with Scalable Long-Term MemoryarXiv 2504.19413
4Memoria: Scalable Agentic Memory FrameworkarXiv 2512.12686
5ASRR: When to Continue Thinking -- Adaptive Thinking Mode SwitchingarXiv 2505.15400
6Adaptive Deep Reasoning: Triggering Deep Thinking When NeededarXiv 2505.20101
7Maximum Effective Context Window for Real World LimitsarXiv 2509.21361
8TDAG: Dynamic Task Decomposition and Agent GenerationarXiv 2505.11814
9AgentOrchestra: Hierarchical Multi-Agent FrameworkarXiv 2506.12508
10HiAgent: Hierarchical Working Memory ManagementACL 2025
11Beacon: Sycophancy skaliert mit ModellgrößearXiv 2510.16727
12CoT Unfaithfulness (Anthropic)arXiv 2505.05410
13Self-Correction Bottleneck (Huang et al.)ICLR 2024
14Error-Depth-HypothesisarXiv 2601.00828
15RLHF Resistance ParadoxarXiv 2601.08842

Sekundärquellen

Nr.TitelQuelle
16Design Patterns for Long-Term Memory in LLM-Powered ArchitecturesSerokell (2025)
17Beyond the Bubble: Context-Aware Memory SystemsTribe AI (2025)
18RAG in 2026: Bridging Knowledge and Generative AISquirro (2026)
19Long-Running AI Agents and Task DecompositionZylos Research (2026)
20RAG in Business & Information Systems EngineeringSpringer BISE (2025), DOI: 10.1007/s12599-025-00945-3
21AI Memory Research -- 26 % Accuracy BoostMem0 Research (2025)


Nächster Schritt: Fachkundige Begleitung

Die Auswahl und Implementierung einer geeigneten Wissensarchitektur erfordert sowohl fachliches Verständnis des Anwendungsbereichs als auch technische Architekturkompetenz. Für Sachverständige, die den Einsatz KI-gestützter Systeme in ihrer Bewertungspraxis prüfen, empfiehlt sich die Zusammenarbeit mit spezialisierten IT-Dienstleistern, die Erfahrung mit RAG-Architekturen und domänenspezifischen Wissenssystemen haben.

Ergänzend bieten die im Quellenverzeichnis aufgeführten Publikationen -- insbesondere die Springer-BISE-Veröffentlichung und die Surveys von Gao et al. -- einen fundierten Einstieg in die methodischen Grundlagen.

Als Mitglied der HSG -- High Specialised Group -- arbeiten wir mit spezialisierten IT-Dienstleistern und Fachkollegen in der Metropolregion Nürnberg zusammen. Keine anonyme Vermittlung, sondern persönliche Empfehlung an Kollegen, für deren Arbeit wir einstehen. Sprechen Sie uns an.

Zurück
Europäischer Fachmann analysiert am Schreibtisch eine mehrstufige Architekturskizze für KI-Systeme mit Dokumenten und Fachliteratur
Ein deutscher Sachverständiger in einem Büro, umgeben von Fachliteratur und Architekturdiagrammen, analysiert die Schichten eines mehrstufigen KI-Gedächtnissystems. Auf dem Bildschirm sind strukturierte Datenflüsse zwischen Kurzzeit- und Langzeitspeicher zu erkennen.