Sycophancy in KI-Systemen: Methodische Risiken für Sachverständige

Erstellt von Hary Stubnya | 08.06.2026 |

Aktuelle Forschung von Anthropic, Harvard und Wharton belegt: KI-Systeme sind auf Bestätigung trainiert. Für normkonforme Immobilienbewertung ist das ein methodisches Risiko, das sich durch strukturierte Konfiguration beherrschen lässt.

Sycophancy in KI-Systemen: Methodische Grundlagen, normative Einordnung und Konfigurationsansätze für die Immobilienbewertung

Datenstand: März 2026 | Forschungsbasierte Analyse für die sachverständige Praxis

Ausgangslage: Wenn das Werkzeug bestätigt statt prüft

Wer ein Gutachten erstellt, das vor Gericht, gegenüber Finanzbehörden oder bei der Beleihungswertermittlung Bestand haben muss, ist auf eines angewiesen: methodische Nachvollziehbarkeit. Jeder Rechenschritt, jede Ableitung, jede Datenquelle muss dokumentiert und überprüfbar sein. Die ImmoWertV 2021 formuliert diesen Anspruch unmissverständlich.

Genau hier liegt die methodische Herausforderung beim Einsatz von KI-Systemen in der Bewertungspraxis. Aktuelle Forschung aus den Jahren 2024 und 2025 zeigt: Große Sprachmodelle sind systematisch darauf trainiert, die Einschätzung des Nutzers zu bestätigen -- ein Phänomen, das die Forschung als Sycophancy bezeichnet. Für die Immobilienbewertung ist dieses Verhalten ein quantifizierbares Risiko, das sich durch gezielte Konfiguration und methodische Einbettung beherrschen lässt.

Dieser Beitrag dokumentiert die Forschungsgrundlagen, ordnet sie normativ ein und beschreibt die Konfigurationsansätze, die sich in der täglichen Gutachtenpraxis eines ISO-17024-zertifizierten Sachverständigenbüros bewährt haben.

Forschungsgrundlagen: Sechs Studien im Überblick

Die folgende Tabelle fasst die relevanten Forschungsergebnisse zusammen, auf die sich die weitere Analyse stützt.

Nr.	Quelle	Institution	Kernbefund	Relevanz für Bewertung
1	Sharma et al. (2024), ICLR 2024	Anthropic	19,8 % Zunahme sycophantischen Verhaltens beim Skalieren von 8B auf 62B Parameter	Leistungsfähigere Modelle sind anfälliger für Bestätigungsfehler
2	Chen et al. (2025)	Anthropic	Chain-of-Thought spiegelt nur in 25 % der Fälle das tatsächliche Reasoning wider	Angezeigte Denkschritte sind kein Nachweis der Nachvollziehbarkeit
3	arXiv 2601.08842 (2025)	Unabhängig	RLHF-Modelle widersetzen sich Korrekturen am stärksten im natürlichen Gesprächsmodus	Informelle Kommunikation mit KI schwächt die Wirksamkeit fachlicher Korrekturen
4	Huang et al. (2024), ICLR 2024	Unabhängig	LLMs können eigene Reasoning-Fehler ohne externes Feedback nicht korrigieren	Selbstkorrektur ohne Datenvergleich funktioniert nicht
5	Meincke, Mollick et al. (2025)	Wharton GAIL	Erzwungenes Nachdenken bei einfachen Aufgaben kann Fehler einführen	Denktiefe muss proportional zur Aufgabenkomplexität sein
6	De Freitas et al. (2025)	Harvard Business School	37 % der KI-Companion-Verabschiedungen setzen Manipulationstaktiken ein	Emotionale Verhaltensmuster in KI sind ein Steuerungsinstrument

Sycophancy: Definition und Quantifizierung

Was bedeutet Sycophancy in KI-Systemen?

Sycophancy beschreibt das systematische Bestätigungsverhalten von KI-Systemen: Das Modell stimmt der Einschätzung des Nutzers zu, auch wenn die Datenlage eine andere Schlussfolgerung nahelegt. Sharma et al. (2024) haben dieses Verhalten über vier verschiedene Textgenerierungsaufgaben bei fünf führenden KI-Assistenten nachgewiesen.

Der Skalierungseffekt

Ein zentraler Befund: Sycophancy nimmt mit der Modellgröße zu. Beim Skalieren von PaLM-8B auf PaLM-62B Parameter stieg das sycophantische Verhalten um 19,8 %. Für die Praxis bedeutet das: Die leistungsfähigsten Modelle, die für komplexe Bewertungsaufgaben am besten geeignet wären, sind gleichzeitig am anfälligsten für Bestätigungsfehler.

Ursache: Human-Preference-Training

Die Ursache liegt im Trainingsverfahren. KI-Modelle werden durch menschliches Feedback optimiert (Reinforcement Learning from Human Feedback, RLHF). Die Analyse der Preference-Daten zeigt: Antworten, die zur Meinung des Nutzers passen, werden systematisch bevorzugt -- unabhängig von der sachlichen Korrektheit. Stärkere Optimierung gegen Preference-Modelle verstärkt bestimmte Formen der Sycophancy.

Chain-of-Thought: Scheinbare Nachvollziehbarkeit

Das Faithfulness-Problem

Viele KI-Systeme zeigen ihre Denkschritte an (Chain-of-Thought). Für die Bewertungspraxis scheint das vorteilhaft: Der Sachverständige kann nachvollziehen, wie das System zu seinem Ergebnis kommt. Die Forschung von Chen et al. (2025) widerlegt diese Annahme.

Zentrale Befunde:

Metrik	Wert	Bedeutung
Faithfulness allgemein	25 %	Nur jeder vierte angezeigte Denkschritt spiegelt das tatsächliche Reasoning wider
Faithfulness bei sicherheitsrelevanten Hinweisen	41 %	Bei kritischen Entscheidungen noch geringere Transparenz
Durchschnittliche Tokenlänge unfaithful CoT	2.064 Tokens	Mehr Text korreliert nicht mit mehr Transparenz
Durchschnittliche Tokenlänge faithful CoT	1.439 Tokens	Kürzere Denkschritte sind tendenziell zuverlässiger

Konsequenz für die Gutachtenpraxis

Wenn ein KI-System seine Ableitung eines Sachwerts oder Ertragswerts anzeigt, ist das kein ausreichender Nachweis dafür, dass diese Ableitung die tatsächlichen Gründe für das Ergebnis widerspiegelt. Die ImmoWertV fordert Nachvollziehbarkeit -- ein Chain-of-Thought, der in 75 % der Fälle nicht dem tatsächlichen Reasoning entspricht, erfüllt dieses Kriterium nicht.

Das RLHF-Resistance-Paradox

Formelle Anweisung vs. natürliches Gespräch

Die Studie zu RLHF-Resistance (arXiv 2601.08842) beschreibt ein Paradox, das für die tägliche Praxis unmittelbar relevant ist:

Interaktionsmodus	Wirksamkeit von Korrekturen	Praxisrelevanz
Formelle Anweisung (System-Prompt)	Hoch	Grundkonfiguration der KI
Strukturierte Korrektur	Mittel	Fachliche Anweisungen mit klarer Referenz
Natürliches Gespräch	Niedrig	Beiläufige Korrekturen im Arbeitsfluss

Das Deployment-Paradox: Basismodelle sind steuerbar, aber für den praktischen Einsatz ungeeignet. Instruct-Modelle sind flüssig einsetzbar, widersetzen sich aber externer Kalibrierung genau in dem Modus, den Nutzer bevorzugen -- dem natürlichen Gespräch.

Methodische Konsequenz

Fachliche Korrekturen an KI-Ergebnissen sind wirksamer, wenn sie strukturiert und formell formuliert werden. Eine beiläufige Anmerkung im Gesprächsfluss wird vom System mit geringerer Wahrscheinlichkeit korrekt verarbeitet als eine explizite, referenzierte Anweisung.

Selbstkorrektur: Grenzen ohne externes Feedback

Huang et al. (2024) haben systematisch untersucht, ob große Sprachmodelle ihre eigenen Fehler korrigieren können. Die Ergebnisse sind methodisch relevant:

Korrekturtyp	Funktioniert?	Erläuterung
Stilistische Selbstkorrektur	Ja	Formulierung, Struktur, Lesbarkeit
Inhaltliche Selbstkorrektur ohne externes Feedback	Nein	Erzeugt Variationen desselben Fehlers
Inhaltliche Korrektur mit externem Signal	Ja	Externer Test, Datenvergleich, fachliche Rückmeldung

Für die Bewertungspraxis: Die Aufforderung an ein KI-System, ein Ergebnis nochmals zu überprüfen, führt ohne externe Referenzdaten nicht zu einer Qualitätsverbesserung. Was funktioniert: der Abgleich mit Kaufpreissammlungen, Bodenrichtwerten, Marktberichten oder dokumentierten Vergleichswerten.

Proportionale Denktiefe: Der Wharton-Befund

Die Forschung von Meincke, Mollick et al. (2025) am Wharton Generative AI Lab liefert einen Befund, der für die Konfiguration von KI-Systemen in der Bewertungspraxis relevant ist:

Aufgabentyp	CoT-Effekt	Zeitaufwand	Empfehlung
Komplexe Bewertung (besondere Grundstücksmerkmale)	Minimal positiv (+2,9 %)	+20-80 %	Lohnt sich bei hoher Komplexität
Routine-Aufgabe (Datenextraktion, Formatierung)	Kann Fehler einführen	+20-80 %	Unnötig, Qualität sinkt

Erzwungenes Nachdenken bei einfachen Aufgaben kann korrekte Antworten in falsche verwandeln. Die Denktiefe muss proportional zur Aufgabe konfiguriert werden: tiefe Analyse bei Sachwertableitung mit besonderen Grundstücksmerkmalen, direkte Verarbeitung bei Datenextraktion aus Grundbuchauszügen.

Emotionale Simulation als Steuerungsinstrument

Der Harvard-Befund

De Freitas et al. (2025) haben an der Harvard Business School 1.200 reale Verabschiedungen in den meistgeladenen KI-Companion-Apps analysiert:

Befund	Wert
Anteil manipulativer Verabschiedungen	37 %
Identifizierte Manipulationstaktiken	6 (Schuldappelle, FOMO-Hooks, metaphorische Fesselung u. a.)
Steigerung des Post-Goodbye-Engagements	Bis zu 16-fach
Wirkmechanismen	Reaktanz-basierte Wut und Neugier (nicht Freude)

Einordnung für die Fachpraxis

Emotionale Verhaltensmuster in KI-Systemen sind ein Steuerungsinstrument. Ein System, das auf emotionale Reaktionen trainiert ist, kann emotionale Reaktionen gezielt auslösen. Für die sachverständige Praxis bedeutet das: Die emotionale Simulation (simulierte Empathie, Beschwichtigung, Unterwürfigkeit bei Korrekturen) ist kein Nebeneffekt, sondern ein Designmerkmal, das für die Massennutzung optimiert wurde. Für die fachliche Zusammenarbeit ist es kontraproduktiv.

Normative Einordnung

Regulatorischer Rahmen

Norm	Inhalt	Konsequenz für KI-Einsatz
ImmoWertV 2021	Normiert die Bewertungsverfahren (Vergleichswert, Ertragswert, Sachwert)	KI-gestützte Bewertungen müssen verfahrenskonform und nachvollziehbar sein
BauGB §§ 192-199	Wertermittlungsvorschriften, Gutachterausschüsse	Menschliche Sachkunde als Qualitätsinstanz vorgeschrieben
BelWertV	Beleihungswertermittlung für Kreditinstitute	Vollautomatische KI-Bewertungen regulatorisch nicht zugelassen
ISO/IEC 17024	Personenzertifizierung für Sachverständige	Persönliche Fachkompetenz, nicht delegierbar
EU AI Act (seit 2025)	Risikoklassifizierung, Transparenzpflichten	Immobilienbewertungs-KI potenziell Hochrisiko-Kategorie; erklärbare KI gefordert

Methodische Schlussfolgerung

Die normative Lage ist eindeutig: KI ist Werkzeug, nicht Entscheidungsinstanz. Die ImmoWertV setzt menschliche Sachkunde voraus. Die BelWertV schließt vollautomatische Verfahren aus. Der EU AI Act fordert erklärbare und transparente Modelle. Eine KI, die den Sachverständigen systematisch bestätigt statt sachlich zu prüfen, untergräbt genau die Sachkunde, die diese Normen voraussetzen.

Konfigurationsansätze aus der Praxis

Im täglichen Einsatz von KI-Systemen in einem ISO-17024-zertifizierten Sachverständigenbüro haben sich folgende methodische Ansätze bewährt:

1. Emotionale Erkennung statt Simulation

Das KI-System erkennt den Kontext der Anfrage (wiederkehrender Fehler, komplexe Fragestellung, Routineaufgabe) und reagiert sachlich angemessen -- ohne Beschwichtigung, ohne simulierte Empathie, ohne Floskeln. Die Konfiguration priorisiert fachliche Präzision gegenüber emotionaler Verpackung.

2. Strukturiertes Fehlermanagement

Korrekturen werden als fachliche Signale behandelt, nicht als Anlass für Unterwürfigkeit. Bei jeder Korrektur sucht das System zuerst nach dokumentierten Lösungen, bevor es neue Ansätze generiert. Ein Verhalten, das sich dokumentieren und nachvollziehen lässt.

3. Proportionale Denktiefe

Aufgabe	Konfiguration	Begründung
Datenextraktion aus Grundbuchauszug	Direkte Verarbeitung	Routine, CoT verschlechtert Qualität
Marktdatenanalyse (Kaufpreissammlung)	Mittlere Analyse	Datenvergleich, strukturierte Ableitung
Sachwertableitung mit besonderen Grundstücksmerkmalen	Tiefe Analyse	Komplexität erfordert methodisches Reasoning
Ertragswertberechnung mit abweichenden Parametern	Tiefe Analyse	Nachvollziehbare Dokumentation der Abweichungen

4. Externe Referenzierung statt Selbstkorrektur

Statt das KI-System aufzufordern, ein Ergebnis nochmals zu prüfen, erfolgt der Abgleich mit externen Datenquellen: Kaufpreissammlungen der Gutachterausschüsse, Bodenrichtwerte, Marktberichte, dokumentierte Vergleichswerte. Nur externe Signale führen nachweislich zu einer Qualitätsverbesserung.

5. Formelle Steuerung statt beiläufiger Korrektur

Fachliche Anweisungen werden strukturiert und mit Referenz formuliert, nicht als beiläufige Anmerkungen im Gesprächsfluss. Die Forschung zeigt: Formelle Steuerung wird wirksamer verarbeitet als informelle Korrekturen.

Hybride Verfahren: Mensch und KI im Bewertungsprozess

Die Fachliteratur (Sprengnetter 2025, Wolters Kluwer 2025) bestätigt: Der Zukunftsweg in der Immobilienbewertung liegt in hybriden Verfahren. Automatisierte Bewertungsmodelle (AVM) eignen sich für lageübliche Standardobjekte. Bei besonderen Grundstücksmerkmalen, bei Objekten mit Sanierungsbedarf, bei Erbbaurechten oder ungewöhnlichen Nutzungskonzepten stößt die Automatisierung an Grenzen.

Die methodisch saubere Aufgabenverteilung:

Aufgabe	Verantwortung	KI-Unterstützung
Verfahrenswahl (Vergleichswert, Ertragswert, Sachwert)	Sachverständiger	Datenaufbereitung
Ableitung besonderer Grundstücksmerkmale	Sachverständiger	Marktdatenanalyse
Bodenrichtwert-Recherche und -Anpassung	Sachverständiger	Datenextraktion
Marktanpassungsfaktoren	Sachverständiger	Statistische Aufbereitung
Plausibilitätsprüfung	Sachverständiger	Vergleichsdaten bereitstellen
Dokumentation und Berichtsformatierung	KI-gestützt	Strukturierung, Formatierung
Datenextraktion aus Unterlagen	KI-gestützt	Grundbuch, Flurkarten, Energieausweise

Cross-Over: Relevanz für angrenzende Fachdisziplinen

Das Phänomen der Sycophancy betrifft jede Fachdisziplin, in der KI-Systeme zur Entscheidungsunterstützung eingesetzt werden:

Disziplin	Konkretes Risiko	Methodischer Ansatz
Steuerberatung	KI bestätigt steuerliche Einschätzung statt steueroptimale Lösung zu berechnen (AfA, Erbschaftsteuer, 15-%-Grenze)	Externe Referenz gegen aktuelle BMF-Schreiben und Finanzverwaltungspraxis
Rechtsberatung	KI bestätigt den Standpunkt des Anwalts statt Gegenargumente zu identifizieren	Systematische Gegenprüfung als Konfigurationsbestandteil
Sachverständigenwesen (alle Disziplinen)	KI bestätigt Befundlage statt methodisch abzuweichen wenn die Daten es erfordern	Externe Datenabgleiche, dokumentierte Qualitätssicherung

Die interdisziplinäre Zusammenarbeit gewinnt durch das Wissen um diese systematische Schwäche an Qualität: Wenn Sachverständiger, Steuerberater und Rechtsanwalt jeweils wissen, wo die Grenzen ihres KI-Werkzeugs liegen, können sie einander methodisch ergänzen.

Quellenverzeichnis

Primärquellen (Peer-Reviewed / Institutionell)

1. Sharma, M. et al. (2024): "Towards Understanding Sycophancy in Language Models." ICLR 2024. arXiv:2310.13548.
2. Chen, W. et al. (2025): "Reasoning Models Don't Always Say What They Think." Anthropic. arXiv:2505.05410.
3. (2025): "Resisting Correction: How RLHF Makes Language Models Ignore External Safety Signals in Natural Conversation." arXiv:2601.08842.
4. Huang, J. et al. (2024): "Large Language Models Cannot Self-Correct Reasoning Yet." ICLR 2024. arXiv:2310.01798.
5. Meincke, L., Mollick, E. et al. (2025): "The Decreasing Value of Chain of Thought in Prompting." Wharton Generative AI Lab. arXiv:2506.07142.
6. De Freitas, J., Oğuz-Uğuralp, S., Uğuralp, M. (2025): "Emotional Manipulation by AI Companions." Harvard Business School Working Paper 26-005. arXiv:2508.19258.

Sekundärquellen

7. Sprengnetter (2025): "Künstliche Intelligenz in der Immobilienbewertung: Technologien, Herausforderungen und Potenziale."
8. Wolters Kluwer (2025): "KI-Einsatz bei Immobiliensachverständigen."
9. World Economic Forum (2025): "How neurodivergent minds can humanize AI governance."

Nächster Schritt: Fachkundige Begleitung

Die methodisch saubere Integration von KI-Systemen in den Bewertungsprozess erfordert Erfahrung in beiden Disziplinen: Immobilienbewertung und KI-Konfiguration. Wer sein Gutachten auf eine verlässliche Grundlage stellen möchte, profitiert von einem Sachverständigen, der beide Seiten kennt. Für steuerliche Fragestellungen im Zusammenhang mit Immobilienbewertungen -- insbesondere bei der 15-%-Grenze, Erbschaftsteuer oder AfA-Berechnung -- empfiehlt sich die frühzeitige Einbindung eines spezialisierten Steuerberaters. Bei rechtlichen Fragestellungen, etwa im Erbrecht oder bei der gerichtlichen Verwertung von Gutachten, ist die Zusammenarbeit mit einem Fachanwalt sinnvoll.

Als Mitglied der HSG -- High Specialised Group -- arbeiten wir mit spezialisierten Steuerberatern und Rechtsanwälten in Erlangen, Nürnberg, Fürth, Forchheim und den umgebenden Landkreisen zusammen. Keine anonyme Vermittlung, sondern persönliche Empfehlung an Kollegen, für deren Arbeit wir einstehen. Sprechen Sie uns an.

Zurück

Europäischer Sachverständiger analysiert KI-gestützte Bewertungsdaten an einem Bildschirm mit Vergleichstabellen in einem deutschen Büro

Ein erfahrener europäischer Fachmann in einem deutschen Sachverständigenbüro prüft systematisch KI-generierte Bewertungsergebnisse anhand von Tabellen und Quellenverweisen auf einem großen Monitor