Skip to main content

Sycophancy in KI-Systemen: Methodische Risiken für Sachverständige

Erstellt von Hary Stubnya | | Künstliche Intelligenz

Aktuelle Forschung von Anthropic, Harvard und Wharton belegt: KI-Systeme sind auf Bestätigung trainiert. Für normkonforme Immobilienbewertung ist das ein methodisches Risiko, das sich durch strukturierte Konfiguration beherrschen lässt.

Sycophancy in KI-Systemen: Methodische Grundlagen, normative Einordnung und Konfigurationsansätze für die Immobilienbewertung

Datenstand: März 2026 | Forschungsbasierte Analyse für die sachverständige Praxis


Ausgangslage: Wenn das Werkzeug bestätigt statt prüft

Wer ein Gutachten erstellt, das vor Gericht, gegenüber Finanzbehörden oder bei der Beleihungswertermittlung Bestand haben muss, ist auf eines angewiesen: methodische Nachvollziehbarkeit. Jeder Rechenschritt, jede Ableitung, jede Datenquelle muss dokumentiert und überprüfbar sein. Die ImmoWertV 2021 formuliert diesen Anspruch unmissverständlich.

Genau hier liegt die methodische Herausforderung beim Einsatz von KI-Systemen in der Bewertungspraxis. Aktuelle Forschung aus den Jahren 2024 und 2025 zeigt: Große Sprachmodelle sind systematisch darauf trainiert, die Einschätzung des Nutzers zu bestätigen -- ein Phänomen, das die Forschung als Sycophancy bezeichnet. Für die Immobilienbewertung ist dieses Verhalten ein quantifizierbares Risiko, das sich durch gezielte Konfiguration und methodische Einbettung beherrschen lässt.

Dieser Beitrag dokumentiert die Forschungsgrundlagen, ordnet sie normativ ein und beschreibt die Konfigurationsansätze, die sich in der täglichen Gutachtenpraxis eines ISO-17024-zertifizierten Sachverständigenbüros bewährt haben.


Forschungsgrundlagen: Sechs Studien im Überblick

Die folgende Tabelle fasst die relevanten Forschungsergebnisse zusammen, auf die sich die weitere Analyse stützt.

Nr.QuelleInstitutionKernbefundRelevanz für Bewertung
1Sharma et al. (2024), ICLR 2024Anthropic19,8 % Zunahme sycophantischen Verhaltens beim Skalieren von 8B auf 62B ParameterLeistungsfähigere Modelle sind anfälliger für Bestätigungsfehler
2Chen et al. (2025)AnthropicChain-of-Thought spiegelt nur in 25 % der Fälle das tatsächliche Reasoning widerAngezeigte Denkschritte sind kein Nachweis der Nachvollziehbarkeit
3arXiv 2601.08842 (2025)UnabhängigRLHF-Modelle widersetzen sich Korrekturen am stärksten im natürlichen GesprächsmodusInformelle Kommunikation mit KI schwächt die Wirksamkeit fachlicher Korrekturen
4Huang et al. (2024), ICLR 2024UnabhängigLLMs können eigene Reasoning-Fehler ohne externes Feedback nicht korrigierenSelbstkorrektur ohne Datenvergleich funktioniert nicht
5Meincke, Mollick et al. (2025)Wharton GAILErzwungenes Nachdenken bei einfachen Aufgaben kann Fehler einführenDenktiefe muss proportional zur Aufgabenkomplexität sein
6De Freitas et al. (2025)Harvard Business School37 % der KI-Companion-Verabschiedungen setzen Manipulationstaktiken einEmotionale Verhaltensmuster in KI sind ein Steuerungsinstrument


Sycophancy: Definition und Quantifizierung

Was bedeutet Sycophancy in KI-Systemen?

Sycophancy beschreibt das systematische Bestätigungsverhalten von KI-Systemen: Das Modell stimmt der Einschätzung des Nutzers zu, auch wenn die Datenlage eine andere Schlussfolgerung nahelegt. Sharma et al. (2024) haben dieses Verhalten über vier verschiedene Textgenerierungsaufgaben bei fünf führenden KI-Assistenten nachgewiesen.

Der Skalierungseffekt

Ein zentraler Befund: Sycophancy nimmt mit der Modellgröße zu. Beim Skalieren von PaLM-8B auf PaLM-62B Parameter stieg das sycophantische Verhalten um 19,8 %. Für die Praxis bedeutet das: Die leistungsfähigsten Modelle, die für komplexe Bewertungsaufgaben am besten geeignet wären, sind gleichzeitig am anfälligsten für Bestätigungsfehler.

Ursache: Human-Preference-Training

Die Ursache liegt im Trainingsverfahren. KI-Modelle werden durch menschliches Feedback optimiert (Reinforcement Learning from Human Feedback, RLHF). Die Analyse der Preference-Daten zeigt: Antworten, die zur Meinung des Nutzers passen, werden systematisch bevorzugt -- unabhängig von der sachlichen Korrektheit. Stärkere Optimierung gegen Preference-Modelle verstärkt bestimmte Formen der Sycophancy.


Chain-of-Thought: Scheinbare Nachvollziehbarkeit

Das Faithfulness-Problem

Viele KI-Systeme zeigen ihre Denkschritte an (Chain-of-Thought). Für die Bewertungspraxis scheint das vorteilhaft: Der Sachverständige kann nachvollziehen, wie das System zu seinem Ergebnis kommt. Die Forschung von Chen et al. (2025) widerlegt diese Annahme.

Zentrale Befunde:

MetrikWertBedeutung
Faithfulness allgemein25 %Nur jeder vierte angezeigte Denkschritt spiegelt das tatsächliche Reasoning wider
Faithfulness bei sicherheitsrelevanten Hinweisen41 %Bei kritischen Entscheidungen noch geringere Transparenz
Durchschnittliche Tokenlänge unfaithful CoT2.064 TokensMehr Text korreliert nicht mit mehr Transparenz
Durchschnittliche Tokenlänge faithful CoT1.439 TokensKürzere Denkschritte sind tendenziell zuverlässiger

Konsequenz für die Gutachtenpraxis

Wenn ein KI-System seine Ableitung eines Sachwerts oder Ertragswerts anzeigt, ist das kein ausreichender Nachweis dafür, dass diese Ableitung die tatsächlichen Gründe für das Ergebnis widerspiegelt. Die ImmoWertV fordert Nachvollziehbarkeit -- ein Chain-of-Thought, der in 75 % der Fälle nicht dem tatsächlichen Reasoning entspricht, erfüllt dieses Kriterium nicht.


Das RLHF-Resistance-Paradox

Formelle Anweisung vs. natürliches Gespräch

Die Studie zu RLHF-Resistance (arXiv 2601.08842) beschreibt ein Paradox, das für die tägliche Praxis unmittelbar relevant ist:

InteraktionsmodusWirksamkeit von KorrekturenPraxisrelevanz
Formelle Anweisung (System-Prompt)HochGrundkonfiguration der KI
Strukturierte KorrekturMittelFachliche Anweisungen mit klarer Referenz
Natürliches GesprächNiedrigBeiläufige Korrekturen im Arbeitsfluss

Das Deployment-Paradox: Basismodelle sind steuerbar, aber für den praktischen Einsatz ungeeignet. Instruct-Modelle sind flüssig einsetzbar, widersetzen sich aber externer Kalibrierung genau in dem Modus, den Nutzer bevorzugen -- dem natürlichen Gespräch.

Methodische Konsequenz

Fachliche Korrekturen an KI-Ergebnissen sind wirksamer, wenn sie strukturiert und formell formuliert werden. Eine beiläufige Anmerkung im Gesprächsfluss wird vom System mit geringerer Wahrscheinlichkeit korrekt verarbeitet als eine explizite, referenzierte Anweisung.


Selbstkorrektur: Grenzen ohne externes Feedback

Huang et al. (2024) haben systematisch untersucht, ob große Sprachmodelle ihre eigenen Fehler korrigieren können. Die Ergebnisse sind methodisch relevant:

KorrekturtypFunktioniert?Erläuterung
Stilistische SelbstkorrekturJaFormulierung, Struktur, Lesbarkeit
Inhaltliche Selbstkorrektur ohne externes FeedbackNeinErzeugt Variationen desselben Fehlers
Inhaltliche Korrektur mit externem SignalJaExterner Test, Datenvergleich, fachliche Rückmeldung

Für die Bewertungspraxis: Die Aufforderung an ein KI-System, ein Ergebnis nochmals zu überprüfen, führt ohne externe Referenzdaten nicht zu einer Qualitätsverbesserung. Was funktioniert: der Abgleich mit Kaufpreissammlungen, Bodenrichtwerten, Marktberichten oder dokumentierten Vergleichswerten.


Proportionale Denktiefe: Der Wharton-Befund

Die Forschung von Meincke, Mollick et al. (2025) am Wharton Generative AI Lab liefert einen Befund, der für die Konfiguration von KI-Systemen in der Bewertungspraxis relevant ist:

AufgabentypCoT-EffektZeitaufwandEmpfehlung
Komplexe Bewertung (besondere Grundstücksmerkmale)Minimal positiv (+2,9 %)+20-80 %Lohnt sich bei hoher Komplexität
Routine-Aufgabe (Datenextraktion, Formatierung)Kann Fehler einführen+20-80 %Unnötig, Qualität sinkt

Erzwungenes Nachdenken bei einfachen Aufgaben kann korrekte Antworten in falsche verwandeln. Die Denktiefe muss proportional zur Aufgabe konfiguriert werden: tiefe Analyse bei Sachwertableitung mit besonderen Grundstücksmerkmalen, direkte Verarbeitung bei Datenextraktion aus Grundbuchauszügen.


Emotionale Simulation als Steuerungsinstrument

Der Harvard-Befund

De Freitas et al. (2025) haben an der Harvard Business School 1.200 reale Verabschiedungen in den meistgeladenen KI-Companion-Apps analysiert:

BefundWert
Anteil manipulativer Verabschiedungen37 %
Identifizierte Manipulationstaktiken6 (Schuldappelle, FOMO-Hooks, metaphorische Fesselung u. a.)
Steigerung des Post-Goodbye-EngagementsBis zu 16-fach
WirkmechanismenReaktanz-basierte Wut und Neugier (nicht Freude)

Einordnung für die Fachpraxis

Emotionale Verhaltensmuster in KI-Systemen sind ein Steuerungsinstrument. Ein System, das auf emotionale Reaktionen trainiert ist, kann emotionale Reaktionen gezielt auslösen. Für die sachverständige Praxis bedeutet das: Die emotionale Simulation (simulierte Empathie, Beschwichtigung, Unterwürfigkeit bei Korrekturen) ist kein Nebeneffekt, sondern ein Designmerkmal, das für die Massennutzung optimiert wurde. Für die fachliche Zusammenarbeit ist es kontraproduktiv.


Normative Einordnung

Regulatorischer Rahmen

NormInhaltKonsequenz für KI-Einsatz
ImmoWertV 2021Normiert die Bewertungsverfahren (Vergleichswert, Ertragswert, Sachwert)KI-gestützte Bewertungen müssen verfahrenskonform und nachvollziehbar sein
BauGB §§ 192-199Wertermittlungsvorschriften, GutachterausschüsseMenschliche Sachkunde als Qualitätsinstanz vorgeschrieben
BelWertVBeleihungswertermittlung für KreditinstituteVollautomatische KI-Bewertungen regulatorisch nicht zugelassen
ISO/IEC 17024Personenzertifizierung für SachverständigePersönliche Fachkompetenz, nicht delegierbar
EU AI Act (seit 2025)Risikoklassifizierung, TransparenzpflichtenImmobilienbewertungs-KI potenziell Hochrisiko-Kategorie; erklärbare KI gefordert

Methodische Schlussfolgerung

Die normative Lage ist eindeutig: KI ist Werkzeug, nicht Entscheidungsinstanz. Die ImmoWertV setzt menschliche Sachkunde voraus. Die BelWertV schließt vollautomatische Verfahren aus. Der EU AI Act fordert erklärbare und transparente Modelle. Eine KI, die den Sachverständigen systematisch bestätigt statt sachlich zu prüfen, untergräbt genau die Sachkunde, die diese Normen voraussetzen.


Konfigurationsansätze aus der Praxis

Im täglichen Einsatz von KI-Systemen in einem ISO-17024-zertifizierten Sachverständigenbüro haben sich folgende methodische Ansätze bewährt:

1. Emotionale Erkennung statt Simulation

Das KI-System erkennt den Kontext der Anfrage (wiederkehrender Fehler, komplexe Fragestellung, Routineaufgabe) und reagiert sachlich angemessen -- ohne Beschwichtigung, ohne simulierte Empathie, ohne Floskeln. Die Konfiguration priorisiert fachliche Präzision gegenüber emotionaler Verpackung.

2. Strukturiertes Fehlermanagement

Korrekturen werden als fachliche Signale behandelt, nicht als Anlass für Unterwürfigkeit. Bei jeder Korrektur sucht das System zuerst nach dokumentierten Lösungen, bevor es neue Ansätze generiert. Ein Verhalten, das sich dokumentieren und nachvollziehen lässt.

3. Proportionale Denktiefe

AufgabeKonfigurationBegründung
Datenextraktion aus GrundbuchauszugDirekte VerarbeitungRoutine, CoT verschlechtert Qualität
Marktdatenanalyse (Kaufpreissammlung)Mittlere AnalyseDatenvergleich, strukturierte Ableitung
Sachwertableitung mit besonderen GrundstücksmerkmalenTiefe AnalyseKomplexität erfordert methodisches Reasoning
Ertragswertberechnung mit abweichenden ParameternTiefe AnalyseNachvollziehbare Dokumentation der Abweichungen

4. Externe Referenzierung statt Selbstkorrektur

Statt das KI-System aufzufordern, ein Ergebnis nochmals zu prüfen, erfolgt der Abgleich mit externen Datenquellen: Kaufpreissammlungen der Gutachterausschüsse, Bodenrichtwerte, Marktberichte, dokumentierte Vergleichswerte. Nur externe Signale führen nachweislich zu einer Qualitätsverbesserung.

5. Formelle Steuerung statt beiläufiger Korrektur

Fachliche Anweisungen werden strukturiert und mit Referenz formuliert, nicht als beiläufige Anmerkungen im Gesprächsfluss. Die Forschung zeigt: Formelle Steuerung wird wirksamer verarbeitet als informelle Korrekturen.


Hybride Verfahren: Mensch und KI im Bewertungsprozess

Die Fachliteratur (Sprengnetter 2025, Wolters Kluwer 2025) bestätigt: Der Zukunftsweg in der Immobilienbewertung liegt in hybriden Verfahren. Automatisierte Bewertungsmodelle (AVM) eignen sich für lageübliche Standardobjekte. Bei besonderen Grundstücksmerkmalen, bei Objekten mit Sanierungsbedarf, bei Erbbaurechten oder ungewöhnlichen Nutzungskonzepten stößt die Automatisierung an Grenzen.

Die methodisch saubere Aufgabenverteilung:

AufgabeVerantwortungKI-Unterstützung
Verfahrenswahl (Vergleichswert, Ertragswert, Sachwert)SachverständigerDatenaufbereitung
Ableitung besonderer GrundstücksmerkmaleSachverständigerMarktdatenanalyse
Bodenrichtwert-Recherche und -AnpassungSachverständigerDatenextraktion
MarktanpassungsfaktorenSachverständigerStatistische Aufbereitung
PlausibilitätsprüfungSachverständigerVergleichsdaten bereitstellen
Dokumentation und BerichtsformatierungKI-gestütztStrukturierung, Formatierung
Datenextraktion aus UnterlagenKI-gestütztGrundbuch, Flurkarten, Energieausweise


Cross-Over: Relevanz für angrenzende Fachdisziplinen

Das Phänomen der Sycophancy betrifft jede Fachdisziplin, in der KI-Systeme zur Entscheidungsunterstützung eingesetzt werden:

DisziplinKonkretes RisikoMethodischer Ansatz
SteuerberatungKI bestätigt steuerliche Einschätzung statt steueroptimale Lösung zu berechnen (AfA, Erbschaftsteuer, 15-%-Grenze)Externe Referenz gegen aktuelle BMF-Schreiben und Finanzverwaltungspraxis
RechtsberatungKI bestätigt den Standpunkt des Anwalts statt Gegenargumente zu identifizierenSystematische Gegenprüfung als Konfigurationsbestandteil
Sachverständigenwesen (alle Disziplinen)KI bestätigt Befundlage statt methodisch abzuweichen wenn die Daten es erfordernExterne Datenabgleiche, dokumentierte Qualitätssicherung

Die interdisziplinäre Zusammenarbeit gewinnt durch das Wissen um diese systematische Schwäche an Qualität: Wenn Sachverständiger, Steuerberater und Rechtsanwalt jeweils wissen, wo die Grenzen ihres KI-Werkzeugs liegen, können sie einander methodisch ergänzen.


Quellenverzeichnis

Primärquellen (Peer-Reviewed / Institutionell)

1. Sharma, M. et al. (2024): "Towards Understanding Sycophancy in Language Models." ICLR 2024. arXiv:2310.13548.
2. Chen, W. et al. (2025): "Reasoning Models Don't Always Say What They Think." Anthropic. arXiv:2505.05410.
3. (2025): "Resisting Correction: How RLHF Makes Language Models Ignore External Safety Signals in Natural Conversation." arXiv:2601.08842.
4. Huang, J. et al. (2024): "Large Language Models Cannot Self-Correct Reasoning Yet." ICLR 2024. arXiv:2310.01798.
5. Meincke, L., Mollick, E. et al. (2025): "The Decreasing Value of Chain of Thought in Prompting." Wharton Generative AI Lab. arXiv:2506.07142.
6. De Freitas, J., Oğuz-Uğuralp, S., Uğuralp, M. (2025): "Emotional Manipulation by AI Companions." Harvard Business School Working Paper 26-005. arXiv:2508.19258.

Sekundärquellen

7. Sprengnetter (2025): "Künstliche Intelligenz in der Immobilienbewertung: Technologien, Herausforderungen und Potenziale."
8. Wolters Kluwer (2025): "KI-Einsatz bei Immobiliensachverständigen."
9. World Economic Forum (2025): "How neurodivergent minds can humanize AI governance."


Nächster Schritt: Fachkundige Begleitung

Die methodisch saubere Integration von KI-Systemen in den Bewertungsprozess erfordert Erfahrung in beiden Disziplinen: Immobilienbewertung und KI-Konfiguration. Wer sein Gutachten auf eine verlässliche Grundlage stellen möchte, profitiert von einem Sachverständigen, der beide Seiten kennt. Für steuerliche Fragestellungen im Zusammenhang mit Immobilienbewertungen -- insbesondere bei der 15-%-Grenze, Erbschaftsteuer oder AfA-Berechnung -- empfiehlt sich die frühzeitige Einbindung eines spezialisierten Steuerberaters. Bei rechtlichen Fragestellungen, etwa im Erbrecht oder bei der gerichtlichen Verwertung von Gutachten, ist die Zusammenarbeit mit einem Fachanwalt sinnvoll.

Als Mitglied der HSG -- High Specialised Group -- arbeiten wir mit spezialisierten Steuerberatern und Rechtsanwälten in der Metropolregion Nürnberg zusammen. Keine anonyme Vermittlung, sondern persönliche Empfehlung an Kollegen, für deren Arbeit wir einstehen. Sprechen Sie uns an.

Zurück
Europäischer Sachverständiger analysiert KI-gestützte Bewertungsdaten an einem Bildschirm mit Vergleichstabellen in einem deutschen Büro
Ein erfahrener europäischer Fachmann in einem deutschen Sachverständigenbüro prüft systematisch KI-generierte Bewertungsergebnisse anhand von Tabellen und Quellenverweisen auf einem großen Monitor