● Guide·17. April 2026·10 Min. Lesezeit

3 Fragen, die jede Steuerkanzlei einem KI-Anbieter stellen muss

Datenschutz, Fachlogik, Kanzlei-Sprache: Ein Evaluation-Framework für KI-Tools in der Steuerkanzlei, aus 48 realen Auswahl-Gesprächen.

Von Marc Handschug

TL;DR

Drei Fragen filtern in 30 Minuten jeden KI-Anbieter: Werden Mandantendaten zum Trainingsmaterial? Versteht die KI fachliche Logik oder nur Textwahrscheinlichkeit? Spricht die KI wie deine Steuerkanzlei oder wie ein generisches Sprachmodell? Wer alle drei sauber beantwortet, ist einsetzbar. Wer auch nur eine relativiert, ist ein Haftungsrisiko.

In unseren Discovery-Gesprächen mit deutschen Steuerkanzleien ist die häufigste Aussage in der ersten Minute nicht Interesse, sondern Skepsis:

„Höchstpersönliche Dinge stehen in diesen E-Mails, Einkommen, Vermögensverhältnisse. Ist das datenschutzmäßig wirklich okay, wenn da eine KI ran geht?" Kanzleiinhaber, 25 Mitarbeitende

Diese Skepsis ist nicht paranoid. Sie ist begründet. Der KI-Markt für Steuerkanzleien ist unübersichtlich, und die meisten Anbieter positionieren sich mit Versprechen, die sie in der Praxis nicht halten. In 48 strukturierten Gesprächen haben wir von 19 Steuerkanzleien gehört, dass sie bereits schlechte Erfahrungen mit einem KI-Tool gemacht haben, bevor sie mit uns sprachen.

Dieser Artikel liefert das Evaluation-Framework, das wir nach diesen Gesprächen destilliert haben: drei Fragen, die jede Steuerkanzlei jedem KI-Anbieter stellen sollte. Wer zwei davon sauber beantwortet, ist nicht reif. Wer auch nur eine nicht überzeugend beantwortet, ist ein Haftungsrisiko.

Warum die meisten KI-Tools für Steuerkanzleien nicht reif sind

Der Markt hat drei Gruppen von Anbietern:

Generische Sprachmodelle (ChatGPT, Copilot, Gemini), die als KI-Assistenten beworben werden und technisch beeindruckend sind, aber keine der branchenspezifischen Anforderungen erfüllen. In der Standardkonfiguration sind sie weder §203 StGB-konform noch kennen sie den Kanzlei-Kontext.

Kanzleispezifische KI-Frühversionen, oft von DATEV-Ökosystem-Partnern oder Nischen-Anbietern, die auf regelbasierten Systemen aufbauen und mit „KI" beworben werden. Funktional häufig in der Liga von Outlook-Regeln der 2010er Jahre, mit einem Sprachmodell-Anstrich.

Moderne KI-Agenten der 2026er Generation (zu denen Clara gehört), die auf aktuellen Sprachmodellen basieren, speziell für Steuerkanzlei-Workflows trainiert sind und die rechtlichen Anforderungen als Voraussetzung, nicht als Feature, erfüllen.

Das Problem: Im Marketing-Sprech sehen alle drei Gruppen ähnlich aus. „KI für Steuerberater", „Intelligente Automatisierung", „§203-konform". Die Unterschiede werden erst in einem strukturierten Evaluation-Gespräch sichtbar.

Eine Steuerberaterin mit Einzelkanzlei brachte ihre Erfahrung so auf den Punkt:

„Andere Tools greifen auf die Daten zu und biegen dann falsch ab. Die verstehen die Logik unseres Jobs einfach nicht. Sie gehen nach Textwahrscheinlichkeit, nicht nach fachlichem Denken." Steuerberaterin, Einzelkanzlei

Wer das einmal erlebt hat, ist zu Recht vorsichtig. Die folgenden drei Fragen filtern die Anbieter, die es nicht verdienen.

Das 3-Fragen-Framework

#	Frage	Prüft	Risiko bei Fehler
1	Werden meine Mandantendaten zum Trainingsmaterial?	Rechtliche Absicherung	§203 StGB Strafbarkeit
2	Versteht die KI Fälle oder nur Keywords?	Fachliche Zuverlässigkeit	Haftung bei falscher Klassifikation
3	Spricht die KI wie meine Kanzlei?	Mandanten-Kommunikation	Vertrauensverlust beim Mandanten

Jede Frage hat konkrete Unterfragen, die der Anbieter beantworten muss. Ausweichende Antworten, Verweise auf „das klären wir später" oder Generalisierungen sind Warnsignale.

Frage 1: Werden meine Mandantendaten zum Trainingsmaterial?

Das ist die wichtigste Frage, weil sie existentiell ist. §203 StGB stellt die Weitergabe von Mandantengeheimnissen an nicht befugte Dritte unter Strafe, auch fahrlässig. Wenn ein KI-Anbieter Daten speichert, weiterverarbeitet oder zum Modelltraining nutzt, ist das ein potenziell strafrechtliches Problem für den Berufsträger und damit für die Steuerkanzlei als Ganzes.

Die konkreten Unterfragen, die Sie jedem Anbieter stellen sollten:

Wo werden die Daten verarbeitet? Akzeptable Antwort: „Ausschließlich in der EU, primär in [konkrete Stadt]." Nicht akzeptabel: „Unsere Server sind sicher", „Wir nutzen zertifizierte Cloud-Anbieter" ohne Standort-Spezifikation.

Werden Daten zum Modelltraining genutzt? Akzeptable Antwort: „Nein, Zero-Retention-Architektur ist vertraglich und technisch zugesichert. Jeder Request wird nach Verarbeitung gelöscht." Nicht akzeptabel: „Nur anonymisiert" oder „Nur mit Ihrer Zustimmung, die Sie jederzeit widerrufen können."

Gibt es einen AVV nach Art. 28 DSGVO? Akzeptable Antwort: „Ja, standardmäßig vor dem produktiven Start, mit AVV-Anlagen zu TOMs, Sub-Auftragsverarbeitern und Löschkonzept." Nicht akzeptabel: „Auf Anfrage" oder „Brauchen wir nicht, weil wir nur ein Plugin sind."

Ist der Anbieter als mitwirkende Person nach §203 Abs. 4 Nr. 1 StGB eingebunden? Akzeptable Antwort: „Ja, schriftliche Verschwiegenheitsverpflichtung mit Belehrung über strafrechtliche Folgen ist Teil des Vertrags." Nicht akzeptabel: „§203 betrifft uns nicht, das regelt Ihr Arbeitsverhältnis."

Wenn ein Anbieter eine dieser vier Fragen nicht in einem Satz überzeugend beantwortet, stoppen Sie das Gespräch. Die Kosten einer späteren §203-Klage stehen in keinem Verhältnis zur Zeit-Ersparnis durch ein unsauber eingesetztes KI-Tool.

Vertiefung zu §203 StGB und KI-Tools planen wir als eigenständigen Pillar (in Vorbereitung).

Frage 2: Versteht die KI fachliche Logik oder nur Textwahrscheinlichkeit?

Das ist die Frage, die in unseren Gesprächen am häufigsten unterschätzt wird, weil sie nicht existentiell wirkt, aber operativ genauso teuer werden kann. Ein Beispiel aus einem laufenden Pilot:

„Andere Tools springen auf ein Stichwort an und biegen dann in die komplett falsche Richtung ab. Mandant fragt nach Entnahme eines Anlageguts ins Privatvermögen, Tool antwortet zur Kleinunternehmerregelung. Das ist kein Assistent, das ist ein Haftungsrisiko." Steuerberater, 12 Mitarbeitende

Generische Sprachmodelle arbeiten statistisch: Sie erkennen Wörter und generieren die statistisch wahrscheinlichste Antwort. Das funktioniert in 80 Prozent der Standardfälle. In den 20 Prozent mit Spezialkontext produziert es Antworten, die syntaktisch flüssig und inhaltlich falsch sind.

Die konkreten Unterfragen:

Wie geht die KI mit mehrdeutigen Anfragen um? Akzeptable Antwort: „Bei Unsicherheit markiert der Agent den Vorgang für manuelle Prüfung und generiert keinen Entwurf." Nicht akzeptabel: „Unsere KI ist zu 95 Prozent genau" ohne Spezifikation, was bei den 5 Prozent passiert.

Welche Entscheidungen trifft die KI ohne menschliche Freigabe? Akzeptable Antwort: „Standardmäßig keine. Der Mitarbeiter gibt jeden Entwurf frei. Auto-Send ist pro Tag einzeln aktivierbar, für Standardvorgänge wie Eingangsbestätigungen." Nicht akzeptabel: „Vollautomatisch" oder „Vollständig autonom".

Wie begründet die KI ihre Klassifikation? Akzeptable Antwort: „Transparent im Verarbeitungslog, pro Vorgang nachvollziehbar und korrigierbar." Nicht akzeptabel: „Machine Learning Black Box, wir verstehen es selbst nicht vollständig."

Wie lernt die KI aus Korrekturen? Akzeptable Antwort: „Pro Tag und pro Mandantenstamm, kanzleiindividuell. Korrekturen verbessern die Qualität innerhalb von Tagen." Nicht akzeptabel: „Die KI ist vortrainiert, Änderungen sind nicht möglich."

Frage 3: Spricht die KI wie meine Kanzlei oder wie ein Sprachmodell?

Die dritte Frage ist die subtilste, aber für die Mandanten-Beziehung die wichtigste. Mandanten erwarten den Ton ihres Steuerberaters. Ein Agent, der aus einem generischen Trainingskorpus schreibt, klingt nach allem außer nach der Kanzlei.

Die typischen KI-Verräter, auf die Sie achten sollten:

Gedankenstriche in der Satzstruktur, die deutsche Steuerberater selten verwenden
Übertriebene Höflichkeit in der Anrede („Ich hoffe, diese Nachricht erreicht Sie wohlbehalten")
Unnötige Aufzählungen mit Bullet-Points in Standardantworten
Generisch-neutrale Formulierungen, die keine Kanzlei-Identität transportieren

Die konkreten Unterfragen:

Wie lernt die KI meinen Kanzlei-Stil? Akzeptable Antwort: „Optional aus den letzten 500 gesendeten E-Mails der Kanzlei, nach schriftlicher Freigabe. Alternativ manuelle Rahmenregeln pro Anrede, Signatur und Detailtiefe." Nicht akzeptabel: „Die KI passt sich automatisch an" ohne Methodik-Erklärung.

Kann ich Standardformulierungen deaktivieren? Akzeptable Antwort: „Ja, Gedankenstriche, Bullet-Listen und andere Muster sind pro Tag konfigurierbar und können global deaktiviert werden." Nicht akzeptabel: „Unsere KI schreibt bereits natürlich."

Gibt es einen Mandanten-individuellen Tonfall? Akzeptable Antwort: „Ja, pro Mandant können Anrede (Du/Sie), Sprache und Detailtiefe festgelegt werden." Nicht akzeptabel: „Einheitlicher Kanzlei-Stil für alle Mandanten."

Wer einen KI-Agenten für die Steuerkanzlei evaluiert, sollte diese drei Fragen jedem Anbieter stellen. Wer nur zwei davon sauber beantwortet, ist nicht reif für den Kanzlei-Einsatz.

Wie die gängigen Tool-Kategorien bei den 3 Fragen abschneiden

Zur Orientierung: die Grobbewertung gängiger Kategorien nach den drei Fragen.

Kategorie	Frage 1 (§203)	Frage 2 (Fachlogik)	Frage 3 (Sprache)	Gesamtfazit
ChatGPT (Standard)	❌ US-Server, kein AVV	⚠️ Sprach-gut, fach-unzuverlässig	⚠️ Generischer Ton	Nicht einsetzbar
Microsoft Copilot (Standard)	❌ Keine §203-Vereinbarung	⚠️ Kein Kanzlei-Kontext	⚠️ Office-Formal	Nicht einsetzbar
Generische deutsche KI-Tools	⚠️ Einzelfallprüfung	⚠️ Variiert stark	⚠️ Variiert stark	Detailprüfung nötig
Regelbasierte Alt-Tools	✅ Oft DSGVO-sauber	❌ Kein Sprachverständnis	❌ Starre Templates	Veraltet
KI-Agenten (2026er Generation)	✅ §203-konform als Voraussetzung	✅ Fallverständnis	✅ Kanzlei-Lerntraining	Einsetzbar

Das ist keine Abwertung anderer Anbieter, sondern eine strukturelle Einordnung. Ein Tool wie ChatGPT ist für allgemeine Textarbeit hervorragend. Für den Einsatz mit Mandantendaten in einer deutschen Steuerkanzlei ist es in der Standardkonfiguration rechtlich nicht einsetzbar.

Die 5 Warnsignale bei KI-Anbietern für Steuerkanzleien

Neben den drei Fragen gibt es fünf Warnsignale, die sich in unseren Gesprächen als verlässliche Red Flags herausgestellt haben:

1. „Wir sind 100 Prozent autonom." Seriöse Anbieter sprechen nicht von Vollautomatik, sondern von menschlicher Freigabe. Ein 100-Prozent-Versprechen ist entweder Marketing oder gefährlich.

2. „Schnellerer ROI als alle anderen." ROI-Versprechen vor der Kalibrierungsphase sind nicht glaubwürdig. Ein realistischer Zeitgewinn in KI-gestützten Steuerkanzleien liegt bei 8 bis 12 Stunden pro Woche pro Fachkraft, und dieser Wert stellt sich erst nach 4 Wochen ein.

3. „Keine Änderungen in Ihrer IT nötig." Jeder Anbieter, der zumindest Lesezugriff auf Outlook und DATEV braucht, benötigt eine IT-Freigabe. Wer das verheimlicht, hat entweder eine unsichere Lösung oder wird bei der IT-Approval-Phase zu einem langen Problem.

4. „Wir setzen auf proprietäre Modelle." Hinter dem Begriff verbergen sich oft Screenscraping-Lösungen oder alte regelbasierte Systeme, die mit einem GPT-Wrapper versehen wurden. Seriöse Anbieter sind transparent zu ihrer Technologie-Architektur.

5. Keine Referenzkanzleien, kein Pilot-Angebot. Ein Anbieter, der keine Referenzen nennen kann oder keinen zeitlich begrenzten Pilot ohne Commitment anbietet, hat in der Regel Gründe dafür. Sie möchten nicht der erste Kunde sein.

Wie ein seriöser Pilot aussieht

Die Steuerkanzleien, die in unseren Gesprächen gute Erfahrungen mit KI-Tools gemacht haben, hatten eine Gemeinsamkeit: sie haben einen strukturierten Pilot durchgeführt, bevor sie sich vertraglich gebunden haben.

Ein seriöser Pilot hat fünf Eigenschaften:

Zeitlich begrenzt ohne Commitment. 14 bis 30 Tage sind der Standard. Danach entscheidet die Kanzlei, nicht der Anbieter.
Strukturierte Phasenlogik. Setup-Woche, Schattenbetrieb ohne Produktion, Teilproduktion, Vollbetrieb. Wer sofort live gehen will, überspringt die Qualitätssicherung.
Messbare Ziel-Metrik. Zeitgewinn pro Woche, Treffergenauigkeit bei Klassifikation, oder Reduktion der Rückfrage-Schleifen. Konkrete Zahlen, nicht „Die Mitarbeiter sind zufrieden."
Definierter Ausstieg. Klare Kündigungsbedingungen, vollständiger Daten-Export innerhalb von 30 Tagen, Löschbestätigung schriftlich.
Kein Konvertierungs-Druck. Am Ende des Pilots keine Ultimaten, keine Sonder-Konditionen, die „nur heute" gelten. Die Entscheidung soll auf den Daten basieren, nicht auf Verkaufsrhetorik.

Mehr dazu: Wie Clara den Posteingang übernimmt · Automatische DATEV-DMS-Ablage · Warum Ihr DATEV DMS 1.500 Stunden pro Jahr kostet

Fazit

KI in der Steuerkanzlei ist kein generisches Thema. Die rechtlichen Anforderungen nach §203 StGB, die fachlichen Anforderungen an die Zuverlässigkeit und die kommunikativen Anforderungen an den Mandanten-Ton zusammen filtern die meisten verfügbaren KI-Tools aus.

Die drei Fragen (Datenschutz, Fachlogik, Sprache) liefern ein einfaches Framework, um Anbieter in 30 Minuten zu evaluieren. Wer alle drei sauber beantwortet, ist auf Augenhöhe mit den Anforderungen einer deutschen Steuerkanzlei. Wer ausweicht oder relativiert, ist es nicht.

Die KI-Skepsis, die Sie vielleicht spüren, ist nicht paranoid. Sie ist die richtige Haltung in einem Markt, in dem zu viele Anbieter zu viele Versprechen machen. Halten Sie an den drei Fragen fest. Sie schützen Sie vor den 80 Prozent der Anbieter, die es nicht wert sind, und bringen Sie zu den 20 Prozent, die liefern.

FAQ

Was ist der häufigste Fehler bei der Auswahl eines KI-Tools für Steuerkanzleien?

Sich auf Demo-Präsentationen zu verlassen, statt in einem strukturierten Pilot mit echten Kanzlei-E-Mails zu testen. Demos zeigen den Best Case. Die Realität der eigenen Mandantenkommunikation in der Steuerkanzlei ist komplexer und zeigt Schwächen, die in der Demo nicht sichtbar sind.

Kann ich mich bei §203 StGB auf die Zusagen des KI-Anbieters verlassen?

Nur wenn sie vertraglich fixiert sind. Mündliche Zusagen, Marketing-Aussagen auf der Website oder Verweise auf „Zertifizierungen" ohne konkreten AVV sind rechtlich nicht belastbar. Verlangen Sie den AVV-Entwurf und die schriftliche Verschwiegenheitsverpflichtung nach §203 Abs. 4 Nr. 1 StGB schriftlich, bevor Sie den Pilot starten.

Wie lange sollte ein Pilot dauern, bevor die Steuerkanzlei entscheidet?

14 Tage sind das Minimum, 6 Wochen sind ideal. In den ersten 2 Wochen kalibriert sich der Agent, in den Wochen 3 und 4 stabilisiert sich die Qualität, in den Wochen 5 und 6 sehen Sie realistische Produktionswerte. Schnellere Entscheidungen basieren auf unvollständigen Daten.

Was mache ich, wenn mein bestehender KI-Anbieter eine der drei Fragen nicht gut beantwortet?

Dokumentieren Sie die Antwort schriftlich und lassen Sie sie von Ihrem Datenschutzbeauftragten prüfen. Bei §203-Verletzungen ist eine Nachjustierung mit dem bestehenden Anbieter oft schwieriger als ein Wechsel. Ein sauberer Ausstieg ist immer günstiger als eine Klage.

Dieser Artikel ist Teil unseres Pillars KI-Agenten in der Steuerkanzlei. Wie Clara die drei Fragen konkret beantwortet, zeigen wir in einer 30-Minuten-Demo. Termin vereinbaren.

Mehr zu KI in der Steuerkanzlei

● Analyse