"AccountingBench"
WU Wien misst erstmals KI-Kompetenz im Rechnungswesen

| Larissa Bilovits 
| 21.05.2026

Mit "AccountingBench" haben die Wirtschaftsuniversität Wien und das Board Service Center einen neuen Benchmark für KI-Modelle im Accounting-Bereich entwickelt. Getestet wurden zehn führende Sprachmodelle anhand von 520 Aufgaben aus Rechnungswesen, Steuerrecht und Management Accounting.

Künstliche Intelligenz (KI) hält zunehmend Einzug ins Rechnungswesen. In vielen Unternehmen verändern entsprechende Tools bereits heute Arbeitsabläufe, etwa bei Recherchen, Analysen oder der Einordnung fachlicher Fragestellungen. Wie verlässlich KI-Modelle bei regelgebundenen Aufgaben wie Buchungssätzen, steuerlichen Fragen oder IFRS-Klassifizierungen tatsächlich sind, soll nun "AccountingBench" zeigen – ein Benchmarking-Projekt der WU Wien Financial Accounting & Auditing Group in Kooperation mit dem Board Service Center.

520 Aufgaben für zehn KI-Modelle

Für den Benchmark wurden zehn führende Sprachmodelle von sechs Anbietern unter identischen Bedingungen getestet. Grundlage waren 520 validierte Aufgaben aus Berufsprüfungen, Universitätslehre und berufsbildenden Kontexten. Im Mittelpunkt standen die Bereiche Financial Accounting, Management Accounting und Steuerrecht.

Das Gesamtranking führt GPT-5.4 von OpenAI mit 72,2 Prozent an. Dahinter folgen GPT-5.2 mit 68,6 Prozent sowie Claude Opus 4.6 und Claude Sonnet 4.6 von Anthropic mit 63,3 beziehungsweise 63,1 Prozent. Schwächer schnitten unter anderem GPT-4o mit 48,9 Prozent, DeepSeek V3.2.2 mit 44,8 Prozent und Mercury 2 mit 43,8 Prozent ab.

Tabelle Ergebnisse

Steuerrecht als größte Herausforderung

Besonders gut bewältigten die Modelle Aufgaben im Bereich IFRS. Hier lagen die Ergebnisse laut Projektzusammenfassung nahezu durchgehend zwischen 96 und 100 Prozent. Anders zeigte sich das Bild beim österreichischen Steuerrecht: Dort gingen die Resultate deutlich stärker auseinander und reichten je nach Modell von 32 bis 68 Prozent. Der Grund dafür dürfte unter anderem in der höheren Komplexität und stärkeren nationalen Spezifik liegen.

Für die Praxis ist zudem relevant, dass manche Modelle ihre eigenen Antworten zu sicher einschätzten. Sie wirkten also überzeugend, obwohl die tatsächliche Trefferquote das nicht immer rechtfertigte. Genau dieses Kalibrierungsproblem macht "AccountingBench" sichtbar und zeigt damit nicht nur Leistungsunterschiede, sondern auch mögliche Einsatzrisiken.

Der Benchmark ist als laufendes Projekt angelegt und soll künftig um neue Modelle und Aufgaben erweitert werden. Die Ergebnisse können Unternehmen, Steuerberater:innen, Wirtschaftsprüfer:innen und Accounting-Abteilungen dabei helfen, Potenziale und Grenzen von KI im Rechnungswesen besser einzuschätzen.

www.wu.ac.at

Kommentar veröffentlichen

* Pflichtfelder.

leadersnet.TV