Springe direkt zu Inhalt

26.2.: Poster Session DhD 2026

Nicht nur Text, nicht nur Daten

Nicht nur Text, nicht nur Daten

News vom 20.02.2026

ASR4Memory. Automatische Transkription und domänenspezifisches Fine-Tuning von Spracherkennungsmodellen für die Geschichtswissenschaft

Beitrag zur Poster Session 2 der DHd-Konferenz in Wien, 26. Februar 2026


Peter Kompiel, Tobias Kilgus, Marc Altmann, Christian Horvat

Das Projekt „ASR4Memory“, gefördert durch das NFDI-Konsortium 4Memory, hat eine datenschutzkonforme, KI-gestützte Lösung zur Transkription historischer Audio- und Videoquellen auf Basis von „WhisperX“ entwickelt. Über eine benutzerfreundliche Weboberfläche können audiovisuelle Materialien hochgeladen und sicher verarbeitet werden. Die Anwendung ermöglicht eine hochwertige Transkription in über 30 Sprachen inklusive Sprecherdiarisierung, Satz- und Wortalinierung sowie Export in vielfältige Nachnutzungsformate. Zur Verbesserung der Transkriptqualität wurde ein domänenspezifisches Fine-Tuning des Whisper-Modells "Large-v3" mit anonymisierten, deutschsprachigen Oral-History-Daten durchgeführt. Die Evaluationsergebnisse, basierend auf WER-Berechnungen und LLM-basierten Fehleranalysen, zeigen eine erhebliche Verbesserung der Transkriptionsgenauigkeit sowie eine Abschwächung von Glättungseffekten auf, sodass die Nutzung des fine-getunten Modells eine wortgetreuere Transkription ermöglicht. Das Poster präsentiert die Systemarchitektur der Anwendung, ergänzt durch eine audiovisuelle Demonstration der Ergebnisse des Fine-Tunings vor Ort.



3 / 100