Durchbruch der Spracherkennung durch “Deep Learning” und neuronale Netzwerke
Die Geschichte der Spracherkennung beginnt bereits in den 1960er Jahren, hat in den letzten Jahren aber nochmals signifikante Fortschritte gemacht. Denn um gesprochene Sprache in geschriebene umzusetzen zu können, müssen viele Herausforderungen bewältigt werden, die bislang nur unter eingegrenzten Bedingungen möglich waren: Sprachinformationen müssen entschlüsselt, Akzente und Dialekte bewältigt sowie Hintergrundgeräusche als solche erkannt werden. Die heutige Erwartungshaltung von Ärzten ist ein entsprechend funktionierendes System, welches am besten auch ohne viel Einarbeitungszeit oder Training auskommt.

Erst Technologien aus dem Bereich der Künstlichen Intelligenz wie sogenannte „Deep Neural Networks“ (tiefe neuronale Netze) haben der Spracherkennung zu einem Durchbruch verholfen. Deep Learning ist dabei eine Methode, mit der Computeranwendungen anhand vorklassifizierter Daten darauf trainiert werden, Bilder, Gegenstände, Personen oder eben Sprache zu identifizieren. Dafür sind riesige Datenmengen nötig. Bezogen auf die Spracherkennung können auch durch diese Technologie inzwischen hervorragende Erkennungsraten und eine hohe Anwendungsfreundlichkeit erzielt werden. Doch wie die Vergleichsstudie auch herausfand: Deep Learning allein ist nicht ausreichend als Qualitätsmerkmal, sondern ausschlaggebend ist offensichtlich die Umsetzung dieser Technologie.

Vergleichsstudie von drei verschiedenen Spracherkennungssystemen
Zur Studie, welche von zwei deutschen Hochschulen unabhängig voneinander begleitet wird, wurden drei verschiedene Erkennungssysteme herangezogen, die üblicherweise in Thin-Client-Umgebungen in Kliniken eingesetzt werden: Das Spracherkennungsmodul der Software indicda Medical Speech Solutions der Firma DFC-Systems GmbH, ein entsprechendes Modul in SpeaKING Dictat der Firma Mediainterface GmbH und Dragon Medical Direct aus dem Hause Nuance Communications, Inc. Alle drei Produkte verfügen über ein medizinisches Fachvokabular und arbeiten laut Hersteller auch mit Techniken der Neuronalen Netze.

Erfolgreich in der Praxis
Der Initiator der Studie, Grundig Business Systems, bietet eine große Palette an digitalen, netzwerkbasierten Diktierlösungen mit darauf angepasster Spracherkennungssoftware für den medizinischen Bereich mit entsprechender Implementierung des Systems beim Kunden an.

Dabei können die angebotenen Spracherkennungslösungen in der Klinik in einem Praxistest unter realen Bedingungen, mit unterschiedlichen Sprechern und im Praxisalltag, getestet werden. Um eine sichere Funktionsweise zu gewährleisten, empfiehlt es sich, das Rollout einer Spracherkennung von erfahrenen Technikern planen und durchführen zu lassen.