Percée de la reconnaissance vocale par Deep Learning et des réseaux dits neuronaux
L'histoire de la reconnaissance vocale commence dès les années 1960, mais des progrès significatifs ont été réalisés au cours des dernières années. Pour convertir la langue parlée en langue écrite, il faut surmonter de nombreux défis, qui n'étaient auparavant possibles que dans des conditions limitées : Les informations vocales doivent être décodées, les accents et les dialectes maîtrisés et les bruits de fond reconnus comme tels. Les attentes actuelles des médecins sont un système qui fonctionne de cette manière-là, qui fonctionne mieux, idéalement sans apprentissage ni formation.

Seules les technologies du domaine de l'intelligence artificielle telles que les réseaux neuronaux profonds (Deep Neural Networks) ont contribué à une percée dans le domaine de la reconnaissance vocale. L'apprentissage profond (Deep Learning) est une méthode qui utilise des données pré-classifiées, pour former des applications informatiques permettant d'identifier des images, des objets, des personnes ou des langues. Cela nécessite d'énormes quantités de données. En termes de reconnaissance vocale, cette technologie permet désormais d'atteindre d'excellents taux de reconnaissance et un haut niveau de convivialité. Mais l'étude comparative l'a découvert : L'apprentissage profond seul n'est pas suffisant en tant que caractéristique de qualité,  le facteur décisif est évidemment la mise en œuvre de cette technologie.

Etude comparative de trois systèmes de reconnaissance vocale différents
L'étude, qui est soutenue par deux universités indépendantes, a testé trois systèmes de reconnaissance différents, qui sont généralement utilisés dans les environnements de clients légers dans les hôpitaux: Le module de reconnaissance vocale du logiciel indicda Medical Speech Solutions de DFC-Systems GmbH (basé sur la reconnaissance vocale Microsoft®,  de Recognosco), un module correspondant dans SpeaKING Dictat de Mediainterface GmbH et Dragon Medical Direct de Nuance Communications, Inc. Les trois produits sont également proposés sur le marché français, ont un vocabulaire médical et, selon le fabricant, travaillent également avec les technologies de réseaux neuronaux.

Réussir dans la vie professionnelle
L'initiateur de l'étude, Grundig Business Systems, propose une large gamme de solutions de dictée numérique en réseau avec un logiciel de reconnaissance vocale adapté pour le secteur médical et l'implémentation du système chez le client.

Les solutions de reconnaissance vocale proposées peuvent être testées dans un environnement hospitalier, dans le cadre d'un test en conditions réelles, avec différents locuteurs et dans le cadre de la vie quotidienne. Pour assurer un fonctionnement fiable, il est recommandé que le déploiement de la reconnaissance vocale soit planifié et réalisé par des techniciens qualifiés.