Social Media für die Ohren: Sprachsteuerung wird immer wichtiger – Aber was passiert mit den Daten? #DeepSpeech #Mozilla

„Augmented EARality“, Amazon Echo, Google Home und Social Media für die Ohren – das wird wohl 2018 zu den Top-Themen im Netz zählen. Bei aller Euphorie sollte man allerdings auch unter die Motorhaube der Systeme schauen:

“Unabhängig von Einsatzzweck und Funktion haben die verschiedenen Programme hinter der Spracherkennung aber fast alle ein großes Problem: Sie sind proprietär und nicht quelloffen. Problematisch ist das bei Spracherkennungssoftware auch deshalb, weil für den Nutzer gar nicht nachvollziehbar ist, was genau mit den Aufnahmen passiert, die potentiell intimste Daten enthalten. Einen Hoffnungsschimmer bieten die Projekte Deep Speech und Common Voice von Mozilla”, schreibt netzpolitik.org.

Spracherkennungstechnologie revolutioniere die Art und Weise, wie wir mit Maschinen interagieren – und sie wird gerade allgegenwärtig, so Kelly Davis, der bei Mozilla die Machine Learning Group leitet.

“Allerdings kontrolliert nur eine Handvoll Unternehmen den Zugang zu jeglicher Spracherkennung”, sagt Davis im Gespräch mit netzpolitik.org

Mozilla geht mit einer Common Voice-Anwendung ins Rennen, eine öffentliche, frei zugängliche Datenbank von Stimmen, die jeder nutzen kann. Deep Speech als Spracherkennungssoftware werde anhand dieser Daten trainiert.

Letztlich werde Deep Speech es möglich machen, dass Spracherkennung „on device“ funktioniert, wofür keine Internetverbindung nötig ist, erläutert Davis:

“Die große Mehrzahl gegenwärtiger Spracherkennungsengines benötigt eine Internetverbindung. Deine Stimme wird von deinem Smartphone, Computer, Tablet oder Fernseher zu Servern gesendet, die sie dann in Text umwandeln. Die eigene Stimme auf diese Art an Server zu senden, wirft einige Bedenken für Sicherheit und Privatsphäre auf, die im Allgemeinen einfach unter den Teppich gekehrt werden. Im Gegensatz dazu wird Deep Speech Spracherkennung auf dem Gerät erledigen, um diese Sicherheits- und Privacyprobleme zu umgehen.”

Diese Lösung komme spät, aber nicht zu spät, glaubt Davis.

“So wie Sprachtechnologien sich jenseits von Nischen ausbreiten, glauben wir, dass diese Technologie eine Welle von innovativen Produkten und Dienstleistungen ermöglichen kann und wird – jenseits von dem, was heute bekannt ist. Sie sollte jedem zur Verfügung stehen. Wir glauben, dass sie jedem Benutzer gleich gut dienen sollte. Insbesondere muss die Technologie jeder Sprache und jedem Akzent dienen, unabhängig von der Wirtschaftskraft derjenigen, die diese Sprache sprechen. Bedauerlicherweise ist das im Moment nicht der Fall. Mit der Öffnung von Deep Speech und Common Voice können zahlreiche Sprachen und Akzente durch die Gemeinschaften dahinter unterstützt werden, ohne dass ihre Wirtschaftskraft eine Rolle spielt. Wir stellen das Werkzeug zur Verfügung, alles was es sonst braucht, ist der Wille der Nutzer.”

Da der Massenmarkt für Voice im Web erst jetzt so richtig ins Rollen kommt, ist das wohl eine sinnvolle Maßnahme. Oder was glaubt Ihr?

CIO-Kurator Stefan Pfeiffer müsste eigentlich von dem Projekt begeistert sein. Siehe seinen Bericht: SPRACHASSISTENTEN IN UNTERNEHMEN: JA, ABER NICHT BLAUÄUGIG AN DAS THEMA HERANGEHEN.

Kommentare sind sehr willkommen

This site uses Akismet to reduce spam. Learn how your comment data is processed.