Mit der memoQ Version 8.7 hat memoQ Translation Technologies Ltd. (ehemals „Kilgray“ –
„mQtech“ unten) eine kostenlose, integrierte Spracherkennung eingeführt, die für die Arbeit in vielen Sprachen eine wesentliche Effizienzsteigerung verspricht. Für die Arbeit in deutscher Sprache soll es von vornherein klar gestellt werden: Dragon NaturallySpeaking (DNS) ist und bleibt für die vorhersehbare Zeit die bessere Wahl. Das gleiche gilt für alle Sprachen, die von DNS (in der aktuellen Version 15) unterstützt sind: Deutsch, Englisch, Spanisch, Französisch, Italienisch und Niederländisch.
Aber für die slawischen Sprachen, nordischen Sprachen, sonstigen romanischen Sprachen, Arabisch u.v.m. sind andere Lösungen gefragt, wenn man mit Spracherkennung arbeiten will. Vor etwa 4 Jahren, als ich angefangen habe, solche Lösungen zu erforschen, waren diese für „exotische“ Sprachen wie Russisch oder europäisches Portugiesisch als Teil der Übersetzungsarbeiten kaum gedacht; heute gibt es vielfältige halbgute Möglichkeiten, zu denen jetzt auch „Hey memoQ“ gehört. Noch warten wir auf Lösungen auf der Ebene von DNS für die sonstigen Sprachen und noch lange werden wir sicher warten, bis gute Erkennungsqualität mit einfach erweiterbarem Wortschatz und flexiblen, konfigurierbaren Kommandos für die Systemsteuerung für Sprachen wie Dänisch oder Hindi allgemein verfügbar sind. Zur Zeit sind wir nicht mal so weit mit Englisch, wenn man z.B. die Diktierfunktion auf Handys betrachtet. Spracherkennung ohne eigenständig erweiterbarem Wortschatz ist und bleibt eine Technologie auf Krücken.
Aber die Krücken bei
Hey memoQ sind erstmal nicht schlecht für eine aufkommende Technologie. Die mit der 8.7er Version von memoQ freigegebene App ist m.E. noch „Beta“ – was kann man sonst sagen, wenn nur für Englisch die Steuerungskommandos standardmäßig konfiguriert sind? – aber für den Stand der derzeit zahlbaren Technologie ist die von
mQtech eingeführte Lösung die beste in der Klasse, sogar mit einem tauglichen Umgehungslösung für das Problem des nichterweiterbaren Wortschatzes, nämlich die Möglichkeit, sprachgesteuert die ersten neuen Treffer aus der Ergebnisliste der Terminologie, Korporasuche, Nontranslatables usw. in den Zieltext einzufügen. Wenn man sowieso vernünftige Terminologiearbeit leistet und ein memoQ-Glossar mit den nötigen Sonderbegriffen ausstattet, kann man schon ziemlich gut arbeiten. (Und wer eventuell eine Einweisung in die statistisch basierte Erfassung der häufigen Begriffe aus einem Dokument bzw. einer Dokumentensammlung benötigt, kann sich
hier informieren.)
Hey memoQ hat auch andere Alleinstellungsmerkmale, u.a. einen Wechsel der Erkennungssprache, wenn man den Cursor im Textfeld für die andere Arbeitssprache setzt. Also wenn ich z.B. Englisch als Zieltext diktiere, will aber einen Tippfehler im deutschen Ausgangstext korrigieren oder vielleicht den gesamten Text nach einem bestimmten Wort im Ausgangstext filtrieren, wechselt die von Hey memoQ verstandene Sprache von Englisch auf Deutsch, wenn ich bloß auf Zieltextseite klicke. So geht das auch bei jedem unterstützten Sprachpaar. Nicht schlecht.
Wer bereits meckert, dass diese derzeit auf Apple iOS basierende Lösung nicht für die beliebten Android-Handys verfügbar ist, begreift die Realität der Softwareentwicklung bzw. Produktentwicklung einfach nicht. Schon vor
mQtech mit der Entwicklung dieser Lösung begonnen hat, habe ich selber aus persönlichem Anlass die möglichen
Application Programming Interfaces (APIs) untersucht, und bei den meisten war die Kommandosteuerung, wie sie bei
Hey memoQ zu finden ist, nicht verfügbar. In den meisten Fällen nur die Übertragung eines gesprochenen und transkribierten Textes. Aber das hat wir bereits. Bei
myEcho zum Beispiel. Oder auch
die Lösung für Chrome-Spracherkennung in jedem Windows- oder Linux-Programm. Was wir dringend brauchen ist nicht das Bier von gestern. Wir brauchen zukunftsweisende Prototypen, die die Entwicklung der branchenüblichen Technologien wie memoQ, SDL Trados Studio, WordFast und andere in eine bessere Richtung treiben, und das macht schon
Hey memoQ. Also ein dickes Lob an das memoQ-Team und seinen deutschen Entwicklungschef :-)
Aber auch mit einem deutschen Entwicklungschef, ist der Zeitdruck manchmal so, dass man vorläufig keine konfigurierten Steuerungskommandos mit der ersten Release-Version freigibt, wahrscheinlich weil das eigentlich aufwändiger ist, als die meisten Leute sich glauben würden. In jeder Sprache. Wer zum Beispiel Polnisch diktieren will und nicht nur die gesprochenen Phrasen ins Textfeld transkribiert haben will, sondern auch sprachgesteuert den Text editieren oder Filterkommandos oder Konkordanzsuche ausführen will, muss erstmal polnische Kommandos im Programm einrichten. Und da stoßt man oft unerwartet an die Grenzen und Merkwürdigkeiten der individuellen Erkennungstechnologie. Eine gewählte Phrase kann, zum Beispiel, einer sehr häufigen Phrase ähneln, so dass oft diesen anderen Text geschrieben wird, wenn man eigentlich ein Kommando ausführen lassen wollte. Also sind ungewöhnliche aber erkennbare Texte oft die beste Wahl für Kommandotexte. Meine erprobten Kommandotexte für Deutsch sind unten als Screenshot angegeben. Wie man gleich merkt, ist das zu konfiguriende Dialog noch nicht für die deutsche Benutzeroberfläche lokalisiert. In kommenden Versionen wird das natürlich der Fall sein. Aber ob irgendwann aus Ungarn die Bearbeitungskommandos für Griechisch vorkonfiguriert kommen werden, kann ich nicht raten. Selber konfigurieren kann man sie aber heute schon, wenn man Geduld hat.
Noch zu bemerken: die iOS-Spracherkennung benötigt gute Internet-Bandbreite, da der Erkennungsserver im Cloud liegt. Datenschutz, Datenschutz, ja, ja. Sparen Sie mir den Vortrag bitte und lassen sie diese Technologie sich erstmal weiter entwickeln. Die Fragen zum Datenschutz waren schon vor einigen Jahren ausreichend von deutschen Vertretern der Firma Nuance beantwortet, und sogar die verrückten US-Behörden haben den Einsatz solcher Technologie intern freigegeben. Aber in Deutschland dreht sich die Welt anders, und gut so :-) Übrigens erlebe ich mehr Erfolg, wenn ich in kurzen, sogar dramatischen Phrasen spreche, und nicht in langen, wortreichen Sätzen. Eine ganz andere notwendige Vorgehensweise als mit DNS, zum Beispiel. Wer zu schnell spricht, merkt auch schnell, dass Wörter ausgelassen werden. Nichts mit
Hey memoQ zu tun, sondern Bestandteil des Standes der Technik bei iOS-Spracherkennung sowie bei manchen anderen Technologien dieser Gattung.
Und jetzt die Ansicht
meiner selbstkonfigurierten Hey memoQ
Steuerungskommandos für Deutsch. Wem sich meine Wortwahl nicht gefällt, kann sich was Besseres aussuchen und hoffentlich testen und danach in den Kommentaren unten allen deutschsprachigen Kollegen mitteilen.
Die iOS-Kommandos für Interpunktion u.v.m. habe ich auf Basis der von Apple publizierten MacOS-Kommandos erforscht; es gibt in einzelnen Fällen leichte Unterschiede (d.h. man muss ein wenig experimentieren, bis man auf das richtige Kommando stoßt - falls es tatsächlich existiert), aber
hiermit hat man einen guten Anfang für Sonderzeichen usw. wie ich neulich
in einem englischen Blogbeitrag erklärt habe. Für fehlende Informationen kann man
mQtech keine Schuld zuweisen, wenn nicht mal der iOS-Hersteller Apple die vollständige und richtige Liste mitteilt. Aber mit viel Zeit wird der Kuchen sicher gut gebacken!