Spracherkennung

Die Sprache ist das ursprüngliche Mitteilungsmedium zwischen Menschen. Sie ist außerdem die schnellste Art der Kommunikation zwischen ihnen. Es beginnt nicht erst bei der Geburt eines Menschen. Schon im Bauch der Mutter fühlt der Embryo die Sprache seiner Umgebung, speziell seiner Mutter.

Man hat schon früh angefangen die Technologie der Spracherkennung zu gründlich zu erforschen, um die Benutzung von Computern schneller, einfacher und intuitiver zu machen.

Wir benutzen Sprache tagtäglich um unsere Umwelt zu beeinflussen. Sie gehört aber nur zu einem Teil der gesamten Ausdrucksweise eines Menschen, daneben gibt es noch die Körpersprache. Schließlich müssen ja auch Stumme Menschen irgendwie mit anderen Menschen kommunizieren. Sie lösen das durch die Gebärdensprache. Das ist eine Kombination aus Lippenbewegungen die dem gegenüber das Wort "zusprechen" und Handbewegungen die das Wort, den Satz oder die Situation beschreiben.

Für das Cyberspace benutzt man aber noch die gesprochene Sprache, denn die ist schon schwer genug. Das liegt einfach daran das der Computer unglaublich dumm ist. Seine Sprache besteht nur aus Nullen und Einsen. Man muß deshalb die Sprache digitalisieren, um überhaupt erst anzufangen sie zu verstehen. Um die Sprache in den Computer zu bekommen muß sie einen Analog/Digital Konverter passieren. Dieser wandelt kontinuierliche Sprache in Nullen und Einsen um. Erst jetzt kann man mit der digitalen Datenverarbeitung beginnen. Denn der Computer versteht immer noch nichts. Wie ein Kleinkind versteht er kein Wort das er "hört", aber er kann es wie ein Kleinkind mit der Zeit lernen.

Zunächst spricht man die Wörter mehrmals hintereinander in ein Mikrofon ein. Über den Analog/Digital Konverter gelangt die Sprache in den Computer. Mit einer Tastatur teilt man dem Computer mit um was für Wörter es sich handelt. Dadurch bekommt jedes Muster eine Bedeutung.

Durch mehrmaliges wiederholen der Wörter paßt man sich der Realität etwas an. Denn der Mensch spricht ein Wort unterschiedlich aus, wenn er mehrmals wiederholt.

Dieses System verlangt einen recht hohen Aufwand um dem Computer "Sprache" beizubringen. Man muß schließlich alle Wörter digitalisieren die der Computer verstehen soll. Je größer der "Wortschatz", desto leichter erkennt der Computer das Wort. In den 70er Jahren entwickelte IBM ein solches System, das damals zehn Millionen Dollar kostete.

Mittlerweile sind die Algorithmen einfach genug um sie auf PC's laufen zu lassen. Diese Systeme sind aber nur für spezielle Anwendungsgebiete einsetzbar. So braucht ein Arzt z.B. für seine Arbeit nur wenige hundert Wörter.

Der Computer bekommt aber Schwierigkeiten wenn Wörter ähnlich klingen: Gasse <> Kasse, Pfarrer <> Fahrer. Schwierigkeiten gibt es auch wenn der Benutzer so schnell spricht das der Computer die Wörter nicht mehr trennen kann. Um diese Erkennungsprobleme der Alltagssprache abzustellen, versucht man die Wortbedeutungen durch den Zusammenhang und dem gesunden Menschenverstand schließt.

Das MIT (Massachusetts Institute of Technology) hat ein System entwickelt das Lippen lesen kann, man nimmt dabei an, daß es in der englischen Sprache 16 grundsätzliche Lippenstellungen gibt. Mit einer Videokamera versucht das System zu erkennen welche Lippenstellung benutzt wird. Durch Kombination mit einem akustischen Erkennungssystem kann man die Trefferquote deutlich verbessern. Diese Methode hat aber den Nachteil das der Sprecher ständig in die Kamera sprechen muß.