80-Bus Journal |
Februar 1983 · Ausgabe 2 |
Seit einigen Jahren beschäftigt man sich in der Industrie mit Spracherkennungsmethoden zur direkten Dateneingabe in Datenverarbeitungsanlagen über Mikrofone.
Sie rückt dem Problem der Spracherkennung mit „Geschützen“ wie Fourieranalyse des Sprachfrequenzbereiches und Auswertung von Frequenz und Amplitude über umfangreiche DVA zu Leibe.
Der vorliegende Artikel stellt den Hard- und Softwareaufwand einer einfachen Spracherkennnungsmethode vor. Die einschlägige Fachliteratur (siehe Anhang) gibt für die beschriebene Methode eine Erkennungssicherheit von bis zu 80 % an. Bei zuverlässig arbeitender Hardware ist sie eine direkte Funktion der zur Erkennung eingesetzten Software, und damit auch der Speichergröße.
Die ersten Funktionseinheiten der Schaltung sind Mikrofon- und Regelverstärker. Auf ihre Funktion ist sehr viel Sorgfalt zu verwenden. Bei einer Mikrofonspannung zwischen 5mVs und 100mVs sorgt der Mikrofon- und Regelverstärker für eine konstante Ausgangsspannung von 1Vs +- 3dB, womit Veränderungen des Mikrofonbesprechungsabstandes und damit verbundene beträchtliche Pegelunterschiede weitgehend ausgeglichen werden.
So ist es auch prinzipiell möglich, unterschiedliche Mikrofone zu verwenden.
Die nachgeschalteten Filter spalten den Frequenzbereich von 90 Hz bis 15 kHz in drei Frequenzbereiche auf. Hierbei handelt es sich um aktive, steilflankige Tschebyscheff – Bandpaßfilter.
Filter1 | : | 90....400 | Hz | |
Filter2 | : | 400......3 | kHz | |
Filter3 | : | 3........15 | kHz |
Über jeweils einen Gleichrichter gelangen die Filterausgangssignale auf einen Komparator mit einstellbarer Schaltschwelle und TTL – Pegel am Ausgang. Die Schaltschwelle des Komparators blendet Störgeräusche aus.
Diese Schaltung stellt für sich alleine genommen noch keine Spracherkennung dar. Erst das Programm, welches die Filterausgangssignale auswertet und vergleicht führt zur gewünschten Spracherkennung.
Die folgenden Kriterien können für eine Sprachanalyse herangezogen werden:
Aus den vorgenannten Kriterien wurde die „Auswertung der Filterausgangssignale als Funktion der Zeit“ ausgewählt und mit den folgenden Programmteilen durchgeführt:
1) Spracheingabe | 0C80H....0DCCH |
2) Spracherkennung | 0DD0H....0EFFH |
3) Speicherplatz d. Informationsinhaltes | |
1000H....1800H |
Das Spracheingabeprogramm startet bei 0C80H und formatiert den Bildschirm wie im Foto gezeigt.
Wenn in das Mikrofon gesprochen wird, erscheint auf dem Bildschirm der „Informationsinhalt“ des Sprachsignales. Das gesprochene Wort darf maximal 1 Sekunde lang sein.(Falls länger, wird eben nur der Wortanfang ausgewertet. Red.)
Daraufhin fordert ein blinkender Cursor die vierstellige Eingabe einer „Bedeutung“ an. Danach kann das Mikrofon wieder besprochen werden, und der Vorgang wiederholt sich.
Die so jeweils eingegebenen Bedeutungen und Informationsinhalte werden im Speicherbereich 10B0H…1800H abgelegt. Ein Informationseinheit benötigt bei der Abspeicherung 10 Bytes und es können vom Programm her gesehen maximal 100 Info- Inhalte abgespeichert werden.
Das gleiche Sprachsignal muß mehrmals wiederholt werden, da das vorliegende Programm keine Zeitnormalisierung durchführt.
Das Starten des Spracherkennungsprogrammes erfolgt bei 0DD0H, und der Bildschirm meldet sich mit „Ready for Identification“. Ein in das Mikrofon gesprochenes Wort wird ausgewertet und die entsprechende Bedeutung auf dem Bildschirm ausgedruckt, sofern diese vorher mit dem Spracheingabeprogramm eingegeben wurde.
Das beschriebene Programm ist sehr einfach und ohne großen Bedienungskomfort geschrieben. Es soll dazu dienen, in die Problematik der Spracherkennung einzuführen und die beschriebene Methode auf ihre Funktionstüchtigkeit hin zu überprüfen.
Seite 3 von 28 |
---|