DE69634740T2

DE69634740T2 - System zur Spracherkennung und Übersetzung

Info

Publication number: DE69634740T2
Application number: DE69634740T
Authority: DE
Inventors: Shinji Wakisaka; Hiroko Nitsuta-gun Sato
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-15
Filing date: 1996-11-14
Publication date: 2006-01-19
Anticipated expiration: 2016-11-15
Also published as: EP0774729B1; CN1157442A; US6148105A; MY126144A; CN1139042C; DE69623569T2; SG128406A1; EP0774729A3; HK1029859A1; EP1017041A1; US5917944A; KR100220960B1; EP1017041B1; KR970029143A; TW347503B; MY114036A; DE69623569D1; EP0774729A2; DE69634740D1; SG81210A1

Description

Die vorliegende Erfindung bezieht sich auf ein Zeichen-Erkennungs- und Übersetzungssystem, das geeignet ist zur Verwendung in einer tragbaren Übersetzungsvorrichtung oder Ähnlichem, und weiter insbesondere auf ein Zeichen-Erkennungs- und Übersetzungssystem zum Aufnehmen, als Kamera-Bilddaten, von Zeichen, die geschrieben sind auf Ansichts-Führer-Tafeln, Namenstafeln von Gebäuden, Hinweistafeln, Ansichts-Führer-Prospekten, Speisekarten von Restaurants, etc., auf welche Reisende oft Bezug nehmen an überseeischen Reiseorten, z.B. um die Zeichen zu erkennen. Das Zeichen-Erkennungs- und Übersetzungssystem ist weder beschränkt auf irgendeine bestimmte Gestalt oder Größe eines Zeichens, noch auf irgendwelche bestimme Sprachen, und es ist geeignet zur Verwendung beim Erkennen und Übersetzen von verschiedenen Zeichen, die in verschiedenen Sprachen geschrieben sind, die als Kamera-Bilddaten aufgenommen oder abgebildet werden. Ferner bezieht sich die vorliegende Erfindung auf ein Spracherkennungs- und Übersetzungssystem, welches dazu geeignet ist in einem tragbaren Übersetzungsgerät verwendet zu werden und speziell auf ein Spracherkennungs- und Übersetzungssystem zur Aufnahme (nehmen) oder Aufzeichnung von verschiedenen Arten von Stimmen oder anderen hörbaren Informationen, welche in einer Flughafenhalle, einen Bahnhof, einem Flugzeug, einem Fahrzeug, einem Aussichtsort usw. angekündigt werden, ebenso wie Umgebungsgespräche und Stimmen und Ankündigungen bei Vorlesungen usw., um derartig aufgenommene oder aufgezeichnete Stimmen zu erkennen und zu übersetzen.
Vor kurzem wurde eine Flüssigkristall-Digitalkamera entwickelt, die einem Benutzer erlaubt, gerade fotografierte Standbildinformation an der Stelle zu betrachten, wo die Fotografien aufgenommen wurden, die Standbildinformation auf einem Aufzeichnungsmedium aufzuzeichnen, die Bildinformation auf einem Groß bildschirmmonitor anzuzeigen, die Bildinformation mit einem Drucker zu drucken, etc.
Eine japanische Patentanmeldung offenbart eine Zeichenerkennungs- und Übersetzungsvorrichtung für eine elektronische Standbildkamera, die verbunden ist mit einer elektronischen Standbildkamera, wie vom oben beschriebenen Typ einer Flüssigkristall-Digitalkamera oder ähnlichem, um Zeicheninformation in aufgezeichneten Bildern zu erkennen, und des Weiteren das erkannte Ergebnis zu übersetzen. Diese Vorrichtung ist zum Empfangen von Zeicheninformation und Zeichen entworfen, und Zeichen zu erkennen und zu übersetzen, welche in Objekt-Bildern enthalten ist, von der elektronischen Standbildkamera. Noch genauer werden gemäß der Zeichen erkennenden und übersetzenden Vorrichtung Videosignale von der elektronischen Standbildkamera in Signale umgewandelt, die zur Zeichenerkennung und zur Übersetzungsverarbeitung geeignet sind, und sie werden dann einer Folge von allgemeinen informationsverarbeitenden Schritten unterworfen, wie z.B. einer Zeichenflächenextraktionsverarbeitung auf der Grundlage eines Kantenextraktionsverfahrens, Hintergrundtilgungsverarbeitung, Zeichenanordnungs-Neigungskorrektur-Verarbeitung, Zeichenerkennungsverarbeitung auf der Grundlage eines Muster-Anpassungsverfahrens, Maschinenübersetzungsverarbeitung, etc.
Nach den herkömmlichen Zeichenerkennungs- und Übersetzungsvorrichtungen, wie oben beschrieben, ist es jedoch sehr schwierig gewesen, Zeichen zu erkennen und zu übersetzen, die auf Besichtigungsführertafeln, Namenstafeln von Gebäuden, Speisekarten von Restaurants, Besichtigungsführerprospekten, etc., geschrieben sind, auf welche Reisende oft Bezug nehmen in überseeischen Reiseorten. Das kommt daher, weil es häufig vorkommt, dass Zeichen nicht genau erkannt werden können, dadurch dass lediglich ein Musteranpassungsverfahren angewendet wird unter Anwendung lediglich eines Zeichenreferenzmusters auf kalligraphische Zeichen, die in verschiedenen Schreibstilen an ausländischen Orten geschrieben werden.
Andererseits, der rasch ansteigenden Anzahl von Auslandsreisenden folgend, wurden tragbare Übersetzungsgeräte mit Spracherkennung entwickelt, welche vorgegebene Formen von Konversationsmustern haben, um die Schwierigkeiten der Verständigung von Leuten verschiedener Nationalitäten zu überwinden (die sogenannte Sprachbarriere). Diese tragbaren Übersetzungsgeräte verwenden ein Wiedergabesystem, in welchem Sätze, die in verschiedenen Typen von Gesprächen verwendet werden, im Voraus als Sprachdaten aufgezeichnet werden und ein gewünschter Satz in Übereinstimmung mit einer vorgegebenen Situation ausgewählt wird. Gemäß diesem Wiedergabesystem ist es einer Person möglich, mit welcher sich ein Benutzer unterhält (nachfolgend als Person beim Gespräch bezeichnet) einseitig in seiner Muttersprache eine Frage oder eine Bitte zu hören, welche der Benutzer durchzuführen wünscht. Jedoch kann die Sprache dieser Person nicht durch das Gerät übersetzt werden. Deswegen wurde ein weiteres Gerät vorgeschlagen, das die Stimme eines Benutzers erkennt, in welchem die gesprochenen Worte durch ein Mikrofon eingegeben werden, die Sprache in eine vorbestimmte Sprache übersetzt wird und dann ausgegeben wird, wie offenbart in einer Japanischen Patentanmeldung.
Gemäß dieser Vorrichtung werden Sprachdaten, welche durch das Mikrofon eingegeben werden, in ein digitales Signal umgewandelt und aufgeteilt, um analysiert zu werden, und dann wird das Ergebnis der Analyse mit einem Standardsprachmuster verglichen, das in einem Spracherkennungswörterbuch gespeichert ist, um Spracherkennung durchzuführen. Ferner werden gemäß dieser Vorrichtung übersetzte Worte, welche einer erkannten Stimme entsprechen, von einer Speicherkarte für gespeicherte Wortdaten eingelesen, in Signale umgewandelt und dann zu einem Lautsprecher ausgegeben. Die Speicherkarte für übersetzte Wortdaten umfasst eine ROM-Karte oder ähnliches und hat darin gespeicherte Sprachdaten. Durch Austausch der Speicherkarte mit einer für eine andere Sprache, kann Sprachübersetzung in eine Vielzahl von Sprachen erreicht werden. Das Spracherkennungswörterbuch umfasst ein RAM oder ähnliches und hat darin Standard sprachmuster, welche der besonderen Aussprache des Benutzers entsprechen, im Voraus aufgezeichnet.
Im oben beschriebenen tragbaren Sprachübersetzungsgerät, das in der obigen Veröffentlichung offenbart wird, kann die Stimme eines Benutzers erkannt werden. Jedoch ist seine Funktion auf diejenige des tragbaren Übersetzungsgeräts beschränkt, welche feste Konversationsmuster mit Stimmen wie oben beschrieben verwendet. Dies bedeutet, es gestattet einer im Gespräch befindlichen Person einseitig die Frage oder Bitte eines Benutzers in der Muttersprache der Person zu führen. Jedoch kann es nicht die natürliche Gesprächsstimme einer unspezifizierten Person erkennen und übersetzen, demnach kann der Benutzer deren Sprache nicht verstehen. Wenn der Benutzer sich im Gespräch mit einer Person befindet, die eine Sprache spricht, welche der Benutzer nicht sprechen kann, ist es wichtiger die Sprache des Gesprächspartners zu übersetzen, als die Sprache des Benutzers.
JP-A-07-146699 offenbart ein Spracherkennungssystem, welches zwischen Rahmen Grade von Ähnlichkeiten zwischen einer eingegebenen Stimme und einem Standardmuster verwendet, um Worte in der eingegebenen Stimme zu erkennen. Jedoch offenbart sie nicht Gegenmaßnahmen gegen Rauschen.
EP-A-0 586 714 offenbart ein Spracherkennungsgerät, welches ein neuronales Netzwerk verwendet, das dazu in der Lage ist, Rauschbestandteile in einer Stimme zu erkennen, welcher Rauschen überlagert ist, und diese Rauschbestandteile zu entfernen, so dass die Stimme erkannt werden kann.
Ferner hat ein Reisender während Auslandsreisen Probleme darin, dass er nicht die Sprachankündigungen verstehen kann, welche in einer Flughafenhalle, einem Bahnhof, einem Flugzeug, einem Fahrzeug, einem Aussichtsort, usw. kann, noch kann er normale Umgebungsgespräche, Stimmen und Ankündigungen bei Vorlesungen usw. verstehen. Besonders bei der Spracherkennung von Sprachenankün digung in Flughafenhallen, einem Bahnhof, einem Flugzeug, einem Fahrzeug, einem Aussichtsort, usw. ist die Verminderung in der Erkennungswirksamkeit der Spracherkennung ein kritisches Problem, wenn Hintergrundgeräusche vorliegen.
Deshalb ist es eine Aufgabe der vorliegenden Erfindung, ein Zeichenerkennungs- und Übersetzungssystem bereitzustellen, das weder durch die Gestalt oder Größe von Zeichen, noch durch irgendeinen Unterschied in der Sprache beschränkt ist, und das verschiedene Zeichen erkennen und übersetzen kann, die in verschiedenen Sprachen geschrieben sind, die als Kamera-Bilddaten erfasst werden.
Ferner ist es eine weitere Aufgabe der vorliegenden Erfindung ein Spracherkennungs- und Übersetzungssystem anzugeben, um zuverlässig verschiedene Arten von fließender Sprache oder Ankündigungen zu erkennen und zu übersetzen, wenn es Hintergrundgeräusche gibt, so wie in einer Flughafenhalle, einem Bahnhof in einem Flugzeug, in einem Fahrzeug, an einem Aussichtsort, usw.
Ein Spracherkennungs- und Übersetzungssystem gemäß der Erfindung wird in Anspruch 1 angegeben.
Um die oben beschriebenen Ziele zu erreichen, beinhaltet gemäß einer Ausführungsform der vorliegenden Erfindung ein Zeichenerkennungs- und Übersetzungssystem zur Abtastung von Zeichen, die auf Ansichtsführertafeln, Namenstafeln von Gebäuden, Speisekarten von Restaurants, Ansichtführerprospekten und ähnlichem geschrieben sind, das eine Kamera verwendet und die Zeichen und Worte oder Sätze erkennt, welche die erkannten Zeichen beinhalten:
eine Zeichen-Datenbasis zum Ansammeln von Zeichendaten, welche die Zeichen repräsentieren, die in dem abgetasteten Bild enthalten sind;
eine Einheit zur Zeichen-Gestaltanalyse zum Analysieren der Gestalt jedes Zeichens auf der Basis der Zeichendaten in der Zeichen-Datenbasis und zum Extrahieren von Merkmalen elementarer Zeichenbestandteile, welche das Zeichen bilden;
eine Masken-Lerneinheit zum Erzeugen von Muster-Masken-Daten der elementaren Zeichenbestandteile auf der Basis eines Ergebnisses der Analyse der Zeichen-Gestaltanalyse-Einheit;
eine Zeichenzusammenstellungs-Einheit zum Zuordnen von Zeichendaten eines Zeichens, welches erkannt werden soll, welche in dem abgetasteten Bild enthalten sind, welches neu aufgenommen wird, zu den Muster-Masken-Daten der elementaren Zeichenbestandteile, um dadurch die Zeichen zu erkennen; und eine Übersetzungseinheit zum Übersetzen eines Wortes oder Satzes, welcher die erkannten Zeichen enthält, die durch die Zeichenzusammenstellungs-Einheit erkannt werden.
In dem Zeichen-Erkennungs- und Übersetzungssystem, wie oben beschrieben, ist die Zeichen-Gestaltanalyse-Einheit vorzugsweise so entworfen, um binäre Daten von m × n Punkten (Pixel) von den Zeichendaten in der Zeichendatenbasis abzutrennen, "1" oder "0" für jedes Pixel zu detektieren während n inkrementiert wird, die Daten in Bildelement-Bereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ..., m × ni (ni ≤ n) zu teilen, welche Merkmale des Zeichens enthalten, und einen Gewichtungskoeffizienten zu analysieren, welcher eine Kennzeichnung des Zeichens darstellt und/oder ein Attribut, welches den Beginn, die Verbindung und das Ende eines Zeichens für jeden Pixelbereich darstellt.
In der Zeichen-Erkennungs- und Übersetzungsvorrichtung, wie oben beschrieben, ist es weiter wünschenswert, dass die Masken-Lerneinheit jeden der Bildelementbereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ..., m × nj (nj ≤ n), welche Merkmale der Zeichen enthält mit einem Gewichtskoeffizienten versieht, der eine Zeichen-Kennzeichnung darstellt und/oder Attribute, die den Beginn, die Verbindung und das Ende eines Zeichens für jeden Pixelbereich darstellen, um Muster-Masken-Daten zu erzeugen.
In der Zeichen-Erkennungs- und Übersetzungsvorrichtung, wie oben beschrieben, ist es weiter wünschenswert, dass die Zeichenzusammenstellungseinheit Binärda ten abtrennt von m × n Punkten von den Zeichendaten, "1" oder "0" für jedes Bildelement erkennt, während n inkrementiert wird, die Daten in Bildelementbereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ... m × ni (ni ≤ n) teilt, welche die Merkmale der Zeichen enthalten und die Daten des Bildelementbereichs und die Muster-Maskendaten zuordnet.
In der Zeichen-Erkennungs- und Übersetzungsvorrichtung, wie oben beschrieben, ist es weiter vorteilhaft, dass das System weiter einen Muster-Maskenspeicher zum Speichern von Muster-Maskendaten umfasst, welche durch die Masken-Lerneinheit erhalten wurden, wobei der Muster-Maskenspeicher darin Muster-Maskendaten speichert, welche n1, n2, ..., nj Elemente aufweisen, die für jedes verschiedene Zeichen verschieden sind.
In der Zeichen-Erkennungs- und Übersetzungsvorrichtung, wie oben beschrieben, ist es weiter vorteilhaft, dass das System weiter eine Bildabtast-(Aufnahme)-Einheit zum Abtasten eines Bildes umfasst, das Zeichen enthält, und eine Zeichenfeld-Spezifiziereinheit zum Spezifizieren eines Zeichenfeldes, welches Wörter oder Sätze enthält, die auf der Grundlage der Bilddaten erkannt werden sollen, die von dem abgetasteten Bild erhalten werden.
In der Zeichen-Erkennungs- und Übersetzungsvorrichtung, wie oben beschrieben, ist es weiter vorteilhaft, dass die Zeichenfeld-Spezifizierungseinheit in jeder Position mindestens einen Bereich von m × n Punkten spezifiziert.
Weiterhin ist es noch weiter bevorzugt, dass, wenn das erhaltene Zeichenfeld lateral geschriebene Zeichen enthält, die Zeichenzusammenstellungseinheit einen Bildelementbereich in der Richtung der Breite der Zeichen erhält, während n inkrementiert wird, was in Verbindung mit n Punkten in der Richtung der Breite der Zeichen steht, um die Daten des Bildelementbereichs mit den Muster-Maskendaten zuzuordnen. Weiterhin, falls oder wenn das erhaltene Zeichenfeld longitudinal geschriebene Zeichen enthält, erhält die Zeichenzusammenstellungs einheit einen Bildelementbereich in der Richtung der Höhe der Buchstaben, während n inkrementiert wird, was in Verbindung mit n Punkten in der Richtung der Höhe der Buchstaben steht, um die Daten des Bildelementbereichs den Muster-Maskendaten zuzuordnen.
Weiterhin gemäß einer Ausführungsform der vorliegenden Erfindung, umfasst das Zeichen-Erkennungs- und Übersetzungssystem vorzugsweise eine Informationseinrichtung vom stationär angebrachten Typ, welche eine externe Speichervorrichtung und eine Informationseinrichtung vom tragbaren Typ aufweist, die abnehmbar mit der Informationseinrichtung vom stationär angebrachten Typ verbunden ist, und wobei zumindest die Zeichendatenbasis in der externen Speichervorrichtung der Informationseinrichtung vom stationär angebrachten Typ bereit gestellt wird, während die anderen konstituierenden Teile in der Informationseinrichtung vom tragbaren Typ bereit gestellt werden. Insbesondere werden die Zeichendatenbasis, die Zeichen-Gestaltanalyse-Einheit und die Masken-Lerneinheit in der Informationseinrichtung vom stationär angebrachten Typ bereit gestellt, während die anderen konstituierenden Teile in der Informationseinrichtung vom tragbaren Typ bereit gestellt werden.
Gemäß dem derartig aufgebauten Zeichen-Erkennungs- und Übersetzungssystem, können diejenigen Zeichen, die auf Aussichtsführertafeln, Namenstafeln von Gebäuden, Hinweistafeln, Aussichtsführer-Prospekten, Speisekarten von Restaurants, etc. geschrieben sind, auf welche sich Reisende an ausländischen Reiseorten häufig beziehen, als Bilddaten abgetastet werden, um die Zeichen, die darin enthalten sind, zu erkennen und zu übersetzen, und die Zeichen von verschiedenen Sprachen, die so als Bilddaten abgetastet sind, können richtig erkannt und übersetzt werden ohne Beschränkung der Gestalt oder Größe der Zeichen und Sprachen.
Gemäß einer Ausführungsform der vorliegenden Erfindung beinhaltet ein Spracherkennungs- und Übersetzungssystem zur Erkennung einer Stimme und Übersetzung der Stimme in Worte oder Sätze:
einen Sprachspeicher zur Speicherung von Sprachdaten, welche eine Stimme darstellen;
eine Rauschlöschungseinheit zur Entfernung von Rauschdaten, welche einem Rauschen der Sprachdaten entsprechen;
eine Lautdatenbasis zur Speicherung der Sprachdaten, von welchen die Rauschdaten durch die Rauschlöscheinheit entfernt wurden und der Rauschdaten;
eine erste Lautanalyseeinheit zur Extraktion eines Merkmals der Sprache, welches den Sprachdaten entspricht, die in der Lautdatenbasis gespeichert sind, und zur Extraktion eines Merkmals des Rauschens, welches den Rauschdaten entspricht, die in der Lautdatenbasis gespeichert sind;
eine Modelllerneinheit zur Erzeugung eines akustischen Modells aus dem Merkmal der Sprache und dem Merkmal des Rauschens, welche durch die erste Lautanalyseeinheit extrahiert wurden;
eine akustische Modellspeichereinheit zum Speichern einer Vielzahl der akustischen Modelle, welche durch die Modelllerneinheit erzeugt wurden;
eine zweite Lautanalyseeinheit zur Extraktion eines Merkmals aus einer Sprache, welche übersetzt werden soll und zur Extraktion eines Merkmals von Rauschen aus der Sprache, die übersetzt werden soll;
eine Sprachzuordnungseinheit zur Auswahl eines akustischen Modells aus der Vielzahl von akustischen Modellen, die in der akustischen Modellspeichereinheit gespeichert sind, basierend auf dem Merkmal, des Rauschens, das durch die zweite Lautanalyseeinheit extrahiert wurde, und zur Zuordnung des Merkmals der Sprache, die durch die zweite Lautanalyseeinheit extrahiert wurde, zu dem gewählten akustischen Modell um die Sprache zu erkennen; und
eine Übersetzungseinheit zur Übersetzung der Worte oder Sätze, welche aus der Sprache zusammengesetzt sind, die durch die Sprachzuordnungseinheit erkannt wurden.
Im oben beschriebenen Spracherkennungs- und Übersetzungssystem ist es zu bevorzugen, dass der Speicher dazu entworfen ist, die ersten Sprachdaten, welche einer ersten Stimme entsprechen, in welcher Umgebungsrauschen einer Stimme überlagert ist zu speichern, welche erkannt und übersetzt werden soll, und die zweiten Sprachdaten, die einer zweiten Sprache entsprechen, welche von Umgebungsrauschen überlagert ist.
Ferner ist es in einem oben beschriebenen Spracherkennungs- und Übersetzungssystem zu bevorzugen, dass die Rauschlöscheinheit erste Sprachspektraldaten der ersten Sprachdaten mit zweiten Sprachspektraldaten der zweiten Sprachdaten vergleicht, um Spektraldaten zu erhalten, welche Daten entsprechen, aus denen das Rauschen entfernt ist.
Im Spracherkennungs- und Übersetzungssystem ist es weiter zu bevorzugen, dass die Lautdatenbasis dazu entworfen ist, erste und zweite Spektraldaten darin zu speichern, während diese einander zugeordnet werden.
Im Spracherkennungs- und Übersetzungssystem ist es weiter zu bevorzugten, dass vor der Eingabe der zu erkennenden und zu übersetzenden Sprache, die akustische Zuordnungseinheit die Rauschspektraldaten des Umgebungsrauschens, die am selben Ort erhalten wurde, wie die Sprache den Daten eines rausch-akustischen Modells zuordnet, welches auf der Basis der zweiten Spektraldaten erhalten wurde, um die Art des Rauschens zu erkennen, und weiter die Sprachdaten der zu erkennenden und zu übersetzenden Sprache den Daten eines akustischen Modells der ersten Sprachdaten zuordnet, die auf der Basis der Art des Rauschens bestimmt wird, um die Sprache zu erkennen.
Im oben beschriebenen Spracherkennungs- und Übersetzungssystem, ist es weiter zu bevorzugen, dass ein Übersetzungsergebnis, das durch die Übersetzungseinheit erhalten wird, wenigstens durch Zeichen auf einer Anzeigevorrichtung ausgegeben wird, und dass ein originaler Sprachtext, welcher Worte oder Sätze vor der Übersetzung enthält und ein Übersetzer-Sprachtext, der Wörter oder Sätze nach der Übersetzung enthält, auf dem Schirm oder der Anzeigevorrichtung angezeigt wird. Besonders enthält das Übersetzungsergebnis bevorzugt wenigstens eine Information, die einer Übersetzungsrate entspricht, welche eine Übersetzungsgenauigkeit darstellt, oder Information, die der Sprachart entspricht.
Im oben beschriebenen Spracherkennungs- und Übersetzungssystem ist es weiter zu bevorzugen, dass das Spracherkennungs- und Übersetzungssystem eine Informationsausrüstung stationärer Bauart aufweist, welche eine externe Speichervorrichtung besitzt und einer Informationsausrüstung von tragbarer Bauart, die lösbar mit der Informationsausrüstung stationärer Montagebauart verbunden ist, wobei wenigstens die Lautdatenbasis in der externen Speichervorrichtung der Informationsausrüstung von stationär montierter Bauart bereitgestellt ist, während andere Teile in der Informationsausrüstung tragbarer Bauart bereitgestellt werden. Besonders ist es weiter zu bevorzugen, dass die Lautdatenbasis, die erste Sprachanalyseeinheit und die Modelllerneinheit in der Informationsausrüstung der stationär montierten Bauart bereitgestellt werden, während die anderen Teile in der Informationsausrüstung von tragbarer Art bereitgestellt werden.
Gemäß dem oben beschriebenen Spracherkennungs- und Übersetzungssystem, können verschiedene Arten von Sprachen, die in einer Flughafenhalle, einem Bahnhof, einem Flugzeug, einem Fahrzeug, einem Aussichtsort, usw. angekündigt werden, auf welche sich Reisende bei Auslandsreiseorten verlassen, wie auch Umgebungsgespräche Sprache und Stimmen oder Ankündigungen bei Vorlesungen usw. geeignet erkannt werden, sogar in einer lauten Umgebung. Ferner können die Worte oder Sätze, die erkannte Sprache darstellen, durch ein Wörterbuch oder ein grammatikalisches Wörterbuch erkannt werden. Zusätzlich können Worte oder Sätze, die als Schlüsselworte dienen, in den erkannten Worten oder Sätzen analysiert und übersetzt werden.
Demgemäß kann die Sprache von jedem unspezifizierten Sprecher klar erkannt werden, sogar in verschiedenen lauten Umgebungen, wie einer Flughafenhalle, einem Bahnhof, einem Flugzeug, einem Fahrzeug, usw. und bei Aussichtsorten.
In den Zeichnungen
1 ist ein Blockdiagramm, das den Aufbau eines Zeichen-Erkennungs- und Übersetzungssystems zeigt gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
2 ist ein Diagramm, welches ein Verfahren des Erzeugens von beispielhaften Maskendaten zeigt gemäß der ersten Ausführungsform der vorliegenden Erfindung;
3 ist ein Flussdiagramm für das Verfahren zum Erzeugen beispielhafter Maskendaten in der ersten Ausführungsform;
4 ist ein Diagramm, welches das Verfahren zeigt zum Zusammenstellen beispielhafter Maskendaten gemäß der ersten Ausführungsform der vorliegenden Erfindung;
5 ist ein Flussdiagramm für das Verfahren zum Zusammenstellen beispielhafter Maskendaten der ersten Ausführungsform der vorliegenden Erfindung;
6A und 6B zeigen eine tragbare Übersetzungsvorrichtung, auf welche das Zeichen-Erkennungs- und Übersetzungssystem der ersten Ausführungsform angewandt wird;
7A und 7B zeigen ein Beispiel eines Zeichen-Spezifizierungsbereichs der ersten Ausführungsform der vorliegenden Erfindung;
8 zeigt ein Blockdiagramm, welches den Aufbau des Spracherkennungs- und Übersetzungssystems gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
9 zeigt ein Flussdiagramm zur Erzeugung eines akustischen Modells in jeder zweiten Ausführungsbeispiel der vorliegenden Erfindung;
10 zeigt ein Flussdiagramm zur Erkennung von Ansagen in der zweiten Ausführungsform der vorliegenden Erfindung;
11 zeigt ein Diagramm, welches Ansagespracherkennung gemäß einer lauten Umgebung in dem zweiten Ausführungsbeispiel veranschaulicht;
12A und 12B sind Diagramme, welche ein tragbares Übersetzungsgerät zeigen, an welchem das Spracherkennungs- und Übersetzungssystem der zweiten Ausführungsform; und
13 zeigt ein Diagramm, welches eine Anzeige auf einem Schirm der Anzeige des tragbaren Übersetzungsgeräts zeigt, das in 12B gezeigt ist.
Ausführungsformen gemäß der vorliegenden Erfindung werden unten unter Bezugnahme auf die begleitenden Zeichnungen beschrieben werden.
In 1 stellt das Bezugszeichen 101 ein Erkennungssystem zum Ausführen einer Zeichenerkennung dar, das Bezugszeichen 102 stellt ein Lernsystem zum Erzeugen beispielhafter Maskendaten dar, das zur Zeichenerkennung benötigt wird, und das Bezugszeichen 103 stellt ein Übersetzungssystem zum Empfangen eines Erkennungsergebnisses vom Erkennungssystem zum Analysieren von Sätzen auf der Grundlage von Schlüsselwörtern dar und um sie zu übersetzen. Das Bezugszeichen 104 stellt eine Kamera dar, die ein CCD oder Ähnliches aufweist, um als Bilddaten Zeichen abzutasten, die geschrieben sind auf Führertafeln, Namenstafeln von Gebäuden, Speisekarten von Restaurants, Aussichts-Führer-Prospekten, etc. Hier wird, um die erlaubte minimale Auflösung pro Zeichen sicher zu stellen, die zur Zeichenerkennung erforderlich ist, eine Bildanalyse durchgeführt unter Verwendung einer hoch auflösenden Kamera oder unter Verwendung von mehreren Kameras. Entsprechend ist die Auflösung der Zeichen in einem Zeichen-Spezifikationsbereich, wie später beschrieben wird, welche angezeigt werden auf einer Flüssigkristall-Anzeigevorrichtung oder ähnlichem, deutlich verschieden von der Auflösung von Zeichen-Bilddaten, die aufgenommen werden zur Erken nungsverarbeitung, und die letztere Auflösung ist größer als die erste Auflösung. Das Bezugszeichen 129 stellt eine Anzeige dar, die eine Licht emittierende Diode (LED) umfasst, und das Bezugszeichen 130 stellt einen Lautsprecher dar. Das Verarbeitungsergebnis des Übersetzungssystems 103 wird als ein Bild und als eine Stimme, die Sätze enthält von der Anzeige 129 bzw. dem Lautsprecher 130 ausgegeben.
In dem Erkennungssystem 101 stellt das Bezugszeichen 105 einen A/D-Konverter dar, das Bezugszeichen 106 stellt eine Zeichen-Digitalisier-(Binär)-Verarbeitungseinheit dar, das Bezugszeichen 107 stellt eine Rauschtilgungs-(Entfernungs)-Einheit dar, das Bezugszeichen 108 stellt eine Zeichen-Teileinheit dar, das Bezugszeichen 109 stellt eine Zusammenstellungseinheit dar, das Bezugszeichen 110 stellt eine Beurteilungseinheit dar, das Bezugszeichen 111 stellt eine Beispiel-Maskenspeichereinheit dar, das Bezugszeichen 112 stellt ein Wörterbuch dar, das Bezugszeichen 113 stellt ein Grammatik-Wörterbuch dar und das Bezugszeichen 114 stellt eine Verbindungseinheit dar.
Weiterhin stellt in dem Lernsystem 102 das Bezugszeichen 115 eine Zeichen-Datenbasis in großem Maßstab dar, das Bezugszeichen 116 stellt eine Zeichen-Gestaltanalyse-Einheit dar und das Bezugszeichen 117 stellt eine Masken-Lerneinheit dar.
Im Übersetzungssystem 103 stellt das Bezugszeichen 119 eine Schlüsselwort-Analyseeinheit dar, das Bezugszeichen 120 stellt ein Wort-Bedeutungswörterbuch (Wörterbuch für Wörter) dar, das Bezugszeichen 122 stellt einen Mittel-Sprach-Prozessor dar, das Bezugszeichen 123 stellt eine Satzbildungseinheit dar, das Bezugszeichen 124 stellt ein Wörterbuch dar, das Bezugszeichen 125 stellt ein Satzstrukturbeispiel-Wörterbuch (Wörterbuch für Sätze) dar, das Bezugszeichen 126 stellt einen Lautsyntheseprozessor dar, das Bezugszeichen 127 stellt ein Lautwörterbuch dar und das Bezugszeichen 128 stellt einen D/A-Wandler dar.
In dem derartig aufgebauten Lernsystem 102 werden Standbilddaten, die Zeichenfelder enthalten, die von einer Kamera (CCD-Kamera) 104 fotografiert (abgetastet) wurden und dann von Analogsignalen in Digitalsignale umgewandelt werden, in der Massen-Zeichendatenbasis 115 akkumuliert und gespeichert. Auf der Grundlage der Standbilddaten, die in der Massen-Zeichendatenbasis 115 gespeichert sind, führt die Zeichen-Gestaltanalyse-Einheit 116 eine Binär-(digitalisierende)-Verarbeitung des Digitalisierens der Bilddaten aus, die Zeichen enthalten, eine Extraktionsverarbeitung zur Extraktion eines Zeichens vom Hintergrund, welche Rauschentfernungsverarbeitung einschließt, eine Extraktionsverarbeitung des Analysierens der Gestalt eines Zeichens, um die Merkmale der Zeichen aufbauenden Elemente zu extrahieren, welche das Zeichen aufbauen.
Danach empfängt die Masken-Lerneinheit 117 das Ergebnis der Merkmalsextraktion eines Zeichens von der Zeichen-Gestaltanalyse-Einheit 116 und erzeugt Muster-Maskendaten auf der Grundlage des Merkmal-Extraktionsergebnisses. Die Muster-Maskendaten, die von der Masken-Lerneinheit 117 erzeugt werden, werden in der Beispiel-Maskenspeichereinheit 111 in dem Erkennungssystem 101 gespeichert.
Das Einlesen von Bildzeichendaten in die Massen-Zeichendatenbasis kann zu jeder Zeit durchgeführt werden. Trotzdem ist es zu bevorzugen, dass die Verarbeitung durch das Lernsystem 102 vor der Einleseoperation abgeschlossen wurde, wie oben beschrieben, falls zusätzliche oder ausreichende Zeit zur Verfügung steht. Weiterhin ist es wünschenswert, im Voraus die Bildzeichendaten zu erhalten, die Zeichen von mehreren verschiedenen Schreibstilen für jeden öffentlich bekannten Zeichensatz (jeden Zeichen-Code) entsprechen.
Wie die Muster-Maskenspeichereinheit 111 ist das Erkennungssystem 101 auch mit dem Wörterbuch 112 und dem Grammatik-Wörterbuch 113 versehen, die erforderlich sind, um Wörter oder Sätze zu erkennen. Zum Beispiel sind in einem Fall, in dem die Zeichen, die von einer Kamera abgetastet werden, in französisch geschrieben sind und diese Zeichen ins Japanische übersetzt werden sollen, die Muster-Maskenspeichereinheit 111, das Wörterbuch 112 und das Grammatik-Wörterbuch 113 entworfen, dem Französischen zu entsprechen. Es ist weiter vorzuziehen, dass ein Speichermedium mit großer Kapazität, wie z.B. eine austauschbare IC-(integrierte Schaltkreis)-Karte, CD-ROM (schreibgeschützter Compact-Disc-Speicher) oder Ähnliches für die Beispiel-Maskenspeichereinheit 111, das Wörterbuch 112 und das Grammatik-Wörterbuch 113 verwendet wird, damit das System der vorliegenden Erfindung in einem Mehr-Sprachen-Modus verwendet werden kann.
In dem Fall, in dem das Zeichen-(Dokument)-Erkennungs- und Übersetzungssystem auf eine Vorrichtung angewandt wird, welche eine Beschränkung in ihrem Hardware-Maßstab (Größe) aufweist, wie z.B. eine tragbare Übersetzungsmaschine, kann das Lernsystem 102 in einem Personalcomputer installiert werden, während andere Teile in einer tragbaren Übersetzungsvorrichtung installiert sind, wie später beschrieben. Die Verarbeitung des Lernsystems 102 wird später beschrieben werden.
In dem Erkennungssystem 101 werden die Bilddaten, die von der CCD-Kamera 104 abgetastet werden und dann von dem A/D-Wandler 105 in digitale Signale umgewandelt werden, einer Binärverarbeitung unterworfen durch den Zeichen-Binär-Prozessor 106. Zu diesem Zeitpunkt werden die binären Bilddaten normalisiert durch ein Auflösungsumwandlungsverfahren und umgewandelt in Bilddaten von m × n Bildelementen (Punkten), die ein Zeichenfeld enthalten. Danach werden die Bilddaten einer Rauschbeseitigungsverarbeitung unterworfen, um Hintergrundrauschen und jedes weitere Rauschen herauszuschneiden, so dass nur Zeichendaten übrig bleiben. Danach trennt die Zeichenteileinheit 108 einen Zeichenbereich von dem m × n Bildelementen (Punkten) umfassenden Zeichenfeld ab, während n inkrementiert wird (d.h. Erhöhen von n durch jedes Bildelement (Punkt)). Diese abgetrennten Zeichenbereiche werden als elementare Zeichenbestandteile, welche ein Zeichen ausmachen, den Muster-Maskendaten zugeordnet, die in der Muster-Maskendatenspeichereinheit 111 durch die Zusammenstellungseinheit 109 gespeichert sind.
Danach wird ein Zeichen durch entsprechend zugeordnete elementare Zeichenbestandteile aufgebaut und dann wird das so aufgebaute Zeichen erkannt. Weiterhin werden Zeichen, die so erkannt werden, in der Verbindungseinheit 114 durch Bezugnahme auf das Wörterbuch 112 und das Grammatik-Wörterbuch 113 miteinander verbunden und dann werden die aufeinanderfolgenden Zeichen, die von der Verbindungseinheit 114 verbunden werden, zusammengestellt, um ein Wort oder einen Satz durch die Beurteilungseinheit 110 zu erkennen. In 1 bezeichnet das Bezugszeichen 118 kodierte Daten, die von dem Erkennungssystem 101 ausgegeben werden und steht für ein Wort oder einen Satz. Die genauere Verarbeitung der Zusammenstellungseinheit 109 wird beschrieben.
In dem Übersetzungssystem 103 werden die kodierten Daten 118, die ein Wort oder einen Satz darstellen und die von dem Erkennungssystem 101 ausgegeben werden, durch die Schlüsselwort-Analyseeinheit 119 analysiert, um zu beurteilen, ob das Wort oder der Satz ein tatsächliches Schlüsselwort für eine Übersetzung darstellt, und die Bedeutung eines solchen Wortes oder Satzes wird auf der Basis des Schlüsselworts erkannt. Außerdem wird eine Mittelsprache, die lediglich die Bedeutung des Satzes darstellt und die nicht von irgendeiner besonderen gesprochenen Sprache irgendeines Landes abhängig ist, in dem Mittelsprachprozessor 122 erzeugt.
Die Schlüsselwort-Analyseeinheit 119 ist mit dem Wortbedeutungswörterbuch (Wörterbuch für Wörter) 120 und einem Satzstrukturbedeutungswörterbuch (Wörterbuch für Sätze) 121 verbunden. Zum Beispiel, wenn Zeichen, die von der CCD-Kamera 104 abgetastet werden, in französisch geschrieben sind und wenn sie in das Japanische übersetzt werden sollen, sind das Wörterbuch für Wörter 120 und das Wörterbuch für Sätze 121 dazu entworfen, dem Französischen zu entsprechen. Um dieses System in einem Mehrsprachen-Modus zu verwenden, wird vorzugsweise ein Speichermedium großer Kapazität, wie z.B. eine austauschbare IC-Karte oder eine CD-ROM für das Wörterbuch für Wörter 120 und das Wörterbuch für Sätze 121 verwendet.
Die Mittelsprache, die in dem Mittelsprachprozessor 122 erzeugt wird, wird übersetzt in Sätze, die in der gewünschten Sprache geschrieben sind. Die Satzbildungseinheit 123 ist verbunden mit dem Wörterbuch 124 und dem Wörterbuch für Sätze 125, die z.B. dem Japanischen entsprechen. Der übersetzte Satz wird auf dem Bildschirm der Anzeige 129 angezeigt. Der übersetzte Satz wird weiter in eine digitale Stimme in dem Lautsyntheseprozessor 126 umgewandelt, weitergegeben durch den D/A-Umwandler 128 zum Umwandeln der digitalen Signale in analoge Signale und dann von dem Lautsprecher 130 als eine Stimme ausgegeben.
Der Lautsyntheseprozessor 126 ist mit dem Wörterbuch für Sätze 125 und einem Schallwörterbuch 127 verbunden, die z.B. dem Japanischen entsprechen. Um dieses System in einem mehrsprachigen Modus zu verwenden, wird ein Speichermedium von großer Kapazität, wie z.B. eine austauschbare IC-Karte, eine CD-ROM, oder Ähnliches vorzugsweise für das Wörterbuch 124, das Wörterbuch für Sätze 125 und das Schallwörterbuch 127 verwendet.
Jeder Verarbeitungsschritt, der in dem Blockdiagramm in 1 gezeigt ist, kann von einem System, das mehrere LSI-(large-scale integrated)-Schaltkreise und einen Speicher umfasst erhalten werden oder durch ein oder mehrere Systeme auf Chips, die auf einer Halbleitervorrichtung ausgebildet sind.
Als Nächstes wird die detaillierte Verarbeitung des Lernsystems 102 beschrieben werden.
2 zeigt ein Verfahren zum Erzeugen von Muster-Maskendaten im Lernsystem 102 und 3 ist ein Flussdiagramm, das einen Muster-Maskendatenerzeugungsprozess zeigt.
Die Zeichen-Gestaltanalyse-Einheit 116 führt eine Binärverarbeitung auf Bilddaten aus, die Zeichen enthalten, die von der Massen-Zeichen-Datenbasis geliefert werden, gespeichert mit Standbilddaten, welche ein Zeichenfeld enthalten, die in digitale Signale umgewandelt wurden. Die binären Bilddaten werden durch ein Auflösungsumwandlungsverfahren normalisiert und in Bilddaten 201 (2) von m × n Bildelementen (Punkte oder Pixel) eines Zeichenfeldes (lateral geschrieben) umgewandelt (Schritt ST301). Weiterhin wird die Extraktionsverarbeitung der Extraktion eines Zeichenbereichs vom Hintergrund durchgeführt, welche die Rauschbeseitigungsverarbeitung beinhaltet, um die Gestalt jedes Zeichens zu analysieren; um z.B. die Merkmale elementarer Zeichenbestandteile zu extrahieren, welche ein Zeichen "M" von m × n Bildelementen (Punkte), gezeigt 2 aufbauen. Um diese Verarbeitung durchzuführen, wird "1" (schwarz) oder "0" (weiß) detektiert für die m × n Bildelemente während n (= 1, 2 3, ....) inkrementiert wird für jedes Bildelement (Punkte) in lateraler Richtung und der Zeichenbereich von m × n Bildelementen wird eingeteilt in Bildbereiche (202 bis 205 in 2) von elementaren Zeichenbestandteilen m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), m × n3 (n3 ≤ n), m × n4 (n4 ≤ n), wobei jeder elementare Zeichenbestandteil ein Merkmal, wie z.B. den Umriss eines Zeichens oder Ähnliches, enthält. Zum selben Zeitpunkt werden ein Gewichtungskoeffizient, der eine Kennzeichnung eines Zeichens darstellt (d.h. darstellt, was das betreffende Zeichen ist) und Attribute, die den Beginn, die Verbindung und das Ende des Zeichens darstellen, analysiert (Schritt ST302). Danach gewichtet die Masken-Lerneinheit 117 die Merkmale der Teile, des geteilten Zeichens. Falls der Typ des Zeichens auf der Grundlage von lediglich einem Teil des Zeichens abgeschätzt wird, wird der Gewichtungskoeffizient des Teils auf einen großen Wert (Schritt ST303) eingestellt. Weiterhin wird das Attribut, welches den Beginn, die Verbindung und das Ende des Zeichens darstellt, addiert, um Beispiel-Maskendaten (Schritt ST304) zu erzeugen.
Als Nächstes wird die detaillierte Verarbeitung der Zusammenstellungseinheit 109 im Erkennungssystem 101 beschrieben werden.
4 zeigt einen tatsächlichen Fall, in den Zeichendaten, die tatsächlich als Kamerabilddaten abgetastet wurden an einem ausländischen Reiseort Muster-Maskendaten in einer tragbaren Übersetzungsvorrichtung zugeordnet werden, um ein Zeichen "M" zu erkennen. 5 ist ein Flussdiagramm, das einen Zeichenzuordnungsstellungsprozess, gezeigt in 4, zeigt.
Zuerst werden m × n Bildelemente eines Zeichen-Spezifikationsbereichs für ein Zeichen, das erkannt und übersetzt werden soll spezifiziert, und sie werden abgetastet als Kamerabilddaten (Schritt ST501). Das Bezugszeichen 401 in 4 stellt ein Zeichen "M" dar, entsprechend den Bildelementen (m × n), die als die Kamerabilddaten abgetastet wurden. Zu diesem Zeitpunkt wird im Zeichen-Binär-Prozessor 106, falls die Auflösung der abgetasteten Zeichendaten verschieden ist von der der Beispiel-Maskendaten, eine Auflösungsumwandlung auf den abgetasteten Zeichendaten durchgeführt, um die Zeichendaten so zu normalisieren, dass die Auflösung von m Punkten in der Richtung der Höhe des Zeichens gleich gemacht wird zwischen den abgetasteten Zeichendaten und den Muster-Maskendaten in einem Fall, in dem das Zeichen in einem lateralen Schreibstil (Schritt ST502) geschrieben ist. Bezüglich der Auflösung von n Punkten in Richtung der Breite ist es vorzuziehen, mehrfache Muster-Masken vorzubereiten, welche verschiedene Werte von n aufweisen.
Danach wird eine Zeichenfläche sukzessive aus den Zeichendaten 401 durch Inkrementieren des Wertes von n (= 1, 2, 3, ...) in jedem Bildelement (Punkt) in lateraler Richtung erzeugt, und die Daten dieser Flächen, die so erzeugt wurden, werden den Muster-Maskendaten zugeordnet, um eine Korrelation durchzuführen, welche die Gewichtskoeffizienten der Beispiel-Maskendaten, zwischen den Zeichendaten und den Beispiel-Maskendaten enthält.
Falls die Korrelation ein Maximum darstellt, wird eine nachfolgende Bildelementfläche erzeugt, um eine Korrelation auf die gleiche Weise wie oben beschrieben (Schritt ST503) vorzunehmen. Zum Beispiel wird von der Korrelation zwischen den Bildelementflächen (402 bis 405 in 4) von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), m × n3 (n3 ≤ n), m × n4 (n4 ≤ n) und den Beispiel-Maskendaten (407 bis 410 in 4) angenommen, dass sie die Beste sei. Hier bezeichnet das Bezugszeichen 411 in 4 Muster-Maskendaten, die elementare Zeichenbestandteile eines anderen Zeichens darstellen. Die Bezugszeichen 412, 413, 414 und 415 stellen Bilddaten dar, die jeweils Gewichtungskoeffizienten von 0,7, 0,3, 0,8 und 0,4 enthalten.
Wie oben beschrieben, werden die Beispiel-Maskendaten mit dem Attribut des Beginns, der Verbindung und des Endes des Zeichens versehen, womit eine Zeitspanne zum Suchen von Muster-Maskendaten vom Speicher verkürzt werden kann. Schließlich wird ein Zeichen-Code "M" 421 von mehreren Zeichen-Codes 420 als ein Zielzeichen-Code auf der Grundlage der Muster-Maskendaten ausgewählt, welcher die maximale Summe der Korrelationswerte (Schritt S7504) bereit stellt. In 4 bezeichnen die Bezugszeichen 418 und 419 Signale, die andere Beispiel-Maskendaten anzeigen, von denen jedes die maximale Summe der Korrelationswerte bereit stellt.
6A zeigt eine tragbare Übersetzungsvorrichtung, auf welche das Bildzeichen-Übersetzungssystem der vorliegenden Erfindung angewandt wird, und 6B zeigt eine Außenansicht der Vorrichtung.
In 6A wird ein Erläuterungssatz, der in einer fremden Sprache unter einer Bronzestatue geschrieben ist, von dem System erkannt und übersetzt. Ein Benutzer gibt die Wörter oder Sätze, die er wissen will, innerhalb einer rechteckigen Fläche an, während er sie durch den Sucher der tragbaren Übersetzungsvorrichtung betrachtet. Das bezeichnete Zeichenfeld wird sofort der Zeichenerkennung unterworfen. Zum Beispiel wird, wenn der Benutzer eine japanisch sprechende Person ist, das Zeichenfeld in das Japanische übersetzt.
In 6B stellt das Bezugszeichen 601 den Hauptkörper der tragbaren Übersetzungsmaschine dar, und Bezugszeichen 602 stellt eine CDD-Kamera zum Aufnehmen eines Zeichenbildes dar. Die Bezugszeichen 603 und 604 stellen IC-Karten dar. In der IC-Karte 603 werden Daten zum Aufbauen der Beispiel-Maskenspeichereinheit 111, des Wörterbuchs 112, des Grammatik-Wörterbuchs 113, des Wörterbuchs für Wörter 120 und des Wörterbuchs für Sätze 121 gespeichert, um die Zeichenerkennung und -übersetzung durchzuführen. Weiterhin werden in der IC-Karte 604 Daten zum Aufbauen des Wörterbuchs 124, des Wörterbuchs für Sätze 125 und des Lautwörterbuchs 127 zum Durchführen der Zeichenerkennung und -übersetzung gespeichert.
Das Bezugszeichen 605 stellt eine Flüssigkristallanzeige zum Anzeigen einer Zeichen spezifizierenden Fläche dar, um das Zeichenfeld eines Wortes oder eines Satzes zu spezifizieren, für welches die Zeichenerkennung und -übersetzung gewünscht wird, und eines Zeichenerkennungs- und Übersetzungs-Ergebnisses. Bezugszeichen 606 stellt einen Lautsprecher dar, zum Ausgeben des Zeichen-Erkennungs- und Übersetzungsergebnisses durch eine Stimme.
7A und 7B sind Diagramme, die einen Zeichenkennzeichnungsbereich zum Kennzeichnen eines Zeichenfeldes von einem Wort oder einem Satz zeigen, für welche Zeichenerkennung- und -übersetzung gewünscht wird.
7A zeigt ein Zeichenspezifikationsverfahren, wenn das Zeichenfeld lateral geschrieben ist. In 7A bezeichnet das Bezugszeichen 703 einen Sucherbereich oder eine Anzeigefläche zum Anzeigen des Sucherbereichs. Sowohl das Bezugszeichen 701 als auch das Bezugszeichen 702 stellen einen Zeichenkennzeichnungsbereich zum Kennzeichnen des Zeichenfeldes eines Wortes oder eines Satzes dar, von denen gewünscht wird, dass sie erkannt und übersetzt werden. Die Zeichenspezifizierungsbereiche 701 und 702 haben jeweils eine Größe von m × n Bildelementen (Punkten); d.h. m Bildelemente (Punkte) in Richtung der Höhe des Zeichens und n Bildelemente (Punkte) in der lateralen Richtung der Zeichen. Die Größe von jedem Zeichen-kennzeichnenden Bereich kann unabhängig verändert werden. Zusätzlich sind die Zeichen-kennzeichnenden Bereiche 701 und 702 unabhängig in jeder beliebigen Lage angeordnet. Entsprechend können die Zeichen-kennzeichnenden Flächen in jeder gewünschten Lage angeordnet sein, um verschiedene Zeichen zu bedecken, die in allen beliebigen Lagen auf einer Führertafel, einer Namenstafel eines Gebäudes, einer Speisekarte eines Restaurants, einem Aussichts-Führer-Prospekt oder Ähnlichem geschrieben sind. In 7A bezeichnet das Bezugszeichen 704 einen Übersetzungsanzeigebereich zum Anzeigen eines Übersetzungsergebnisses des Zeichenfeldes eines Wortes oder eines Satzes, von denen gewünscht wird, dass sie erkannt und übersetzt werden.
Ebenso zeigt 7B ein Zeichen-kennzeichnendes Verfahren, wenn das Zeichenfeld in vertikaler Richtung geschrieben ist. In 7B bezeichnet das Bezugszeichen 707 einen Sucherbereich oder einen Anzeigebereich zum Anzeigen des Sucherbereichs. Beide Bezugszeichen 705 und 706 stellen einen Zeichen-kennzeichnenden Bereich zum Kennzeichnen des Zeichenfeldes eines Wortes oder eines Satzes dar, die erkennt und übersetzt werden müssen. Wie die Zeichen-kennzeichnende Bereiche von 7A weisen sowohl der Zeichen-kennzeichnende Bereich 705 als auch 706 eine Größe von m × n Bildelementen (Punkten) auf, welche m Bildelemente (Punkte) in lateraler Richtung des Zeichens und n Bildelemente (Punkte) in der vertikalen Richtung umfasst. Die Größe jedes Zeichen-kennzeichnenden Bereichs kann unabhängig verändert werden.
Weiterhin kann sowohl der Zeichen-kennzeichnende Bereich 705 als auch 706 in jeder beliebigen Lage angeordnet sein. Entsprechend können die Zeichen-kennzeichnenden Bereiche in jeder gewünschten Lage angeordnet sein, um verschiedene Zeichen zu überdecken, die in jeder beliebigen Lage auf einer Führertafel, einer Namenstafel eines Gebäudes, einer Speisekarte eines Restaurants, eines Aussichts-Führer-Prospekts oder Ähnlichem geschrieben sind. In 7B bezeichnet das Bezugszeichen 708 ein Übersetzungsanzeigebereich zum Anzeigen eines Übersetzungsergebnisses des Zeichenfeldes eines Wortes oder eines Satzes, die erkannt und übersetzt werden müssen.
Gemäß dieser Ausführungsform kann das Zeichen-Erkennungs- und Übersetzungssystem zum genauen Erkennen und Übersetzen von Zeichen von verschiedenen Sprachen bereit gestellt werden, die als Kamera-Bilddaten abgetastet werden ohne Beschränkung in der Gestalt oder Größe der Zeichen oder der Sprache. Entsprechend können Zeichen, die geschrieben sind auf Aussichts-Führer-Tafeln, Namenstafeln von Gebäuden, Hinweistafeln, Prospekten, Speisekarten von Restaurants, etc., auf welche Reisende an ausländischen Reiseorten Bezug nehmen, als Kamera-Bilddaten abgetastet werden und zuverlässig erkannt und übersetzt werden. Deshalb kann ein Benutzer leicht die Bedeutung des Zeichens (Sätze), wie oben beschreiben, verstehen.
Als nächstes wird eine zweite Ausführungsform gemäß der vorliegenden Erfindung im Einzelnen beschrieben.
8 zeigt ein Blockdiagramm, welches den Aufbau eines Spracherkennungs- und Übersetzungssystems gemäß einer zweiten Ausführungsform der Erfindung zeigt.
In 8 bezeichnet Bezugszeichen 801 ein Erkennungssystem zur Durchführung von Spracherkennung, Bezugszeichen 823 bezeichnet ein Lernsystem zur Erzeugung eines akustischen Modells, das für die Spracherkennung benötigt wird, und Bezugszeichen 828 bezeichnet ein Übersetzungssystem zum Empfangen eines Erkennungsergebnisses vom Erkennungssystem und zur Analyse von Sprache auf der Basis von Schlüsselworten, um Sprache zu übersetzen.
Bezugszeichen 802 bezeichnet ein Richtungsmikrofon, und Bezugszeichen 803 bezeichnet ein Vielrichtungsmikrofon. Diese Mikrofone sind bereitgestellt, um verschiedene Sprachen zu erkennen, die in einem Flughafen, einem Bahnhof, ei nem Flugzeug, einem Fahrzeug wie einem Bus, einer U-Bahn, einem Taxi oder ähnlichem, in einem Gebäude bei einem Aussichtsort, usw. angesagt werden, sowohl als auch Umgebungssprache, Stimmen bei Vorlesungen usw.
In der zweiten Ausführungsform, sind sowohl das Richtmikrofon 802 als auch das Vielrichtungsmikrofon 803 bereitgestellt und das Richtmikrofon wird dazu verwendet, um verlässlich eine bestimmte gewünschte Stimme aufzunehmen (Zielsprache), während das Vielrichtungsmikrofon 803 dazu verwendet wird, die gesamten Umgebungsgeräusche aufzunehmen (verschiedene Geräusche, die Umgebungsstimmen und Rauschen enthalten) an einem beliebigen Aufzeichnungsort. Demgemäß können die Eigenschaften von jedem Mikrofon individuell am wirksamsten verwendet werden. Jedoch kann lediglich ein Mikrofon verwendet werden oder eine Vielzahl von Mikrofonen kann verwendet werden. Dies bedeutet, dass die Anzahl von Mikrofonen, welche verwendet wird, nicht beschränkt ist. Ferner kann die Bauart des zu verwendeten Mikrofons auf jedes von Richtmikrofon oder dem Vielrichtungsmikrofon beschränkt werden.
Bezugszeichen 839 bezeichnet eine Anzeige, welche ein LCD (Lichtemissionsdiode) oder ähnliches beinhaltet, und Bezugszeichen 840 bezeichnet ein Schallausgabemittel, wie einen Lautsprecher, einen Kopfhörer oder ähnliches. Die Anzeige 839 und die Schallausgabemittel 840 dienen zur Ausgabe des Verarbeitungsergebnisses des Übersetzungssystems 828 als Bild, welches jeweils einen Satz (Sätze) und eine Sprache, die einen Satz (Sätze) beinhaltet, enthält.
Im Erkennungssystem 801, bezeichnet Bezugszeichen 804 einen A/D (Analog-Digital-Wandler) zur Wandlung analoger Signale vom Richtmikrofon 802 in digitale Signale, und Bezugszeichen 806 bezeichnet Digitaldaten einer Ansagesprache, welche eine Zielsprache darstellt und durch den A/D-Wandler 804 gewandelt wird.
Gemäß dieser Ausführungsform, sind die digitalen Daten 806 der Ankündigungssprache aus 16 Bits zusammengesetzt (d.h. ausgedrückt mit) und enthalten Rauschdaten an verschiedenen Orten. Bezugszeichen 805 bezeichnet einen A/D-Wandler zur Wandlung analoger Signale des Vielrichtungsmikrofons 803 in digitale Signale. Bezugszeichen 807 bezeichnet digitale Daten des Gesamtschalls, welche durch den A/D-Wandler 80 gewandelt werden und beinhaltet Rauschen, wenn es keine Sprachansage gibt. In dieser Ausführungsform bestehen die digitalen Daten 807 des Gesamtumgebungsschalls bei verschiedenen Orten aus 16 Bits (d.h. ausgedrückt mit).
Bezugszeichen 808 bezeichnet einen Sprachrekorder zur digitalen Aufzeichnung der digitalen Daten 806 der Ansagesprache, welche durch den A/D-Wandler 804 gewandelt werden und der digitalen Daten der Umgebungsgeräusche bei verschiedenen Orten, welche durch den A/D-Wandler 805 gewandelt werden, wenn keine Ansagesprache gegeben wird, und Speichern dieser Daten in einem Speicher 809. Die digitalen Daten 806 der Ansagesprache und die digitalen Daten 807 des Gesamtgeräusches bei verschiedenen Orten, wenn es keine Ansagesprache gibt, werden im Speicher 809 so gespeichert, dass diese Daten parallel von diesem ausgelesen und in diesen Speicher eingeschrieben werden können. Bezugszeichen 810 bezeichnet die digitalen Daten der Ansagesprache, welche vom Speicher 809 durch den Sprachrekorder 808 ausgelesen wird und Bezugszeichen 811 bezeichnet die digitalen Daten des Gesamtschalls bei verschiedenen Orten, welche von dem Speicher 809 durch den Sprachrekorder 808 ausgelesen ist, wenn es keine Ansagesprache gibt.
Bezugszeichen 812 bezeichnet eine Rauschlöscheinheit zum Empfangen der digitalen Daten 810 der Ansagesprache und der digitalen Daten 811 des Gesamtschalls bei verschiedenen Orten, wenn keine Ansagesprache gegeben ist, und zur Entfernung von Rauschen aus den digitalen Daten 810 der Ansagesprache, welche Rauschen enthält. Bezugszeichen 813 bezeichnet die digitalen Daten der Ansagesprache, welche durch Erkennung des Rauschens und der Rauschlöscheinheit 812 erhalten werden, aus den digitalen Daten 810 der Ansagesprache, welche das Rauschen enthält. In diesem Ablauf kann das Rauschen nicht perfekt entfernt werden, aber es wird vermindert, weil die Ansagesprache relativ hervorgehoben wird.
Gemäß dieser Ausführungsform ist das System so entworfen, dass die Art des Rauschens erkannt wird, und als ein Schlüssel verwendet wird, um Ansagesprachen oder Umgebungssprachen in einer lauten Umgebung an verschiedenen Orten, wie später beschrieben, zu erkennen. Dieser Aspekt des Systementwurfs erleichtert den Suchablauf eines akustischen Modus zur akustischen Zuordnung, um Spracherkennung durchzuführen.
Bezugszeichen 814 steht für Daten, die sowohl digitale Daten 813 der Ansagesprache enthalten, die durch Entfernung des Rauschens aus den digitalen Daten 810 der Ansagesprache erhalten werden, welche Rauschen enthält und der digitalen Daten 811 des Gesamtschalls an verschiedenen Orten, wenn keine Ansagesprache gegeben wird, welche direkt aus der Rauschlöscheinheit 812 ausgegeben werden.
Bezugszeichen 815 bezeichnet eine Lautanalyseeinheit zur Durchführung von Lautmerkmalsextraktionsverarbeitung an den digitalen Daten 813 der Ansagesprache, von welcher das Rauschen entfernt wurde, indem eine Kurzzeitfrequenzanalyse verwendet wird. Bezugszeichen 816 bezeichnet einen Abschnittsdetektor zur Detektion eines Sprachexistenzabschnittes auf der Basis der eingegebenen Sprachwellenform. Bezugszeichen 817 bezeichnet eine akustische Zuordnungseinheit zur Zuordnung der Eingabesprache über eine Linkeinheit zu einem akustischen Modell zu einem Erkennungsziel in einer akustischen Modellspeichereinheit 819, einem Wörterbuch 820 und einem Grammatikwörterbuch 821. Das Zuordnungsergebnis der akustischen Zuordnungseinheit 817 wird als Erkennungsergebnis eines Wortes oder Satzes in fließende Sprache von einer Bewertungseinheit 818 ausgegeben. Bezugszeichen 827 bezeichnet codierte Daten, die ein Wort oder einen Satz repräsentieren, die als Erkennungsergebnis des Wortes oder Satzes in fließender Sprache in der Bewertungseinheit 818 ausgegeben werden.
Im Lernsystem 823 werden die digitalen Daten der Ansagesprache, die durch Entfernung des Rauschens aus digitalen Daten 810 der Ansagesprache, welche Rauschen enthält, erhalten werden, und die digitalen Daten des Gesamtschalls bei verschiedenen Orten, wo es keine Ansagesprache gibt, in einer Massenspeicheransagelautdatenbasis 824 gespeichert. Eine Lautanalyseeinheit 825 liest die Daten aus, welche in der Massenspeicheransagelautdatenbasis 824 gespeichert sind und unterzieht die ausgelesenen Daten einer Lautmerkmalsextraktionsverarbeitung, basierend auf der Kurzzeitfrequenzanalyse. Die Modelllerneinheit 826 erhält das Lautmerkmalsextraktionsergebnis von der Lautanalyseeinheit 825, um ein akustisches Modell zu erzeugen.
Hier ist das akustische Modell ein Referenzmodell, welches ein Kriterium für die Spracherkennung darstellt, und es gibt ein Modell für jede Einheit, wie einen Konsonanten, einen Vokal oder ähnliches von einem Fonem. Zum Beispiel wird das Hidden Markov Modell (HMM) als solches Modell verwendet.
Das erzeugte akustische Modell wird einem Code zugeordnet (oder mit ihn verbunden), welcher ein Wort oder einen Satz darstellt und mit Unterstützung eines Betätigers, der mit zugeordneter oder erfasster Sprache vertraut ist, und ein benötigter Teil davon wird in der akustischen Modellspeichereinheit 819 gespeichert. Zu diesem Zeitpunkt wird das erzeugte akustische Modell ebenso mit einem Umgebungsrauschcode in Verbindung gebracht, von Datensammelorten, wo keine Sprachankündigung gegeben wird und in der akustischen Modellspeichereinheit 819 gespeichert. In der Lautanalyseeinheit 825 wird der Umgebungsrauschcode auf der Basis der digitalen Daten des Gesamtschalls an verschiedenen Orten erzeugt, wenn es keine Ansagesprache gibt.
In dieser Ausführungsform werden viele akustische Modelle unter verschiedenen Rauschumgebungen für einen Code erzeugt, der ein Wort oder einen Satz repräsentiert. Bevorzugt werden viele akustische Modelle in Übereinstimmung mit einem Dialekt der Sprache, die übersetzt werden soll oder ähnlichem, erzeugt.
Im Übersetzungssystem 828, werden die codierten Daten 827, die ein Wort oder einen Satz repräsentieren, welche vom Erkennungssystem 801 ausgegeben werden durch eine Schlüsselwortanalyseeinheit 829 analysiert, ob die Daten ein Schlüsselwort bereitstellen, welches wirksam für die Übersetzung ist, und die Bedeutung dieses Satzes wird auf Basis dieses Schlüsselwortes erkannt. Ferner erzeugt der Mittelsprachprozessor 823 eine Mittelsprache, die lediglich die Bedeutung des Satzes repräsentiert, welche noch nicht von irgendeiner Sprache abhängig ist.
Die Schlüsselwortanalyseeinheit 829 ist mit einem Wortbedeutungswörterbuch 830 (Wörterbuch für Wörter) verbunden und einem Satzstrukturbedeutungswörterbuch (Wörterbuch für Sätze) 831. Zum Beispiel, wenn die eingegebene Ansagesprache Deutsch ist, und es erforderlich ist, dass sie in Japanisch übersetzt wird, sind die akustische Modellspeichereinheit 819, das Wörterbuch 820 und das grammatikalische Wörterbuch 821 im Erkennungssystem 801 und das Wörterbuch für Worte 830 im Wörterbuch für Sätze 831 im Übersetzungssystem 828 entworfen, um der deutschen Sprache zu entsprechen. Ferner, um das System in einem vielsprachigen Modus zu verwenden, wird bevorzugt, ein austauschbares Speichermedium von großer Kapazität, wie eine IC-Karte, eine CD-ROM oder ähnliches für die akustische Modellspeichereinheit 819, das Wörterbuch 820, das Grammatikwörterbuch 821, das Wörterbuch für Worte 830 und das Wörterbuch für Sätze 831 verwendet.
Der Satz der Mittelsprache, welcher im Mittelsprachenprozessor 832 erzeugt wird, wird in einen Satz übersetzt, in einer gewünschten Sprache, in einer Satzbildungseinheit 833. Die Satzbildungseinheit 833 ist mit einem Wörterbuch 834 und einem Satzstrukturbeispielwörterbuch (Wörterbuch für Sätze) 835 verbunden, welche dazu entworfen sind, z.B. dem Japanischen zu entsprechen. Der übersetzte Satz wird auf dem Schirm der Anzeige 839 angezeigt. Der übersetzte Satz wird ferner in digitale Sprache gewandelt im Lautsyntheseprozessor 837 durch einen D/A-Wandler 838 geleitet zur Umwandlung digitaler Signale in analoge Signale und dann als Sprache aus dem Lautausgabemittel 840 ausgegeben.
Der Lautsyntheseprozessor 837 ist mit dem Wörterbuch für Sätze 835 und einem Lautwörterbuch 836 verbunden, welche entworfen sind, um beispielsweise dem Japanischen zu entsprechen. Ferner, um dieses System in einem Mehrsprachenmodus zu verwenden, wird ein austauschbares Speichermedium großer Kapazität bevorzugt, wie eine IC-Karte, ein CD-ROM oder ähnliches verwendet, für das Wörterbuch 834, das Wörterbuch für Sätze 835 und die Lautbibliothek 836.
Jeder Verarbeitungsblock von 8 kann aus einem System zusammengesetzt sein, das eine Vielzahl von LSIs und Speichern umfasst, oder eines oder mehreren Systemen von Chips, die auf einer Halbleitervorrichtung gebildet werden.
Als nächstes wird nachfolgend ein Spracherkennungsablauf und eine tatsächliche Situation beschrieben, wenn das Spracherkennungs- und Übersetzungssystem dieser Ausführungsform auf ein tragbares Übersetzungsgerät angewendet wird.
9 zeigt ein Ablaufdiagramm, welches die Anwendung eines tragbaren Übersetzungsgeräts während Auslandsreisen veranschaulicht, um im Voraus Umgebungsrauschen und Ansagen (Ansagesprachen) mit dem tragbaren Übersetzungsgerät in ausländischen Flughäfen, einem Bahnhof oder ähnlichem, in einem Fahrzeug, wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichen, oder in einem Aussichtsgebäude zu erkennen und zuvor akustische Modelle zu erzeugen, die zur Durchführung der Übersetzung von Ansagesprachen benötigt werden.
Erstens unter Verwendung des Vielrichtungsmikrofons 803 oder des Richtungsmikrofons 802, die an dem tragbaren Übersetzungsgerät montiert sind, wird stationäres Rauschen "B" an einem beliebigen Ort zu einer Zeit aufgezeichnet, wo keine Ansagesprache gegeben wird (Schritt ST901). Nachfolgend wird eine Ansagesprache "A" aufgezeichnet, wenn eine Ansage tatsächlich durch das Richtmikrofon 802 abläuft, z.B. (Schritt ST902). Die Ansagesprache "A" enthält im Wesentlichen dasselbe Hintergrundrauschen wie das zuvor aufgezeichnete Rauschen "B". Nachfolgend subtrahiert die Rauschlöscheinheit 812 das Spektrum "B" des Signals, welches das stationäre Rauschen vom Spektrum "A" des Ansagesprachsignals repräsentiert, welchem das Rauschen überlagert ist (Schritt ST903). Nachfolgend wird ein Spektrum "C" durch Subtraktion (d.h. Spektrum "C" = Spektrum "A" – Spektrum "B") erhalten, und als Ansagesprachspektraldaten in der Massenspeicheransagelautdatenbasis 824 gespeichert und in Verbindung mit diesen Daten werden die Spektraldaten des stationären Rauschens "B" ebenso in der Massenspeicheransagelautdatenbasis 824 gespeichert (Schritt ST904). Die Lautanalyseeinheit 825 führt die Kurzzeitfrequenzanalyse auf dem gespeicherten Ansagesprachspektrum "C" aus, um die Lautmerkmalsextraktion (Lautanalyse) durchzuführen und ebenso die Rauschumgebung zu analysieren (Schritt ST905). Schließlich erzeugt die Modelllerneinheit 826 ein akustisches Modell auf der Basis des Sprachanalyseergebnisses (Modelllernen), bringt das erzeugte akustische Modell mit einem Code in Verbindung, der ein Wort oder einen Satz repräsentiert und speichert es dann in der akustischen Modellspeichereinheit 819 (Schritt ST906).
10 zeigt ein Flussdiagramm, das eine Reihe von Prozessen zeigt, in welchen das tragbaren Übersetzungsgerät, mit welchem ein Reisender im Ausland reist, die Spracherkennung für Ansagesprachen durchführt, welchen der Reisende zuhört, in einem Flughafen, oder einen Bahnhof, in einem Fahrzeug wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem, oder in einem Aussichtsgebäude.
Es wird angenommen, dass der Reisende die Bedeutung einer Ansage, die in einem Flughafen, einem Bahnhof, einem Fahrzeug wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem, oder einem Aussichtsgebäude nicht versteht, jedoch kann er einfach von der Reaktion seiner Mithörenden bewerten, ob die Ankündigung irgendetwas für ihn interessantes wäre. Zu diesem Zeitpunkt schaltet der Reisende einen Schalter am tragbaren Übersetzungsgerät ein, und das stationäre (d.h. Hintergrundumgebungs-)Rauschen "B" bei verschiedenen Orten wird zu einer Zeit aufgezeichnet, wo es keine Ansagesprache gibt, durch das Vielrichtungsmikrofon oder das Richtungsmikrofon, die am tragbaren Übersetzungsgerät montiert sind (Schritt ST1001). Nachfolgend, wenn die Ansage von Interesse tatsächlich startet, wird eine Ansagesprache "A", die im Wesentlichen dasselbe Rauschen enthält, wie das zuvor aufgezeichnete stationäre Rauschen "B" aufgezeichnet durch das Richtungsmikrofon 802, z.B. (Schritt ST1002).
Nachfolgend zieht die Rauschlöscheinheit 812 das Spektrum "B" des stationären Rauschsignals vom Spektrum "A" des Ansagesprachsignals ab, das mit Rauschen vermischt ist (Schritt ST1003). Danach wird eine Kurzzeitfrequenzanalyse auf dem Spektrum "C" durchgeführt, das demnach durch die Abzugsoperation erhalten wurde (d.h., Spektrum "C" = Spektrum "A" – Spektrum "B"), um die Lautmerkmalsextraktion (Lautanalyse) durchzuführen (Schritt ST1004). Danach wird ein Abschnitt detektiert, in welchem die gewünschte Sprache auf der Basis der eingegebenen Wellenform der fortlaufenden Ansagesprache existiert (Schritt ST1005). Schließlich wird die eingegebene Sprache von akustischen Modellen eines Ansagerkennungsziels zugeordnet und ein Modell eines Wortes oder Satzes, um ein Schlüsselwort oder Schlüsselsatz zu erkennen.
11 zeigt ein Diagramm, welches zeigt, dass ein akustisches Modell einfach mit einem akustischen Zuordnungsprozess für digitale Daten 813 einer Ansagesprache gesucht werden kann, welche erhalten wurde durch Entfernung des Rauschens aus den digitalen Daten 810 einer Ansagesprache, welche das Rauschen enthält.
Wie zuvor erwähnt, wird das Gesamtrauschen nicht perfekt aus den digitalen Daten der Ansagesprache entfernt, welche dem Rauschentfernungsprozess unterzogen wurde. Jedoch wird in diesem Prozess das Rauschen relativ vermindert, weil die Ansagesprache relativ hervorgehoben wird. Demgemäß, falls die Art des Rauschens (Umgebungsrauschen) erkannt werden kann, ist es möglich Spracherkennung einer Ansagesprache in einer lauten Umgebung an verschiedenen Orten durchzuführen.
In 11 bezeichnet Bezugszeichen 1101 die digitalen Daten einer Ansagesprache, aus welchen Rauschen entfernt wurde, Bezugszeichen 1102 bezeichnet eine akustische Zuordnungseinheit zur Durchführung akustischer Zuordnung, Bezugszeichen 1103 bezeichnet einen akustischen Modus des Rauschens, Bezugszeichen 1104 bezeichnet eine Bewertungseinheit, und Bezugszeichen 1105 bezeichnet ein akustisches Modell einer Ansage, welches in Übereinstimmung mit jedem Rauschumgebungscode gelernt und gespeichert wird. In den aufbauenden Elementen von 11, sind das akustische Modell 1103 und das Ansagesprachmodell 1105 in der akustischen Modellspeichereinheit 819 von 8 enthalten. Ferner entsprechen die akustische Zuordnungseinheit 1102 und die Bewertungseinheit 1104 jeweils der akustischen Zuordnungseinheit 817 und der Bewertungseinheit 818 aus B.
In dieser Ausführungsform, wie oben beschrieben, wird das stationäre Rauschen (d.h. Hintergrundumgebungs-) "B" aufgezeichnet, wenn keine Ansagesprache gegeben wird, durch das Vielrichtungs- oder Richtmikrofon aufgezeichnet, das an dem tragbaren Übersetzungsgerät montiert ist, bevor eine Zielsprache detektiert wird, die übersetzt werden soll (in diesem Fall eine Ansagesprache) (siehe Schritt ST1001 von 10). Zu diesem Zeitpunkt, wird in der akustischen Zuordnungseinheit 1102 das Rauschen "B" den verschiedenen Modellen zugeordnet, die im akustischen Modell 1103 gespeichert sind, um einen Ort zu erkennen (Rauschumgebung) an dem das Rauschen "B" erzeugt wird. Diese Erkennung wird durchge führt, indem ein Rauschumgebungscode identifiziert wird, welcher jedem der akustischen Modelle zugefügt ist. Nachfolgend wird die Ansagesprache "A", die das stationäre Rauschen "B" enthält, aufgezeichnet, einer vorbestimmten Verarbeitung unterzogen und dann einem Ansagesprachmodell unter der Rauschumgebung zugeordnet, welche dem identifizierten Umgebungscode entspricht. Wie oben beschrieben, wird lediglich das Ansagesprachmodell gesucht, das dem erkannten Sprachumgebungscode entspricht und dann wird die Ansagesprache dem gesuchten Modell zugeordnet, so dass die Suchoperation einfach und schnell durchgeführt werden kann. Zum Beispiel, wenn das Rauschen "B" das Hintergrundumgebungsgeräusch in einer U-Bahn ist, ist es ausreichend für die akustische Zuordnungseinheit 1104 lediglich die Ansagesprachmodelle zu durchsuchen in einer "In-U-Bahn"-Rauschumgebung.
12A und 12B sind Diagramme, welche eine Situation veranschaulichen, wo das tragbare Übersetzungsgerät verwendet wird, und jeweils ein Beispiel der äußeren Ansicht des tragbaren Übersetzungsgeräts. Besonders zeigt 12A die Situation wo eine Leitansage mit Sprache in einem Bahnhof durchgeführt wird. Ein Benutzer, der ein Reisender ist, kann einen Übersetzungsinhalt der Ansage über die Anzeige erkennen und die Sprachausgabemittel des tragbaren Übersetzungsgerätes. Wenn der Benutzer es wünscht die Ansage in z.B. Japanisch zu übersetzen, weil er eine japanische Person ist, wird die Ansage in Japanisch übersetzt werden.
12B zeigt die Außenansicht des tragbaren Übersetzungsgerätes. In 12B bezeichnet das Bezugszeichen 1201 den Hauptkörper des tragbaren Übersetzungsgerätes, und Bezugszeichen 1202 bezeichnet ein Richtmikrofon zur Detektion als Analogsignal, einer Sprache, welche angekündigt wird in einem Flughafen einem Bahnhof, einem Fahrzeug wie einem Flugzeug, wie einem Bus, einer U-Bahn, einem Taxi oder ähnlichem oder in einem Aussichtsgebäude, in einer Umgebungsgesprächsprache oder einer Sprache, die an einem Vorlesungsort gesprochen wird. Bezugszeichen 1203 bezeichnet ein Vielrichtungsmikrofon, welches dazu verwendet wird, Umgebungsgeräusche (d.h. Hintergrundumgebungs-) aus der Sprache zu entfernen, die angesagt wird in einem Flughafen oder Bahnhof, in einem Fahrzeug wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem oder in einem Aussichtsgebäude, in einer Umgebungsgesprächssprache oder einer Sprache, die an einem Vorlesungsort gesprochen wird, und zur Erfassung des Gesamtgeräusches an einem Ort, wenn es dort keine Zielsprache gibt. Bezugszeichen 1204 bezeichnet eine Schallausgabeeinheit zur Ausgabe der übersetzten Sprache, so dass der Benutzer sie hören kann und sie umfasst einen Lautsprecher oder einen Ohrhörer. Bezugszeichen 1205 bezeichnet eine Anzeige zur Anzeige des Inhalts des Übersetzungsergebnisses. Bezugszeichen 1206 bezeichnet eine IC-Karte, in welcher die akustische Modellspeichereinheit 819, das Wörterbuch 820, das grammatikalische Wörterbuch 821, das Wörterbuch für Worte 830 und das Wörterbuch für Sätze 831 zur Spracherkennung und Übersetzung installiert sind. Bezugszeichen 1207 bezeichnet eine IC-Karte, in welcher das Wörterbuch 834, das Wörterbuch für Sätze 835 und das Lautwörterbuch 836 zur Spracherkennung und Übersetzung installiert sind.
13 zeigt ein Beispiel eines Anzeigeinhalts, der durch Spracherkennung und Übersetzung durch das tragbare Erkennungs- und Übersetzungsgerät erhalten wird. In 13 bezeichnet Bezugszeichen 1301 einen Anzeigebereich des tragbaren Übersetzungsgerätes. Ein Spracherkennungsergebnis welches durch Erkennung einer Sprache, welche in einem Flughafen oder Bahnhof, in einem Fahrzeug wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem oder einem Aussichtsgebäude angekündigt wird, in einer Umgebungsgesprächssprache, oder Sprache, welche an einem Vorlesungsort gesprochen wird und erhalten wird und direkt die erkannte Sprache in der Muttersprache des Benutzers darstellt, wird in einer Buchstabenweise auf einem Teilbereich 1302 des Anzeigebereichs 1301 angezeigt. Ferner wird ein Übersetzungsergebnis in einer Zeichenart auf einem Teilbereich 1303 angezeigt. In diesem Fall wird z.B. eine arabische Stimme ein englisches Wort oder einen Satz übersetzten. Zusätzlich wird ein Teilbereich 1304 auf dem Anzeigebereich 1301 bereitgestellt, um Informationen über die Überset zung anzuzeigen, wie eine Wahrscheinlichkeit der Übersetzung, eine Übersetzungserfolgsrate oder ähnliches. In diesem Fall wird die Übersetzungserfolgsrate auf dem Teilbereich 1304 angezeigt. Zusätzlich zu der Übersetzungserfolgsrate kann Information über die Art der Originalsprache vor der Übersetzung auf dem Teilbereich 1304 angezeigt werden.
Gemäß dieser Ausführungsform kann ein Spracherkennungs- und Übersetzungssystem bereitgestellt werden, welches dazu geeignet ist, zur Verwendung bei der Erkennung und Übersetzung einer Sprache, welche in einem Flughafen, einen Bahnhof, einem Fahrzeug wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem, oder einem Aussichtsgebäude, einer Umgebungsgesprächssprache, oder eine Stimme, welche an einem Vorlesungsort gesprochen wird, angesagt wird.
Die vorliegende Erfindung ist nicht auf die obigen Ausführungsformen beschränkt und verschiedene Veränderungen können durch Fachleute im Bereich des Gegenstandes dieser Erfindung durchgeführt werden. Es ist nicht notwendig zu sagen, dass jegliche solcher Veränderungen, die derartig durchgeführt werden, durch die vorliegende Erfindung eingeschlossen sind.
Zum Beispiel umfasst in der ersten Erfindung das Zeichen (Dokumenten) Erkennungs- und Übersetzungssystem das Erkennungssystem 101, das Lernsystem 102 und das Übersetzungssystem 103, jedoch können das Erkennungssystem 101 und das Übersetzungssystem 103 auf einer kompakten Vorrichtung, wie einem tragbaren Übersetzungsgerät montiert werden, während das Lernsystem 102 an einer Vorrichtung montiert werden kann, welche eine Speichervorrichtung mit relativ großer Kapazität besitzt, wie einem Personalcomputer oder ähnlichem. In diesem Fall, sind der Personalcomputer und das tragbaren Übersetzungsgerät miteinander verbunden, und das Erkennungssystem und das Lernsystem werden betätigt, um Daten von der Maskenlerneinheit 117 des Lernsystems 102 in die Maskenspeichereinheit 111 des Erkennungssystems 101 einzuspeisen. Demgemäß werden die benötigten Daten in der Muster-Maskenspeichereinheit 111 des Erkennungssystems 101 gespeichert, wobei das tragbare Übersetzungsgerät frei verwendet werden kann. Alternativ kann der Personalcomputer mit wenigstens einer Zeichendatenbasis 115 ausgestattet werden, während die anderen aufbauenden Elemente im tragbaren Übersetzungsgerät bereitgestellt werden, welches lösbar mit dem Personalcomputer verbunden sein kann.
Ferner, umfasst in der zweiten Ausführungsform des Spracherkennungs- und Übersetzungssystems das Erkennungssystem 801, das Lernsystem 823 und das Übersetzungssystem 828. Von diesen Elementen, können das Erkennungssystem 801 und das Übersetzungssystem 828 in einer Vorrichtung mit kompakten Abmessungen, wie einem tragbaren Übersetzungsgerät, bereitgestellt werden, während das Lernsystem 823 in einer Speichereinrichtung von relativ großer Kapazität, wie einem Personalcomputer, bereitgestellt wird. In diesem Fall, sind der Personalcomputer und das tragbare Übersetzungsgerät miteinander verbunden und das Erkennungssystem 801 und das Lernsystem 823 werden so betätigt, dass sie die Daten der Modelllerneinheit 826 des Lernsystems 823 der akustischen Modellspeichereinheit 819 des Erkennungssystems 101 zuführen. Demgemäß werden die benötigen Daten in der akustischen Modellspeichereinheit 819 des Erkennungssystems 801 gespeichert, wobei das tragbare Übersetzungsgerät frei eingesetzt werden kann. Alternativ kann wenigstens eine Lautdatenbasis 824 auf dem Personalcomputer bereitgestellt werden, während andere aufbauende Teile im tragbaren Übersetzungsgerät bereitgestellt werden, welches lösbar mit dem Personalcomputer verbunden ist.
Ferner bedeutet in dieser Beschreibung "Mittel" nicht notwendigerweise ein physikalisches Mittel, aber kann Software umfassen, welche die Funktion jedes Mittels erzielt. Ferner kann die Funktion eines Mittels oder Bauteils durch zwei oder mehrere physikalische Mittel oder Bauteile erreicht werden, oder die Funktionen von zwei oder mehreren Mitteln oder Bauteilen kann durch ein Mittel oder Bauteil erreicht werden.

Claims

Erkennungs- und Übersetzungssystem zur Erkennung einer gesprochenen Sprache und Übersetzung der Sprache in Worte oder Sätze, umfassend: einen Sprachspeicher (809) zur Speicherung von Sprachdaten, welche eine Sprache verkörpern; eine Rauschlöscheinheit (812) zum Entfernen von Rauschdaten, welche einem Rauschen aus den Sprachdaten entsprechen; eine Lautdatenbasis (824) zum Speichern der Sprachdaten, aus welchen die Rauschdaten durch die Rauschlöscheinheit entfernt wurden, und der Rauschdaten; eine erste Lautanalyseeinheit (825) zur Extraktion eines Merkmals der Sprache, welches den Sprachdaten entspricht, die in der Lautdatenbasis (824) gespeichert sind und zur Extraktion eines Merkmals des Rauschens, welches den Rauschdaten entspricht, die in der Lautdatenbasis gespeichert sind; eine Modelllerneinheit (826) zur Erzeugung eines akustischen Modells aus dem Merkmal der Sprache und dem Merkmal des Rauschens, welches durch die Lautanalyseeinheit (825) extrahiert wurde; eine akustische Modellspeichereinheit (819) zum Speichern einer Vielzahl von den akustischen Modellen, die durch die Modelllerneinheit (826) erzeugt wurden; eine zweite Lautanalyseeinheit (815) zur Extraktion eines Merkmals einer Sprache, die übersetzt werden soll und zur Extraktion eines Merkmals von Rauchen aus der Sprache, die übersetzt werden soll; eine Sprachzuordnungseinheit (817) zur Auswahl eines akustischen Modells aus einer Vielzahl von akustischen Modellen, welche in der akusti schen Modellspeichereinheit (819) gespeichert sind, basierend auf dem Merkmal des Rauschens extrahiert durch die zweite Lautanalyseeinheit (815) und zur Zuordnung des Merkmals der Sprache, welche durch die zweite Lautanalyseeinheit (815) extrahiert wurde zu dem ausgewählten akustischen Modell zur Erkennung der Sprache; und eine Übersetzungseinheit (828) zur Übersetzung von Worten oder Sätzen, welche aus der Sprache zusammengesetzt sind, die durch die Sprachzuordnungseinheit (817) erkannt wurde.
Spracherkennungs- und Übersetzungssystem nach Anspruch 1, wobei das Spracherkennungs- und Übersetzungssystem eine stationär angebrachte Informationsausrüstung (823) umfasst, welche eine externe Speichervorrichtung, und eine transportierbare Informationsausrüstung (801, 828, 1201) hat, welche lösbar mit der Informationsausrüstung (823) von stationärer Anbringungsbauart verbunden ist und wobei die Lautdatenbasis (824), die erste Lautanalyseeinheit (825) und die Modelllerneinheit (826) durch die Informationsausrüstung (823) von stationärer Bauart bereitgestellt werden, wobei die externe Speichereinrichtung (823) die Lautdatenbasis (824) enthält und alle weiteren aufbauenden Elemente durch die tragbare Informationsausrüstung (801, 828, 1201) bereitgestellt werden.
Spracherkennungs- und Übersetzungssystem nach Anspruch 1 oder 2, wobei der Speicher (809) daran angepasst ist erste Sprachdaten (806) zu speichern, welche einer ersten Sprache entsprechen, in welcher ein Umgebungsrauschen einer Zielsprache überlagert ist, welche erkannt und übersetzt werden soll und zweite Sprachdaten (807) entsprechend einer zweiten Sprache, zusammengesetzt aus dem Umgebungsrauschen.
Spracherkennungs- und Übersetzungssystem nach Anspruch 3, wobei die Rauschlöschungseinheit erste Sprachspektraldaten der ersten Sprachdaten (806) mit zweiten Sprachspektraldaten der zweiten Sprachdaten (807) vergleicht, um Spektraldaten zu erhalten, aus denen das Rauschen entfernt ist.
Spracherkennungs- und Übersetzungssystem nach Anspruch 4, wobei die Lautdatenbasis (824) erste Spektraldaten und zweite Spektraldaten speichert, während sie dieselben einander zuordnet.
Spracherkennungs- und Übersetzungssystem nach Anspruch 5, wobei die akustische Zuordnungseinheit (817) die Spektraldaten des Rauschens von Umgebungsrauschen den Rauschdaten eines akustischen Modells (819) zuordnet, welche auf der Basis der zweiten Spektraldaten erhalten werden, wobei diese Daten zuvor an einem Ort erhalten wurden, wo eine Sprache, eingegeben wird, die erkannt und übersetzt werden soll, dabei die Art des Rauschens erkennend, und die Sprachedaten der Sprache, welche erkannt werden und übersetzt werden soll den Daten des akustischen Modells (819) der ersten Sprachdaten zuordnet, welches nach der Art des Rauschens bestimmt wird, dadurch die Sprache erkennend.
Spracherkennungs- und Übersetzungssystem nach irgendeinem der vorhergehenden Ansprüche, wobei ein Ergebnis, welches durch die Übersetzungseinheit (828) erhalten wird, wenigstens in Form von Buchstaben durch eine Anzeigevorrichtung (839) ausgegeben wird und ein original Sprachtext bestehend aus Worten oder Sätzen vor der Übersetzung (1302) und Sprachtext bestehend aus Worten und Sätzen nach der Übersetzung (1303) auf dem Schirm (1301) der Anzeigevorrichtung angezeigt werden.
Spracherkennungs- und Übersetzungssystem nach Anspruch 7, wobei das Ergebnis wenigstens die Übersetzungsrate (1304), welche die Genauigkeit der Übersetzung angibt, oder die Art der Sprache enthält.
Spracherkennungs- und Übersetzungssystem nach irgendeinem der vorhergehenden Ansprüche, wobei das Spracherkennungs- und Übersetzungssystem eine Informationsausrüstung von der Bauart stationärer Anbringung umfasst, welches eine externe Speichervorrichtung beinhaltet und eine tragbare Informationsausrüstung (1201), welche lösbar mit der Informationsausrüstung stationärer Bauart verbunden ist, und wobei wenigstens die Lautdatenbasis (824) auf jener externen Speichervorrichtung der Informationsausrüstung von stationärer Bauart bereitgestellt ist, während alle verbleibenden aufbauenden Elemente an der tragbaren Informationsausrüstung bereitgestellt werden.