DE10128882A1

DE10128882A1 - Sprachsynthesesystem, Sprachsynthesemethode, Server, Speichermedium, Programmübertragungsgerät Sprachsynthese-Daten-Speichermedium und Sprachausgabevorrichtung

Info

Publication number: DE10128882A1
Application number: DE10128882A
Authority: DE
Inventors: Hideo Sakai
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-06-26
Filing date: 2001-06-15
Publication date: 2002-02-28
Also published as: US20020055843A1; US6983249B2; JP2002023777A

Abstract

Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachsynthesesystem, eine Sprachsynthese-Methode, einen Server, ein Speichermedium, ein Programmübertragungsgerät, ein Sprachsynthesedaten-Speichermedium, und eine Sprachausgabevorrichtung vorzusehen, zum Erstellen einer Synthesesprachmeldung, die mit dem Geschmack eines Kunden übereinstimmt. DOLLAR A Gemäß einer Order von einem Kunden 3, die über ein Netzwerk 5 eingegangen ist, generiert ein Diensterbringer 1 Sprachsynthese-Daten auf der Grundlage von Sprachcharakteristikdaten für einen Sprecher, der von Kunden 3 gewählt wird, die für eine Satzeingabe vom Kunden 3 erzeugt werden, und bereitet die Lieferung der Sprachsynthese-Daten an den Kunden 3 vor. Zu diesem Zeitpunkt wird eine Transaktions-ID für die vom Kunden 3 her eingegangene Order vorgesehen, und anschließend, wenn die Transaktions-ID vom Kunden 3 vorgelegt wird, werden die generierten Sprachsynthese-Daten an den Kunden 3 geliefert. Der Kunde 3 lädt dann die erhaltenen Sprachsynthese-Daten in eine Vorrichtung 100, die den gesprochenen Satz reproduziert.

Description

Detaillierte Beschreibung der Erfindung Bereich der Erfindung

Die vorliegende Erfindung betrifft ein Sprachsynthesesystem zum Ermöglichen einer Transaktion über ein Netzwerk von Sprachsynthese-Daten, die durch Synthetisieren der Sprache einer bestimmten Persönlichkeit erhalten werden, sowie eine Sprachsynthese-Methode, einen Server, ein Speichermedium, ein Programmübertragungsgerät, ein Sprachsynthesedaten- Speichermedium und eine Sprachausgabevorrichtung dafür.

Der Erfindung zugrundeliegender allgemeiner Stand der Technik

Verschiedene Erzeugnisse, wie z. B. ein Spielzeug, ein Wecker und ein tragbares Fernsprech-Endgerät sind derzeit erhältlich, in denen die Stimmen bestimmter Persönlichkeiten eingebaut sind, wie z. B. von Berühmtheiten wie z. B. von Sängern und Politikern, oder von Persönlichkeiten, die in Fernsehshows oder in Filmen auftreten. Diese Produkte sind so konstruiert, dass beim Durchführen einer bestimmten Operation eine Meldung unter Benutzung der Sprache einer bestimmten Persönlichkeit ausgegeben wird. Das erhöht den Wert des Erzeugnisses.

Durch die Erfindung zu lösende Aufgaben

Herkömmlicherweise sind jedoch die Daten nur für vorherbestimmte Sätze unter Verwendung der Sprache einer bestimmten Persönlichkeit vom Hersteller der Vorrichtung im Produkt gespeichert, und der Wortlaut der Botschaften kann vom Käufer (Kunden) nicht verändert oder gemäß seinem Geschmack formuliert werden.

Gemäß neuesten Entwicklungen in der Sprachsynthesetechnik können Daten zur Wiedergabe von Sprachmerkmalen erzeugt werden, wie z. B. Sprachqualität und Prosodie, die einzigartig für die Sprache einer bestimmten Persönlichkeit sind, so dass diese Daten bei Anwendung auf einen eingegebenen Satz dazu verwendet werden können, eine Botschaft unter Verwendung einer synthetisierten Sprache zu generieren, die der Sprache der bestimmten Persönlichkeit sehr ähnlich ist.

Dabei gibt es kein besonderes Problem, wenn diese Technik von einem Vorrichtungshersteller angewandt wird, weil das Verfahren, mit dem Gebühren für das Verwenden einer urheberrechtlich geschützten Sprache einer bestimmten Persönlichkeit erhoben und bezahlt werden, vertraglich geregelt werden kann. Wenn aber die obige Technik beispielsweise als Software an einen Anwender (Käufer) weitergegeben (verkauft) wird und es damit dem Anwender möglich wird, sprachsynthetische Botschaften frei zu generieren, bleibt in diesem Fall das Verfahren unklar, durch das Gebühren für urheberrechtlich geschütztes Material, das einer bestimmten Persönlichkeit gehört, berechnet und bezahlt werden.

Zum Lösen dieses technischen Problems ist es eine Aufgabe der vorliegenden Erfindung, zum Erstellen von Sprachsynthesemeldungen, die dem Geschmack von Kunden entsprechen, ein Sprachsynthesesystem und eine Sprachsynthese-Methode, einen Server, ein Speichermedium, ein Programmübertragungsgerät, ein Sprachsysnthesedaten- Speichermedium und eine Sprachausgabevorrichtung bereitzustellen.

Eine weitere Aufgabe der vorliegenden Erfindung ist es, sicherzustellen, dass eine Gebühr für die Anwendung einer urheberrechtlich geschützten Sprache einer bestimmten Persönlichkeit geleistet wird und die Rechte dieser Persönlichkeit geschützt werden.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein Diagramm, das eine Systemkonfiguration gemäß einer Ausführungsform der vorliegenden Erfindung illustriert.

Fig. 2 ist ein Diagramm, das die Serveranordnung eines Diensterbringers illustriert.

Fig. 3 ist ein Diagramm, das eine Sprachsynthesedaten- Generierungsmethode zeigt, die vom Diensterbringer benutzt wird.

Fig. 4 ist ein Flussdiagramm, das die ausgeführte Bearbeitung zeigt, wenn eine Kunde eine Order für Sprachsynthese-Daten ausgibt.

Fig. 5 ist ein Flussdiagramm, das die ausgeführte Verarbeitung zeigt, um Sprachsynthese-Daten zu generieren.

Fig. 6 ist ein Flussdiagramm, das die ausgeführte Bearbeitung zeigt, wenn die georderten Sprachsynthese-Daten an den Kunden ausgeliefert werden.

Fig. 7 ist ein Diagramm, das eine Systemkonfiguration für eine andere Ausführungsform zeigt.

Zusammenfassung der Erfindung

Zur Lösung der obigen Aufgaben umfasst ein erfindungsgemäßes Sprachsynthesesystem: Ein Endgerät, das von einem Kunden benutzt wird, um aus einer Reihe dem Kunden bereitgestellter Sprecher einen bestimmten Sprecher auszuwählen, und Textdaten vorzulegen, für die die Sprachsynthese ausgeführt werden soll; einen Server für einen Diensterbringer zum Anwenden der Sprachcharakteristikdaten für den bestimmten Sprecher, um die Sprachsynthese für die vom Kunden eingegebenen Textdaten durchzuführen. Mit dieser Konfiguration kann der Kunde Sprachsynthese-Daten für Meldungen oder Lieder ordern und erhalten, die mit der Sprache eines bestimmten Sprechers erzeugt wurden, z. B. einer Berühmtheit wie ein Sänger oder ein Politiker, oder eine Persönlichkeit, die in einer Fernsehshow oder in einem Film auftritt. Durch Anwenden der erhaltenen Sprachsynthese- Daten kann der Anwender je nach seinen persönlichen Präferenzen eine Alarmmeldung für einen Wecker einstellen, ein Klingeln (Meldung) durch eine Antwortmeldung für ein tragbares Fernsprech-Endgerät ersetzen, oder um eine Führung für ein Kfz-Navigationssystem vorsehen, Führungsmeldungen hinzusetzen oder verändern.

Der Server eines Diensterbringers gibt eine Transaktionsnummer an einen Kunden aus, und wenn die Transaktionsnummer vom Endgerät des Kunden übermittelt wird, gibt der Server seinerseits die Sprachsynthese-Daten an das Endgerät des Kunden aus. Daher werden die Sprachsynthese- Daten nur an den Kunden übertragen, der die Daten geordert hat. Das heißt, die generierten Sprachsynthese-Daten sind Daten, die nie an eine andere Person als an den Kunden übertragen werden.

Gemäß der vorliegenden Erfindung schickt ein Diensterbringer über ein Netzwerk eine Sprecherliste an einen entfernt liegenden Anwender, und ein Kunde wählt einen der Sprecher aus der Liste aus und überträgt den ausgewählten Sprecher und die Textdaten für die die Stimmensynthese durchgeführt werden soll, über das Netzwerk an den Diensterbringer. Der Diensterbringer benutzt dann die Sprachcharakteristikdaten für den vom Kunden ausgewählten Sprecher, um die Sprachsynthese mit den Textdaten durchzuführen. Als Ergebnis kann der Diensterbringer eine Order zur Sprachsynthese über ein Netzwerk, wie z. B. das Internet, erhalten.

Ein "entfernt liegender Anwender" ist ein Ziel, an das über ein Netzwerk ein Diensterbringer eine Sprecherliste schicken kann. Zum Beispiel kann auf viele Homepages auf dem Internet zugegriffen werden und Daten davon können von einer riesigen nichtspezifizierten Anzahl Leute aufgenommen werden, die kollektiv als "entfernt liegende Anwender" bezeichnet werden. Es muss jedoch darauf hingewiesen werden, dass eine Person, die auf einen Diensterbringer zugreift, nicht immer Sprachsynthese-Daten anfordert, und dass ein "entfernt liegender Anwender" nicht immer ein "Kunde" wird.

Ein Diensterbringer berechnet einen Preis für die Produktion von Daten durch Verwendung der Sprachsynthese, und nachdem eine Kundenquelle den berechneten Preis bezahlt hat, überträgt sie die Sprachsynthese-Daten an den Kunden. Hier ist "Kundenquelle" ein einzelner Kunde oder ein Geldinstitut, mit dem ein Kunde einen Vertrag hat.

Anschließend bezahlt der Diensterbringer eine Gebühr in Übereinstimmung mit den durch Sprachsynthese generierten Daten an die Person, dessen Eigentum, die Sprachcharakteristikdaten vom Diensterbringer für den Sprachsynthetisierungsprozess benutzt werden, d. h. eine Gebühr wird an den Urheberrechtsinhaber (eine spezifische Person oder ein Leiter) geleistet, der die Sprachquelle für eine bestimmte Persönlichkeit ist, zum Beispiel eine Berühmtheit wie ein Sänger oder ein Politiker, oder eine Persönlichkeit, die in einer Fernsehshow oder in einem Film auftritt. Auf diese Weise ist die Leistung einer Gebühr oder einer Lizenzabgabe für das Recht zur Benutzung des betreffenden urheberrechtlich geschützten Materials sichergestellt.

Zusätzlich kann, sobald der Kunde die vom Diensterbringer erhaltenen Sprachsynthese-Daten in eine Vorrichtung eingibt, auf der Grundlage der angeforderten Sprachsynthese-Daten eine Sprache ausgegeben werden.

Der Diensterbringer kann auf der Grundlage der vom Kunden ausgewählten Sprachcharakteristikdaten Sprachsynthese-Daten generieren und die vom Kunden ausgewählten Sprachcharakteristikdaten können in eine vom Kunden ausgewählte Vorrichtung eingegeben werden. Auf diese Weise kann der Diensterbringer die gewünschten Kundensprachsynthese-Daten durch Laden in eine Vorrichtung liefern.

Gemäß der vorliegenden Erfindung umfasst ein Server: Eine Sprachcharakteristikdaten-Speichereinheit zum Speichern der Sprachcharakteristikdaten, die durch Analysieren der Sprachen der Sprecher erhalten wurden; eine Anforderungsaufnahmeeinheit zum Aufnehmen einer von einem Kunden über ein Netzwerk übertragenen Anforderung, die Textdaten beinhaltet, die von Kunden eingegeben wurden, und einen vom Kunden gewählten Sprecher; und einen Sprachsynthesedaten-Generator zum Durchführen der Sprachsynthese in Übereinstimmung mit der vom Kunden übermittelten Anforderung für die Textdaten auf der Grundlage der Sprachcharakteristikdaten für den gewählten Sprecher.

Für jeden Sprecher speichert die sprachcharakteristische Datenspeichereinheit als sprachcharakteristische Daten Sprachqualitätsdaten und Prosodie-Daten.

Der Server kann ferner umfassen: Eine Preisbestimmungseinheit zum Festsetzen eines Preises für die Sprachsynthese-Daten, die aufgrund der Anforderung seitens des Kunden produziert werden.

Gemäß der vorliegenden Erfindung ist ein Speichermedium vorgesehen, auf das ein Eingabemittel eines Computers ein computerlesbares Programm speichert, das dem Computer das Durchführen der folgenden Aufgaben ermöglicht: Einen Prozess zum Akzeptieren einer Anforderung von einem fernliegenden Anwender zum Generieren von Sprachsynthese-Daten; einen Prozess zum Generieren und Ausgeben einer Transaktionsnummer gemäß der Anforderung; und einen Prozess zum Ausgeben von Sprachsynthese-Daten bei Eingang der Transaktionsnummer, die mit der Anforderung übereinstimmen.

Das Programm lässt den Computer ferner durchführen: Einen Prozess zum Anhängen von Überprüfungsdaten an die Sprachsynthese-Daten, die den Inhalt der Sprachsynthese- Daten überprüfen. Auf diese Weise kann die rechtswidrige Generierung oder Kopierung der Sprachsynthese-Daten verhindert werden. Die angehängten Überprüfungsdaten können jede Form annehmen, wie z. B. für ein elektronisches Wasserzeichen. In diesem Fall sind die zu überprüfenden Inhalte z. B. die Quelle der Sprachsynthese-Daten oder der Nachweis, dass eine rechtmäßige Freigabe vom Urheberrechtsinhaber der Sprachquelle erhalten wurde.

Ein Programm gemäß der vorliegenden Erfindung ermöglicht es, dass der Computer durchführt: Einen Prozess zum Akzeptieren einer externen Anforderung, die Textdaten und einen Sprecher für die Sprachsynthese beinhaltet; und einen Prozess zum Verwenden von Sprachcharakteristiken gemäß der Anforderung, unter Verwendung von Sprachcharakteristikdaten entsprechend dem ausgewählten Sprecher zum Ausführen der Sprachsynthese unter Verwendung der Textdaten.

Entsprechend der vorliegenden Erfindung umfasst ein Programmübertragungsgerät: Speichermittel zum Speichern eines computerlesbaren Programms; und Übertragungsmittel zum Lesen des Programms vom Speichermittel und zum Übertragen des Programms, das dem Computer die folgende Durchführung erlaubt: Einen Prozess zur Ausgabe einer Liste mehrfacher, im Computer gespeicherter, sprachcharakteristischer Datensätze, an einen Kunden; und einen Prozess zum Ausgeben von beim Anwenden der Sprachcharakteristikdaten erhaltenen Sprachsynthesedaten an einen Kunden, die vom Kunden aus einer Liste ausgewählt werden, zum Durchführen von Sprachsynthese der vom Kunden eingegebenen Textdaten.

Die vorliegende Erfindung kann als Sprachsynthesedaten- Speichermedium vorgesehen werden, auf dem Sprachsynthese- Daten gespeichert sind, die durch einen Diensterbringer gemäß einer vom Kunden gemachten Auswahl generiert werden. Das Sprachsynthesedaten-Speichermedium kann variiert werden, und kann ein Medium sein, wie z. B. eine flexible Diskette, eine CD-ROM, ein DVD-Bildplatte, ein Speicher-Chip oder eine Festplatte. Die Sprachsynthese-Daten, die auf einem solchen Sprachsynthesedaten-Speichermedium gespeichert sind, müssen nur auf eine Vorrichtung übertragen werden, wie z. B. auf einen Computer, ein tragbares Fernsprech-Endgerät oder ein Kfz-Navigationssystem, und die Vorrichtung braucht nur eine Sprache auf der Grundlage der erhaltenen Sprachsynthese- Daten auszugeben. Wenn ein tragbarer Speicher als Sprachsynthesedaten-Speichermedium angewandt wird, kann die vorliegende Erfindung angewandt werden, wenn ein Diensterbringer Sprachsynthese-Daten mit dem Kunden austauscht. Ferner umfasst erfindungsgemäß eine Sprachausgabevorrichtung: Eine Speichereinheit zum Speichern von Sprachdaten, die von einem Diensterbringer auf der Grundlage des benannten Sprechers generiert wurden und Textdaten, die vorgelegt wurden, und eine Sprachausgabeeinheit zum Ausgeben einer Sprache auf der Grundlage der Sprachsynthese-Daten, die in der Speichereinheit gespeichert sind. Diese Sprachausgabevorrichtung kann ein Spielzeug, ein Wecker, ein tragbares Fernsprech-Endgerät, ein Kfz-Navigationssystem oder eine Sprachabspielvorrichtung wie z. B. ein Speicherabspieler, sein, in die die Sprachsynthese-Daten geladen (eingegeben) werden können.

Bevorzugte Ausführungsform

Die vorliegende Erfindung wird jetzt detailliert während einer Erklärung der gegebenen bevorzugten Ausführungsform anhand der begleitenden Zeichnungen beschrieben.

Fig. 1 ist ein Diagramm zur Erklärung einer Systemkonfiguration gemäß der Ausführungsform. Ein Diensterbringer 1, der Sprachsynthese-Daten bereitstellt, dient als Web-Server für das System gemäß der Ausführungsform, und ein Rechtsinhaber 2, der ein Recht (Urheberrecht oder dergl.) als Eigentum hat oder verwaltet, steuert die Anwendung einer Sprache, deren Quelle z. B. eine Berühmtheit wie z. B. ein Sänger oder ein Politiker, oder aber eine Persönlichkeit ist, die in einem Fernsehprogramm oder in einem Film auftritt. Der Diensterbringer 1 und der Rechtsinhaber 2 haben sich vorher abgesprochen wegen der Genehmigung der Anwendung von Sprachdaten und der Bedingungen, unter denen Lizenzzahlungen geleistet werden, wenn diese Sprachdaten benutzt werden. Ein Kunde 3 (ein Fernanwender oder eine Kundenquelle) ist ein Käufer, der Sprachsynthese-Daten zu kaufen wünscht. Ein Geldinstitut 4 (Kundenquelle) hat über die Bedingungen mit dem Diensterbringer 1 verhandelt und ist z. B. eine Kreditkartengesellschaft oder eine Bank, die einen sofortigen Begleichungsdienst unterhält, wie er z. B. mit einer Guthabenkarte vorgesehen ist. Ein Netzwerk 5, wie das Internet, ist an den Diensterbringer 1, der ein Web-Server ist, und an den Kunden 3, der ein Web-Endgerät ist, angeschlossen.

Das Web-Endgerät des Kunden 3 ist z. B. ein PC, auf dem Software, wie z. B. ein Web-Browser, verfügbar ist und die Homepage des Diensterbringers 1 browsen und den Bildschirm einer Anzeigeeinheit zum Sichtbarmachen von empfangenen Informationseinheiten benutzen kann. Ferner beinhaltet das Web-Endgerät Eingabemittel, wie z. B. eine Zeigervorrichtung oder eine Tastatur, zum Eingeben verschiedener Daten oder Geldwerte auf dem Bildschirm.

Das Geldinstitut 4 ist über ein Netzwerk 5 oder ein anderes Netzwerk an den Diensterbringer 1 angeschlossen, um den Austausch von Informationen mit dem Diensterbringer 1 zu ermöglichen. Das Geldinstitut 4 und der Kunde 3 haben auch schon vorher einen Vertrag geschlossen.

In dieser Ausführungsform liefert der Diensterbringer 1 bei Eingang einer Order vom Kunden 3 Sprachsynthese-Daten für die Ausgabe (Freigabe) eines Texts, den der Kunde 3 vorgelegt hat, unter Verwendung der Sprache einer bestimmten Persönlichkeit (nachstehend als Sprecher bezeichnet), die vom Kunden 3 benannt wurde.

Fig. 2 ist ein Blockschaltbild, das die Server-Konfiguration des Diensterbringers 1 darstellt, die ein Web-Server ist. In Fig. 2 tauscht ein HTTP-Server 11, der als Übertragungs/Empfangseinheit für das Netzwerk 5 benutzt wird, und Daten über das Netzwerk 5 mit einem externen Web- Endgerät aus. Dieser HTTP-Server 11 umfasst im großen und ganzen: Einen Kundenverwaltungsblock 20 zum Durchführen eines Prozesses bezüglich der Kundeninformationen; einen Order/Zahlungs/Liefer-Block 30 zum Bearbeiten von Aufträgen und Zahlungen, die vom Kunden 3 eingehen, und zum Durchführen von Lieferungen an den Kunden 3; einen Lizenzbearbeitungsblock 40 zum Durchführen eines Prozesses auf der Grundlage eines Vertrags, der Lizenzzahlungen an den Rechtsinhaber 2 regelt; einen Inhaltbearbeitungsblock 50 zum Durchführen eines Prozesses zum Generieren von Sprachsynthese-Daten; und einen Sprachsynthesedaten- Generierungsblock 60 zum Generieren von Sprachsynthese-Daten bei Eingang einer Order vom Kunden 3. Zum Übertragen von Geld für Verrechnungs- und Lizenzzahlungen bezüglich eines Prozesses, der für den Kunden 3 durchgeführt wird, enthält der HTTP-Server 11 ferner einen Zahlungs-Gateway 70 und einen Lizenz-Gateway 75. Der HTTP-Server 11 ist über den Zahlungs-Gateway 70 und den Lizenz-Gateway 75 mit einem Lizenzzahlungssystem 80 und einem Kreditkartensystem 90 verbunden, die vom Diensterbringer 1 außerhalb des Servers vorgesehen sind.

Der HTTP-Server 11 umfasst auch einen Bildschirmdatengenerator 13, der Daten empfängt, die vom Kunden 3 eingegeben werden, und der die Daten je nach Typ auf die einzelnen Sektionen des Servers 11 verteilt. Ferner kann der Bildschirmdatengenerator 13 Bildschirmdaten auf der Grundlage von Daten generieren, die von den einzelnen Abschnitten des Servers 11 her eingehen.

Der Kundenverwaltungsblock 20 umfasst eine Kundenverwaltungseinheit 21 und eine Kundendatenbank (DB) 22. Die Kundenverwaltungseinheit 21 speichert in die DB 22 Informationen ein, die vom Kunden 3 her erhalten werden, wie z. B. Name, Adresse und E-Mail-Adresse des Kunden 3, und ruft ggf. die gespeicherten Informationen von der Kunden-DB 22 ab.

Der Order/Zahlungs/Liefer-Block 30 umfasst einen Order- Prozessor (Anforderungsempfänger) 31, einen Zahlungs- Prozessor (Preisfestsetzeinheit) 32, einen Liefer-Prozessor 33, eine Order/Zahlungs/Liefer-DB 34 und einen Liefer-Server 35.

Der Order-Prozessor 31 speichert den Inhalt einer vom Kunden 3 eingereichten Order in der Order/Zahlungs/Liefer-DB 34, und gibt eine Anweisung an den Inhaltsbearbeitungsblock 50 aus, Sprachsynthese-Daten auf der Grundlage der Order zu generieren.

Der Zahlungs-Prozessor 32 berechnet einen entsprechenden Preis für die vom Kunden 3 erhaltene Order unter Benutzung von Preisangaben, die im voraus in der Order/Zahlung/Liefer- DB 34 gespeichert wurden, und gibt den Preis aus. Ferner speichert der Zahlungs-Prozessor 32 in der Order/Zahlungs/Liefer-DB 34 Informationen bezüglich der Zahlung, wie z. B. Kreditkarteninformationen, die vom Kunden 3 angegeben wurden. Zusätzlich fordert der Zahlungs- Prozessor 32 durch den Zahlungs-Gateway 70 und das Kreditkartensystem 90, die vom Server 11 getrennt sind, vom Geldinstitut 4 die Überprüfung der Kreditkarteninformationen, die vom Kunden 3 angegeben wurden, leistet den berechneten Preis an das Geldinstitut 4 und bestätigt, dass vom Geldinstitut 4 die Zahlung eingegangen ist.

Der Liefer-Prozessor 33 verwaltet einen Zeitplan für durchzuführende Prozesse, und gibt ihn aus, bis die bei Eingang der Order des Kunden 3 generierten Sprachsynthese- Daten bereit zur Lieferung sind, gibt die URLs (Uniform Resource Locators) aus, die für den Kunden 3 erforderlich sind, damit er die Sprachsynthese-Daten empfangen kann, und generiert eine Transaktions-ID (Kennung) für die vom Kunden 3 erhaltene Order und gibt sie aus. Der Informationsausgang durch den Liefer-Prozessor 33 an den Kunden 3 wird ggf. in der Order/Zahlungs/Liefer-DB 34 gespeichert.

Der Lizenzbearbeitungsblock 40 umfasst einen Lizenz- Prozessor 41 und eine Lizenzvertrag-DB 42. Daten für den Lizenzvertrag mit dem Urheberrechtsinhaber 2 sind in der Lizenzvertrag-DB 42 gespeichert, und aufgrund dieser Daten berechnet der Lizenz-Prozessor 41 eine Urheberrechtszahlung in Übereinstimmung mit der Order, die vom Kunden 3 her eingegangen ist, und über den Lizenz-Gateway 75 und das Lizenzzahlungssystem 80 zahlt er die Lizenzgebühr an den Urheberrechtsinhaber 2.

Der Inhaltsprozessblock 50 umfasst einen Inhalt-Prozessor (Sprachsynthesedaten-Generator) 51 und eine Inhalts-DB 52. Der Inhalt-Prozessor 51 speichert in der Inhalts-DB 52 die Informationen bezüglich des Inhalts der vom Order-Prozessor 31 her eingegangenen Order und den bezeichneten Sprecher und den Text, und gibt die Sprachsynthese-Daten, die vom Sprachsynthese-Daten-Generierungsblock 60 generiert wurden aus, wie später beschrieben wird.

Ferner wird eine Liste registrierter Sprecher (Sprachen) und Sprachmusterdaten für einen Teil oder alle diese Sprecher in der Inhalts-DB 52 gespeichert, und gemäß der vom Kunden 3 her eingegangenen Anforderung gibt der Inhalt-Prozessor 51 die bezeichneten Sprachmusterdaten aus.

Der Sprachsynthese-Daten-Generierungsblock 60 umfasst einen Sprachsynthesizer (Sprachsynthesedaten-Generator) 61 und eine Sprachcharakteristik-DB (Sprachcharakteristikdaten- Speichereinheit) 62. Die vorab gespeicherten Sprachdaten (Sprachcharakteristikdaten) für Sprecher sind in der Sprachcharakteristik-DB 62 gespeichert. Die Sprachdaten bestehen aus Sprachqualitätsdaten D1, die für die Qualität der Sprache jedes registrierten Sprechers benutzt werden, und den Prosodie-Daten D2, die für die Prosodie eines zugehörigen Sprechers benutzt werden. Die Sprachqualitätsdaten D1 und die Prosodie-Daten D2 für jeden Sprecher sind in der Sprachcharakteristik-DB 62 gespeichert.

Wie in Fig. 3 gezeigt ist, wird, um die in der Sprachcharaktersistik-DB 62 abgespeicherten Sprachdaten abzurufen, zunächst die Sprache einer Person beim Sprechen oder Singen oder aus einem Fernsehprogramm oder einem Film direkt aufgenommen, und aus der Aufnahme werden die Sprachquellendaten herausgezogen und gespeichert. Dann werden die Sprachquellendaten analysiert, um die Sprachcharakteristiken des Sprechers d. h., die Sprachqualität und die Prosodie zu gewinnen, und die herausgezogenen Sprachqualitäten und die Prosodie werden benutzt, um die Sprachqualitätsdaten D1 und die Prosodie- Daten D2 herzustellen.

Wie in Fig. 2 ersichtlich, umfasst der Sprach-Synthesizer 61 eine Textanalyse-Maschine 63 zum Analysieren eines Satzes; eine Synthetsizer-Maschine 64, zum Generieren der Sprachsynthese-Daten; eine Wasserzeichen-Maschine 65, zum Einbauen eines elektronischen Wasserzeichens in die Sprachsynthese-Daten; und eine Dateiformat-Maschine 66, um die Sprachsynthese-Daten zur Herstellung der Datei zu verändern.

Zum Generieren der Sprachsynthese-Daten extrahiert der Sprach-Synthesizer 61 aus der Inhalts-DB 52 zunächst Daten, die den in der Order des Kunden 3 genannten Sprecher anzeigen, zieht die Sprachdaten (die Sprachqualitätsdaten D1 und die Prosodie-Daten D2) für diesen Sprecher aus der Sprachcharakteristik-DB 62 heraus, und ruft aus der Inhalts- DB 52 einen vom Kunden 3 angegebenen Satz ab. Wie in Fig. 3 gezeigt wird, wird der vom Kunden 3 eingegebene Satz nach der in einer Grammatik-DB 67 in der Textanalyse-Maschine 63 gespeicherten Grammatik analysiert (Schritt S1). Dann benutzt die Synthese-Maschine 64 die Ergebnisse der Analysierung und die Prosodie-Daten D2 zum Steuern der Prosodie in Übereinstimmung mit dem eingegebenen Satz (Schritt S2), so dass sich die Prosodie des Sprechers widerspiegelt. Anschließend wird eine Sprach-Welle generiert durch Kombinieren der Sprachqualitätsdaten D1 des Sprechers mit den Daten, die die Prosodie des Sprechers widerspiegeln, und wird zum Gewinnen vorbestimmter Sprachsynthese-Däten benutzt (Schritt S3). Die vorbestimmten Sprachsynthese-Daten sind Sprachdaten, die es ermöglichen, dass der angegebene Satz mit der Sprache des in der Order des Kunden 3 angegebenen Sprechers ausgegeben (freigegeben) wird.

Die Wasserzeichen-Maschine 65 setzt ein elektronisches Wasserzeichen (Überprüfungsdaten) in die Sprachsynthese- Daten zur Überprüfung, dass die Sprachsynthese-Daten genehmigt sind, d. h. dass die Erlaubnis vom Inhaber der Sprachenquellenrechte erteilt wurde (Schritt S4).

Anschließend wandelt die Dateiformat-Maschine 66 die Sprachsynthese-Daten in ein vorbestimmtes Dateiformat um, z. B. eine WAV-Tondatei, und erteilt einen Dateinamen, der angibt, dass die Sprachsynthese-Daten für den vom Kunden 3 eingegebenen Text erstellt wurden.

Die auf diese Weise generierten Sprachsynthese-Daten werden dann vom Sprach-Synthesizer 61 ausgegeben (Schritt S5) und in der Inhalts-DB 52 gespeichert, bis sie vom Kunden 3 heruntergeladen werden. Zu diesem Zeitpunkt sind in der Inhalts-DB 52 die Sprachsynthese-Daten mit einer korrelierten Transaktions-ID gespeichert, die ausgegeben wird, wenn die Order vom Kunden 3 erteilt wird.

Da verschiedene Techniken für das tatsächliche Herausziehen von Sprachqualitätsdaten D1 und Prosodie-Daten D2 aus Sprachen vorgeschlagen wurden oder derzeit in der Praxis angewendet werden, die für die Generierung von Sprachsynthese-Daten benutzt werden können, und da für die Zwecke der vorliegenden Erfindung nur erforderlich ist, dass diese bestimmten Techniken richtig angewendet werden, beschränkt sich die vorliegende Ausführungsform nicht auf eine spezifische Technik. Eine beispielhafte Technik ist in der ungeprüften Japanischen Patentanmeldung Nr. Hei 9-90970 geoffenbart. Mit dieser Technik kann die Sprache eines spezifischen Sprechers auf die oben beschriebene Weise synthetisiert werden. Jedoch ist die in dieser Veröffentlichung geoffenbarte Technik nur beispielhaft, und auch andere Techniken können angewandt werden.

Jetzt wird unter Bezugnahme auf die Fig. 4 bis 6 eine Erklärung für eine Methode gegeben, bei der ein Kunde 3 die gewünschten Sprachsynthese-Daten aus einem System kauft, das oben beschrieben ist.

Order-Sitzung

Fig. 4 ist ein Flussdiagramm, das eine vom Diensterbringer 1 und vom Kunden 3 durchgeführte Geschäftstransaktion zeigt. Wie in Fig. 4 dargestellt ist, greift der Kunde 3 zunächst über das Netzwerk 5, das auch das Internet umfasst, auf den Web-Server des Diensterbringers 1 zu (Schritt S11). Dann gibt der Order-Prozessor 31 des Diensterbringers 1 eine Sprecherauswahlanforderung an den Kunden 3 aus (Schritt. S21). Jetzt wird die Liste der in der Inhalts-DB 52 des Diensterbringers 1 registrierten Sprecher auf dem Bildschirm des Web-Endgerät des Kunden 3 angezeigt. In dieser Liste werden die Namen der Sprecher gemäß Gattungen in alphabetischer Reihenfolge oder in einer Reihenfolge gemäß der Japanischen Silbenschrift spezifisch aufgeführt, und zusammen mit den Namen können auch Bilder der Sprecher oder animierte Sequenzen angezeigt werden. Dann wählt der Kunde 3 einen gewünschten Sprecher (eine spezifische Sprachquelle) aus der Liste aus und gibt den gewählten Sprecher durch Aktivieren einer Schaltfläche auf der Anzeige (Schritt S12) ein. Beim Sprecherauswahlprozess kann der Kunde 3 als Hilfe zum Bestimmen, welchen Sprecher er wählen soll, auch wunschgemäß in der DB 52 gespeicherte beispielhafte Sprachdaten heruntergeladen, die zur Wiedergabe der Sprache der ausgewählten Sprecher benutzt werden können.

Nachdem der Sprecher ausgewählt wurde, gibt der Order- Prozessor 31 des Diensterbringers 1 eine Satzeingabe- Aufforderung an den Kunden 3 aus (Schritt S22). Der Kunde 3 benutzt dann die Eingabemittel, wie z. B. eine Tastatur, um einen gewünschten Satz in die auf dem Bildschirm angezeigte Eingabespalte einzugeben (Schritt S13).

Im Order-Prozessor 31 des Diensterbringers 1 analysiert die Textanalyse-Maschine 63 den eingegebenen Satz, um eine rechtliche Überprüfung vorzunehmen, und zählt die Anzahl der Buchstaben bzw. Wörter, aus denen der Satz besteht. Ferner wird auf die Lizenzvertrag-DB 42 Bezug genommen und ein Grundpreis einschließlich der an den im Schritt S12 gewählten Sprecher zu leistenden Lizenzzahlung wird erhalten. Dann benutzt der Zahlungs-Prozessor 32 die Buchstabenzählung bzw. Wortzählung und den Grundpreis gemäß dem gewählten Sprecher, und errechnet einen Preis, der dem Inhalt der vom Kunden 3 eingegebenen Order entspricht.

Anschließend zeigt der Order-Prozessor 31 den Inhalt der vom Kunden 3 her eingegangenen Order, d. h. den Namen des gewählten Sprechers und den eingegebenen Satz sowie den Preis gemäß dem Inhalt der Order, und fordert den Kunden 3 auf, den Inhalt der Order zu bestätigen (Schritt S23). Zur Bestätigung des Order-Inhalts, der vom Diensterbringer 1 angezeigt wird, aktiviert der Kunde 3 eine Schaltfläche auf der Anzeige (Schritt S14).

Dann fordert der Order-Prozessor 31 des Diensterbringers 1 den Kunden 3 auf, Kundeninformationen einzugeben (Schritt S24). Der Kunde 3 gibt jetzt seinen Namen, Adresse und ggf. E-Mail-Adresse ein (Schritt S15). Beim Diensterbringer 1 speichert die.Kundenverwaltungseinheit 21 die vom Kunden 3 erhaltenen Informationen in der Kunden-DB 22 ab.

Da der Order-Prozessor 31 des Diensterbringers 1 verlangt hat, dass der Kunde 3 der Reihe nach Zahlungsinformationen eingibt (Schritt S25), gibt der Kunde 3 seinen Kreditkartentyp und seine Kreditkartennummer ein (Schritt S16). Wenn jetzt ein unmittelbares Zahlungssystem, wie z. B. eines, für das eine Guthabenkarte benutzt wird, zur Verfügung steht, kann die Nummer der Guthabenkarte und die PIN-Nummer als Zahlungsinformation eingegeben werden.

In Schritt 15 oder 16 kann, falls der Kunde 3 vorher in Schritt S11 beim Zugriff (Log-in) im Diensterbringer 1 oder in Schritt 16 registriert wurde, jetzt die Mitglied-ID oder das Passwort des Kunden 3 eingegebene werden, und die Eingabe der Kundeninformation in Schritt S16 und die Eingabe der Zahlungsinformation in Schritt S17 können unterbleiben.

Wenn der Diensterbringer 1 die Zahlungsinformation vom Kunden 3 erhält, gibt der Zahlungs-Prozessor 32 über den Zahlungs-Gateway 70 und das Kreditkartensystem 90 eine Anfrage an das Geldinstitut 4, die sich auf die Zahlungsinformationen für den Kunden 3 bezieht (Schritt 26). Bei Eingang der Anfrage prüft das Geldinstitut 4 die Zahlungsinformationen für den Kunden 3 und übermittelt die Ergebnisse der Überprüfung (Genehmigung oder Ablehnung) an den Diensterbringer 1 (Schritt S30). Wenn dann der Zahlungs- Prozessor 32 eine Genehmigung vom Geldinstitut 4 erhält, speichert der Zahlungs-Prozessor 32 die Zahlungsinformationen für den Kunden 3 in der Order/Zahlungs/Liefer-DB 34 ab.

Der Order-Prozessor 31 des Diensterbringers 1 fordert dann den Kunden 3 auf, eine endgültige Bestätigung der Order einzugeben (Schritt S27) und der Kunde 3 überprüft die Order vor Eingabe der endgültigen Bestätigung (Schritt S17).

Bei Empfang der vom Kunden 3 eingegebenen endgültigen Bestätigung akzeptiert der Order-Prozessor 31 des Diensterbringers 1 die Order (Schritt S28) und überträgt den Inhalt der Order auf den Inhalt-Prozessor 51. Gleichzeitig generiert der Liefer-Prozessor 33, der eine individuelle Transaktionsnummer (Transaktions-ID) für jede erhaltene Order erstellt, eine Transaktions-ID für die zugehörige Order, die vom Kunden 3 her eingegangen ist. Dann gibt der Order-Prozessor 31 zusammen mit der vom Liefer-Prozessor 33 generierten Transaktions-ID die URL einer Stelle aus, an die der Kunde 3 später die Sprachsynthese-Daten und einen Plan (geplantes Datum für den Datenabschluss) für die durchzuführenden Prozesse herunterladen kann, bevor die Sprachsynthese-Daten erhalten und geliefert werden können (Schritt S29). Ferner überträgt der HTTP-Server 11 an den Kunden 3 die zum Herunterladen der generierten Sprachsynthese-Daten zu benutzende Methode. Sobald der Kunde 3 diese Informationen erhalten hat, wird die Order-Sitzung beendet.

Wie oben beschrieben, verwendet der Diensterbringer 1, der die Order vom Kunden 3 erhält, den Inhalt der Order, um auf obige Weise die Sprachsynthese-Daten zu generieren. Der Diensterbringer gibt auch an das Geldinstitut 4 eine Anforderung für die Begleichung einer Gebühr in Übereinstimmung mit der vom Kunden 3 eingereichten Order aus. Sofern die Order vom Kunden 3 her eingegangen ist, kann diese Anforderung vor, während oder nach der Generierung der Sprachsynthese-Daten ausgegeben werden, oder sie kann auch ausgegebene werden, nachdem die Sprachsynthese-Daten an den Kunden 3 geliefert wurden. Ein beispielhafter Prozess wird in Fig. 5 gezeigt.

Wie in Fig. 5 gezeigt wird, gibt im Diensterbringer 1 nach Beendigung der Order-Sitzung mit dem Kunden 3 der Zahlungs- Prozessor 32 über den Zahlungs-Gateway 70 und das Kreditkartensystem 90 eine Anforderung an das Geldinstitut 4 zur Zahlung eines Betrags aus, der der vom Kunden 3 her eingehenden Order entspricht (Schritt S41). Bei Eingang dieser Anforderung überweist das Geldinstitut 4 diesen Betrag, der vom Diensterbringer 1 erstellt wurde (Schritt S50). Wenn der Diensterbringer 1 bestätigt, dass diese Zahlung vom Geldinstitut geleistet ist, beginnt die Herstellung der Sprachsynthese-Daten (Schritt 42). Dann, nachdem die Sprachsynthese-Daten generiert sind, werden die Daten in der Inhalts-DB 52 gespeichert (Schritt S43).

Herunterladesitzung

Die Bearbeitung in Fig. 6 wird ausgeführt, bis der Kunde 3 die georderten Sprachsynthese-Daten an oder nach dem geplanten Datenabschluss-Datum erhält, das der Diensterbringer 1 in Schritt S92 in der Order-Sitzung an den Kunden 3 übertragen hat.

Wie in Fig. 6 gezeigt wird, greift der Kunde 3 auf die URL des Servers des Diensterbringers 1 zu, die in Schritt S29 in der Order-Sitzung übertragen wird. Dann fordert der Inhalt- Prozessor 51 des Diensterbringers 1 den Kunden 3 auf, die Transaktions-ID einzugeben (Schritt S71). Dann gibt der Kunde 3 die Transaktions-ID ein, die vom Diensterbringer 1 in Schritt S29 in der Order-Sitzung (Schritt D62) erstellt wurde. Da die Transaktions-ID beim Herunterladen der georderten Sprachsynthese-Daten als ein sogenannter Duplikat-Schlüssel benutzt wird, können die Sprachsynthese- Daten nicht erhalten werden, falls keine übereinstimmende Transaktions-ID eingegeben wird.

Wenn die vom Kunden 3 eingegebene Transaktions-ID mit der in der Order/Zahlungs/Liefer-DB 34 gespeicherten Transaktions- ID übereinstimmt, zeigt der Liefer-Prozessor 33 für den Kunden 3 den Inhalt der Order für den Kunden 3, die in der Order/Zahlungs/Liefer-DB 34 gespeichert sind. Der Inhalt der anzuzeigenden Order umfasst den Namen des Kunden 3, den Namen des gewählten Sprechers, und den Satz, für den die Bearbeitung geordert wurde. Der Liefer-Prozessor 33 zeigt ferner auf dem Bildschirm des Kunden 3 die zum Herunterladen der Datei, die die georderten Sprachsynthese-Daten enthält, zu benutzenden Schaltflächen, und fordert den Kunden 3 auf, ein Herunterlade-Startsignal einzugeben (Schritt S72). Wenn der Kunde 3 die Schaltfläche auf der Anzeige aktiviert, wird das Signal zum Anlaufenlassen des Herunterladens der Datei, die die Sprachsynthese-Daten enthält, an den Diensterbringer 1 übertragen (Schritt S63).

Wenn der Diensterbringer 1 dieses Signal erhält, gibt der Inhalt-Prozessor 51 an den Kunden 3 die Datei mit den Sprachsynthese-Daten aus, die gemäß der vom Kunden 3 eingereichten Order, die im vorgegebenen Dateiformat in der Inhalts-DB 52 (Schritt S73) gespeichert ist, erzeugt wurden, während der Kunde 3 die Datei herunterlädt (Schritt S64). Sobald das Herunterladen abgeschlossen ist, d. h., die Transaktion mit dem Diensterbringer 1 relativ zu der vom Kunden 3 eingereichten Order ist abgeschlossen.

Getrennt von der Order-Sitzung fordert das Geldinstitut 4, dass der Kunde 3 die Zahlung für den Betrag überweist und der Kunde 3 leistet den Betrag an das Geldinstitut 4. Auch sendet der Diensterbringer 1 unabhängig eine Lizenzzahlung, die mit dem Inhalt der vom Kunden 3 eingebrachten Order übereinstimmt, an den Rechtsinhaber 2.

Der Kunde 3 kann die heruntergeladene Datei der Sprachsynthese-Daten im PC-Endgerät speichern und kann die Daten mit Hilfe zweckgebundener Software abspielen. Wenn ferner der Kunde 3 die Sprachausgabevorrichtung 100, die eine Speichereinheit zum Speichern der Sprachsynthese-Daten und eine Sprachausgabeeinheit zum Ausgeben einer Sprache auf der Grundlage der Sprachsynthese-Daten, die in der Speichereinheit gespeichert sind, z. B. ein Spielzeug, ein Wecker, ein tragbares Fernsprech-Endgerät, ein Kfz- Navigationssystem oder eine Sprachdatenwiedergabevorrichtung, wie z. B. einen sogenannter Speicherabspieler erwirbt oder bereits im Besitz hat, wie in Fig. 1 gezeigt wird, kann der Kunde 3 die heruntergeladenen Sprachsynthese-Daten in der Vorrichtung 100 speichern und die Vorrichtung 100 zum Wiedergeben der Sprachsynthese-Daten benutzen. Dabei kann auch ein Kabel oder Funk oder Infrarotverbindung zur Datenübertragung benutzt werden, um die Sprachsynthese-Daten in die Vorrichtung 100 zu laden. Ferner können die Sprachsynthese-Daten in einem tragbaren Speicher (Sprachsynthesedaten-Speichermedium) gespeichert werden und können dann über den Speicher auf die Vorrichtung 100 übertragen werden.

In Fig. 1 wird die Verarbeitung gezeigt, die ausgeführt wird von dem Zeitpunkt, an dem die Order für die oben beschriebenen Sprachsynthese-Daten eingeht, bis die Daten geliefert sind. In Fig. 1 zeigt bis die Reihenfolge, in der die wichtigen Prozesse ausgeführt werden, bis die Sprachsynthese-Daten bereitstehen.

Auf die obige Weise kann der Kunde 3 die georderten Sprachsynthese-Daten anwenden, um einen Satz unter Verwendung der Sprache eines gewünschten Sprechers, wie z. B. einer Berühmtheit, einschließlich Sänger und Politiker, oder einer Persönlichkeit aus einem Fernsehprogramm oder einem Film, durch seinen PC oder seine Vorrichtung 100 auszugeben. Mit anderen Worten, ein Alarm (eine Meldung) für einen Wecker, eine Antwortmeldung für ein tragbares Fernsprech- Endgerät, oder eine Führungsmeldung für ein Kfz- Navigationssystem, z. B., kann nach Wunsch des Kunden 3 verändert werden.

Da die Sprachsynthese-Daten gemäß einer Order des Kunden 3 generiert und auf den Kunden 3 in Übereinstimmung mit einer Transaktions-ID übertragen werden, werden die Sprachsynthese-Daten für jeden Kunden 3 eindeutig produziert. Ferner wird zu diesem Zeitpunkt der Preis gemäß der vom Kunden 3 her eingegangenen Order festgesetzt und die Lizenzzahlungen an den Sprachquellenrechtsinhaber 2 werden gesichert.

Ferner kann mit dem obigen System der Kunde 3 nach freiem Ermessen die durch die Vorrichtung 100, in die die Sprachsynthese-Daten geladen wurden, wiederzugebende Botschaft verändern. Das heißt, wenn der Kunde 3 eine Order ausgibt und neue Sprachsynthese-Daten erhält, kann er die alten, in der Vorrichtung 100 gespeicherten Sprachsynthese- Daten, gegen die neuen Sprachsynthese-Daten austauschen. Auf diese Weise kann das obige System verhindern, dass der Kunde 3 von der Vorrichtung 100 gelangweilt wird, und trägt so zum Wert der Vorrichtung 100 bei.

In der obigen Ausführungsform meldet der Liefer-Prozessor 33 dem Kunden 3 das geplante Datenvollständigkeitsdatum, und der Kunde 3 erhält die Sprachsynthese-Daten an oder nach dem geplanten Datenvollständigkeitsdatum, jedoch, wenn die Sprachsynthese-Daten für den Kunden 3 während der Sitzung, die begonnen hat, nachdem die Order vom Kunden her eingegangen ist (z. B. unmittelbar nachdem eine Order akzeptiert wurde), vorgesehen werden können, ist der obige Prozess nicht erforderlich.

Wenn ein vorbestimmter Dateneintrag oder eine Bestätigung während der Bearbeitung in Fig. 4 bis 6 nicht ausgeführt wird, wird die Bearbeitung natürlich angehalten, bzw. kehrt der Prozess zu dem vorhergehenden Schritt zurück.

Eine weitere Ausführungsform

Jetzt wird anhand der Fig. 7 eine weitere Ausführungsform beschrieben. In der folgenden Erklärung bezeichnen die gleichen Bezugszeichen jeweils entsprechende Komponenten wie in der obigen Ausführungsform und werden daher nicht weiter erklärt.

In der Ausführungsform in Fig. 7 sieht der Diensterbringer 1 für den Kunden 3 nicht nur die Sprachsynthese-Daten sondern auch eine Vorrichtung vor, in die die georderten Sprachsynthese-Daten geladen werden. Fig. 7 zeigt die Bearbeitung, beginnend mit dem Empfang einer Order für die oben beschriebenen Sprachsynthese-Daten von einem Kunden, bis die Daten eingegangen sind, und bis stellt die Reihenfolge dar, in der die wichtigen Prozesse ausgeführt werden, bis die Sprachsynthese-Daten erbracht sind.

Der Diensterbringer 1 liefert dem Kunden 3 die Liste der Sprecher und die Liste der Vorrichtungen. Der Kunde 3 kann jede beliebige Vorrichtung ordern, in die er Eingabe- Sprachsynthese-Daten laden kann, wie z. B. ein Spielzeug, einen Wecker oder ein Kfz-Navigationssystem.

Der Kunde 3 gibt eine Order für die Sprachsynthese-Daten an den Diensterbringer 1 auf die gleiche Weise aus wie in den obigen Ausführungsformen, und gibt ferner eine Order aus für eine Vorrichtung, in die Sprachsynthese-Daten geladen werden sollen. Die Order für die Vorrichtung braucht nur zum richtigen Zeitpunkt während der Order-Sitzung (siehe Fig. 4) in der vorherigen Ausführungsform ausgegebenen zu werden. Der Diensterbringer 1 zeigt dann dem Kunden 3 einen Preis in Übereinstimmung mit den Kosten der Sprachsynthese-Daten und der ausgewählten Vorrichtung, die geordert war. Wenn der Kunde 3 den Inhalt der Anordnung bestätigt und den Diensterbringer 1 unterrichtet, ist die Ausgabe der Order abgeschlossen.

Gemäß der vom Kunden 3 eingebrachten Order generiert der Diensterbringer 1 Sprachsynthese-Daten auf die gleiche Weise wie in der obigen Ausführungsform, lädt die Sprachsynthese- Daten in die vom Kunden 3 gewählte Vorrichtung, und liefert diese Vorrichtung an den Kunden 3. Ferner verlangt der Diensterbringer 1 zum Begleichen der Summen für die Sprachsynthese-Daten und die vom Kunden 3 georderte Vorrichtung, dass die Zahlung dieses Betrages durch das vom Kunden 3 bezeichnete Geldinstitut 4 gemacht wird.

Zusätzlich zahlt der Kunde 3 an das Geldinstitut 4 den Preis in Übereinstimmung mit der Order, und der Diensterbringer 1 überträgt auf den Rechtsinhaber 2 eine Lizenzzahlung in Übereinstimmung mit den Sprachsynthese-Daten, die generiert wurden. Anschließend werden sämtliche Transaktionen beendet.

In den obigen Ausführungsformen sind die Zeiten für die Begleichung der Kosten zwischen dem Diensterbringer 1 und dem Geldinstitut 4 und zwischen dem Geldinstitut 4 und dem Kunden 3 nicht beschränkt, wie oben beschrieben wird, und jede beliebige Zeit kann angewendet werden. Ferner muss die Zahlung durch den Kunden 3 an den Diensterbringer 1 nicht unbedingt über ein Geldinstitut 4 erfolgen und elektronisches Geld oder eine Guthabenkarte können verwendet werden.

Wie in der obigen Ausführungsform beschrieben, ist der Kunde 3 frei, auch nur die Sprachsynthese-Daten oder die Vorrichtung 100, in der die Sprachsynthese-Daten gespeichert werden, zu kaufen. Zusätzlich ist der Kunde frei, die von ihm gekauften Sprachsynthese-Daten an einen Vorrichtungshersteller zu übertragen, und der Vorrichtungshersteller kann die Sprachsynthese-Daten auf Wunsch es Kunden 3 in eine Vorrichtung laden und dann die Vorrichtung an den Kunden 3 verkaufen. Oder der Diensterbringer 1 kann die gemäß einer Order des Kunden 3 generierten Sprachsynthese-Daten an den Vorrichtungshersteller übertragen und der Vorrichtungshersteller kann die Sprachsynthese-Daten in eine Vorrichtung laden, die er anschließend an den Kunden 3 liefert.

Die Sprachsynthese-Daten beschränken sich nicht auf eine einfache Sprachmeldung, sie können auch ein Lied (mit oder ohne Begleitung) oder eine Lesung sein. Ferner kann der Kunde 3 auch den Inhalt eines Satzes frei formulieren und kann z. B. einen Satz aus einer Satzliste auswählen, die ihm vom Diensterbringer 1 geliefert wurde. Wenn mit dieser Anordnung der Diensterbringer 1 z. B. ein Gedicht oder einen Roman als Satz liefert und der Kunde 3 einen Sprecher wählt, kann der Kunde 3 die Sprachsynthese-Daten für eine Lesung erhalten, die ein bevorzugter Sprecher ausgeführt hat.

Wie in den Ausführungsformen beschrieben, können die Sprachsynthese-Daten vom Diensterbringer 1 nicht nur durch Anwenden der Online-Übertragung (Herunterladen) oder durch Anwenden einer Vorrichtung, in die die Daten geladen wurden, sondern auch durch Speichern der Daten auf verschiedene Speichermedienformen (Sprachsynthesedaten-Speichermedien, wie z. B. eine flexible Diskette) an einen Kunden 3 geliefert werden.

Zusätzlich kann die vorliegende Erfindung als Programmspeichermedium, wie eine CD-ROM, eine DVD (Digital Video Disk), ein Speicher-Chip oder eine Festplatte vorgesehen sein, damit ein Computer das obige Programm ausführt. Ferner kann die vorliegende Erfindung als Programmübertragungsgerät vorgesehen sein, das umfasst: Speichermittel, wie z. B. eine CD-ROM, eine DVD, einen Speicher-Chip oder eine Festplatte, auf der das obige Programm gespeichert ist, und Übertragungsmittel zum Lesen des Programms vom Speichermittel und Übertragen des Programms direkt oder indirekt auf ein Gerät, das das Programm ausführt.

Vorteile der Erfindung

Wie oben beschrieben, kann der Kunde gemäß der vorliegenden Erfindung Sprachsynthese-Daten für einen bestimmten Satz erhalten, der mit der Sprache eines gewünschten Sprechers gesprochen wird, und die Zahlung der Lizenzgebühr an den Urheberrechtsinhaber der Sprachquelle ist gesichert.

Bezugszeichenliste

1

Diensterbringer

2

Urheberrechtsinhaber

3

Kunde (entfernter Anwender oder Kundenquelle)

4

Geldinstitut (Kundenquelle)

5

Netzwerk

21

Kundenverwaltungseinheit

22

Kunden-DB

31

Order-Prozessor (Anforderungsempfänger)

32

zahlungs-Prozessor (Preisfestsetzungseinheit)

33

Liefer-Prozessor

34

Order/Zahlungs/Liefer-DB

41

Lizenz-Prozessor

42

Lizenzvertrag-DB

51

Inhalt-Prozessor (Sprachsynthesedaten-Generator)

52

Inhalts-DB

61

Sprachsynthesizer, (Sprachsynthesedaten-Generator)

62

Sprachcharakteristik-DB (Sprachcharakteristikdaten- Speichereinheit)

80

Lizenzzahlungssystem

90

Kreditkartensystem

100

Vorrichtung (Sprachausgabevorrichtung)
D1 Sprachqualitätsdaten
D2 Prosodle-Daten

Claims

1. Ein Sprachsynthesesystem, das zwischen einem Kunden und einem Diensterbringer über ein Netzwerk eingerichtet ist, und das umfasst:
ein Endgerät des Kunden zum Auswählen eines bestimmten Sprechers aus einer Vielzahl Sprecher, die zur Auswahl durch den Kunden bereitgestellt sind, und zum Bezeichnen von Textdaten, für die die Sprachsynthese durchgeführt werden soll;
einen Server des Diensterbringers zum Anwenden von Sprachcharakteristikdaten auf den spezifischen Sprecher, um die Sprachsynthese unter Verwendung der Textdaten durchzuführen, die vom Kunden auf dem Endgerät spezifiziert werden.

2. Das Sprachsynthesesystem gemäß Anspruch 1, in dem der Server des Diensterbringers die erhaltenen Sprachsynthese-Daten über das Netzwerk auf das Endgerät des Kunden überträgt.

3. Das Sprachsynthesesystem gemäß Anspruch 2, in dem der Server des Diensterbringers dem Kunden eine Transaktionsnummer zuweist; und in dem, wenn die Transaktionsnummer vom Endgerät des Kunden angezeigt wird, der Server die Sprachsynthese-Daten auf das Endgerät des Kunden überträgt.

4. Eine Sprachsynthese-Methode, die über ein Netzwerk zwischen einem Diensterbringer, der Sprachcharakteristikdaten für mehrere Sprecher hält, und einem Kunden angewandt wird, und die die folgenden Schritte aufweist:
der Diensterbringer liefert über das Netzwerk eine Liste der Vielzahl Sprecher an den entfernten Anwender;
der Kunde überträgt über das Netzwerk die Identität eines Sprechers, der aus der Liste ausgewählt wurde, sowie Textdaten, für die die Sprachsynthese ausgeführt werden soll, an den Diensterbringer; und
der Diensterbringer wendet die Sprachcharakteristikdaten auf den vom Kunden ausgewählten Sprecher an, um die Sprachsynthese mit den Textdaten durchzuführen.

5. Die Sprachsynthese-Methode gemäß Anspruch 4, gemäß welcher der Diensterbringer eine Gebühr für die unter Verwendung der Sprachsynthese erzeugten Sprachsynthese- Daten festsetzt, und die Sprachsynthese-Daten bei Eingang der Zahlung der Gebühr an den Kunden überträgt.

6. Die Sprachsynthese-Methode gemäß Anspruch 4, in der der Diensterbringer eine Gebühr entsprechend der Generierung der Sprachsynthese-Daten an eine Person leistet, die Inhaber aller Rechte an den Sprachcharakteristikdaten ist, die der Diensterbringer hält.

7. Die Sprachsynthese-Methode gemäß Anspruch 4, in der der Diensterbringer die Sprachsynthese-Daten an den Kunden überträgt; und in der der Kunde die Sprachsynthese-Daten in eine Vorrichtung lädt, die auf der Grundlage der Sprachsynthese-Daten Sprache reproduziert.

8. Die Sprachsynthese-Methode gemäß Anspruch 4, in der der Diensterbringer dem Kunden zusammen mit der Liste der Sprecher eine Liste der Vorrichtungen liefert, in die die Daten geladen werden können; in der der Kunde dem Diensterbringer über das Netzwerk mitteilt, welche Vorrichtung aus der Liste ausgewählt wurde; und in der der Diensterbringer Sprachsynthese-Daten auf der Grundlage der Sprachcharakteristikdaten des vom Kunden gewählten Sprechers generiert und die erhaltenen Sprachsynthesedaten in die vom Kunden gewählte Vorrichtung lädt.

9. Ein Server zum Ausführen der Sprachsynthese gemäß einer von dem über das Netzwerk angeschlossenen Kunden eingegangenen Anforderung, der umfasst:
eine Sprachcharakteristikdaten-Speichereinheit zum Speichern der Sprachcharakteristikdaten, die durch Analysieren der Sprachen der Sprecher erhalten wurden;
eine Anforderungsaufnahmeeinheit zum Aufnehmen einer von einem Kunden über das Netzwerk übertragenen Anforderung, die vom Kunden eingegebene Textdaten sowie einen vom Kunden gewählten Sprecher beinhaltet; und
einen Sprachsynthesedaten-Generator zum Durchführen der Sprachsynthese in Übereinstimmung mit der vom Kunden über die Anforderungsakzeptanzeinheit übermittelten Anforderung, der die Sprachsynthese der Textdaten auf der Grundlage der Sprachcharakteristikdaten des gewählten Sprechers ausführt, die in der Sprachcharakteristikdaten-Speichereinheit gespeichert sind.

10. Der Server gemäß Anspruch 9, in dem die Sprachcharakteristikdaten-Speichereinheit für jeden Sprecher Sprachqualitätsdaten und Prosodie-Daten als Sprachcharakteristikdaten speichert.

11. Der Server gemäß Anspruch 9, der ferner umfasst:
eine Preisbestimmungseinheit zum Festsetzen eines Preises für die Sprachsynthese-Daten auf der Grundlage der Anforderung durch den Kunden.

12. Ein Speichermedium, auf dem das Eingabemittel eines Computers ein computerlesbares Programm abspeichert, das es ermöglicht, dass der Computer durchführt:
einen Prozess zum Akzeptieren einer Anforderung von einem fernliegenden Anwender zum Generieren von Sprachsynthese-Daten;
einen Prozess zum Generieren und Ausgeben einer Transaktionsnummer gemäß der Anforderung;
und einen Prozess zum Ausgeben von Sprachsynthese-Daten gemäß der Anforderung bei Eingang der Transaktionsnummer.

13. Das Speichermedium gemäß Anspruch 12, in dem das Programm den Computer ferner durchführen lässt:
einen Prozess zum Anhängen von Überprüfungsdaten an die Sprachsynthese-Daten zum Überprüfen des Inhalts der Sprachsynthese-Daten.

14. Ein Speichermedium, auf dem das Eingabemittel ein computerlesbares Programm abspeichert, das den Computer durchführen lässt:
einen Prozess zum Akzeptieren einer Anforderung von einem entfernten Anwender zwecks Sprachsynthese, die vom entfernten Anwender ausgewählte Textdaten und einen Sprecher beinhaltet; und
einen Prozess zum Verwenden von Sprachcharakteristikdaten entsprechend dem ausgewählten Sprecher zum Durchführen der Sprachsynthese mit den Textdaten.

15. Ein Programmübertragungsgerät, das umfasst:
Speichermittel zum Speichern eines Programms, das einen Computer folgende Schritte ausführen lässt:
einen Prozess zum Ausgeben einer Liste einer Vielzahl Sätze von Sprachcharakteristikdaten, die im Computer gespeichert sind, an den Kunden; und
einen Prozess zum Ausgeben von Sprachsynthese-Daten an den Kunden, die beim Anwenden der Sprachcharakteristikdaten erhalten werden, die vom Kunden zum Durchführen der Sprachsynthese der vom Kunden eingegebenen Textdaten aus einer Liste ausgewählt werden; und
Übertragungsmittel zum Lesen des Programms vom Speichermittel und Übertragen des Programms.

16. Ein Sprachsynthesedaten-Speichermittel, auf dem die Sprachensynthesedaten gespeichert werden, sobald ein über ein Netzwerk an einen Diensterbringer angeschlossener Kunde dem Diensterbringer einen ausgewählten Sprecher und Textdaten vorlegt, und der Diensterbringer Sprachsynthese-Daten gemäß dem vom Kunden vorgelegten ausgewählten Sprecher und der Textdaten generiert.

17. Eine Sprachausgabevorrichtung, enthaltend:
eine Speichereinheit zum Speichern von Sprachsynthese- Daten, die vom Diensterbringer generiert werden, der Sprachdaten für eine Vielzahl Sprecher im Speicher hält, auf der Grundlage eines Sprechers und von Textdaten, die über ein Netzwerk dem Diensterbringer vorgelegt werden; und
eine Sprachausgabeeinheit zum Ausgeben einer Sprache auf der Grundlage der Sprachsynthese-Daten, die in der Speichereinheit gespeichert sind.