banner
Nachrichtenzentrum
Hochwertiger Rohstoff, strenge Qualitätskontrolle

Dieser Wissenschaftler gab Stephen Hawking seine Stimme – und verlor dann seine eigene

Oct 06, 2023

„Kannst du mich gut hören?“ Ich frage Brad Story zu Beginn eines Videoanrufs. Einen einfachen Satz wie diesen auszusprechen, würde ich später erfahren, bedeutet, den wohl kompliziertesten motorischen Akt auszuführen, den eine Spezies kennt: Sprechen.

Aber als Story, ein Sprachwissenschaftler, auf sein Ohr zeigt und den Kopf schüttelt, scheint dieser besondere Sprechakt nicht so beeindruckend zu sein. Ein technischer Fehler hat uns praktisch stumm gemacht. Wir wechseln zu einem anderen modernen Sprachübertragungssystem, dem Smartphone, und beginnen ein Gespräch über die Entwicklung sprechender Maschinen – ein Projekt, das vor einem Jahrtausend mit magischen Geschichten über sprechende Messingköpfe begann und heute mit einer Technologie fortgesetzt wird, die für viele von uns könnte genauso gut magisch sein: Siri und Alexa, sprachklonende KI und all die anderen Sprachsynthesetechnologien, die in unserem täglichen Leben nachwirken.

Eine kurze Phase der technikbedingten Stummheit könnte für viele Menschen die größte Chance sein, jemals ihre Stimme zu verlieren. Das heißt nicht, dass Stimmstörungen selten sind. Ungefähr ein Drittel der Menschen in den USA erleiden irgendwann in ihrem Leben eine Sprachstörung aufgrund einer Stimmstörung, die als Dysphonie bezeichnet wird. Ein vollständiger und dauerhafter Verlust der Stimme ist jedoch viel seltener und wird typischerweise durch Faktoren wie eine traumatische Verletzung oder eine neurologische Erkrankung verursacht.

Für Stephen Hawking war es Letzteres. Im Jahr 1963 wurde bei dem 21-jährigen Physikstudenten Amyotrophe Lateralsklerose (ALS) diagnostiziert, eine seltene neurologische Erkrankung, die in den nächsten zwei Jahrzehnten seine willkürliche Muskelkontrolle bis hin zur nahezu vollständigen Lähmung beeinträchtigen würde. Bis 1979 war die Stimme des Physikers so undeutlich geworden, dass nur Leute, die ihn gut kannten, seine Sprache verstehen konnten.

„Die Stimme eines Menschen ist sehr wichtig“, schrieb Hawking in seinen Memoiren. „Wenn Sie eine undeutliche Stimme haben, werden die Leute Sie wahrscheinlich als geistig behindert behandeln.“

Im Jahr 1985 erkrankte Hawking an einer schweren Lungenentzündung und musste sich einer Tracheotomie unterziehen. Es rettete ihm das Leben, nahm ihm aber die Stimme. Danach konnte er nur noch durch einen langwierigen Zwei-Personen-Prozess kommunizieren: Jemand zeigte auf einzelne Buchstaben auf einer Karte, und Hawking zog die Augenbrauen hoch, wenn er den richtigen traf.

„Es ist ziemlich schwierig, ein solches Gespräch zu führen, geschweige denn eine wissenschaftliche Arbeit zu schreiben“, schrieb Hawking. Als seine Stimme verschwand, verschwand auch jede Hoffnung, seine Karriere fortzusetzen oder sein zweites Buch fertigzustellen, den Bestseller, der Stephen Hawking zu einem bekannten Namen machen würde: Eine kurze Geschichte der Zeit: Vom Urknall bis zu den Schwarzen Löchern.

Doch schon bald sprach Hawking wieder – diesmal nicht mit dem BBC-Englisch-Akzent, den er sich angeeignet hatte, als er in den Vororten nordwestlich von London aufwuchs, sondern mit einem vage amerikanischen und entschieden roboterhaften Akzent. Nicht alle waren sich einig, wie der Akzent zu beschreiben sei. Manche nannten es schottisch, andere skandinavisch. Nick Mason von Pink Floyd nannte es „positiv interstellar“.

Unabhängig von der Beschreibung würde diese computergenerierte Stimme zu einer der bekanntesten Wendungen auf dem Planeten werden und Hawkings Geist mit unzähligen Zuhörern verbinden, die ihn unbedingt über die größten Fragen sprechen hören wollten: Schwarze Löcher, die Natur der Zeit usw der Ursprung unseres Universums.

Im Gegensatz zu anderen berühmten Rednern im Laufe der Geschichte war Hawkings charakteristische Stimme nicht ganz seine eigene. Es war eine Reproduktion der realen Stimme eines anderen Pionierwissenschaftlers, Dennis Klatt, der in den 1970er und 1980er Jahren hochmoderne Computersysteme entwickelte, die praktisch jeden englischen Text in synthetische Sprache umwandeln konnten.

Klatts Sprachsynthesizer und ihre Ableger hatten verschiedene Namen: MITalk, KlatTalk, DECtalk, CallText. Aber die beliebteste Stimme, die diese Maschinen hervorbrachten – die, die Hawking in den letzten drei Jahrzehnten seines Lebens verwendete – hatte einen einzigen Namen: Perfect Paul.

„Es wurde so bekannt und in dieser Stimme von Stephen Hawking verkörpert“, erzählt mir Story, Professor am Fachbereich Sprach-, Sprach- und Hörwissenschaften der University of Arizona. „Aber diese Stimme war wirklich Dennis‘ Stimme. Er hat den Großteil dieses Synthesizers auf sich selbst basiert.“

Klatts Entwürfe markierten einen Wendepunkt in der Sprachsynthese. Computer konnten nun Text, den Sie in einen Computer eingegeben hatten, auf eine Weise in Sprache umwandeln, die sehr verständlich war. Diese Systeme haben es geschafft, die subtile Art und Weise, wie wir nicht nur Wörter, sondern ganze Sätze aussprechen, genau zu erfassen.

Als Hawking in der zweiten Hälfte der 1980er Jahre lernte, mit seiner neu entdeckten Stimme zu leben und zu arbeiten, wurde Klatts eigene Stimme immer rauer – eine Folge von Schilddrüsenkrebs, an dem er jahrelang gelitten hatte.

„Er sprach mit einer Art heiserem Flüstern“, sagt Joseph Perkell, Sprachwissenschaftler und Kollege von Klatt, als beide in den 1970er und 1980er Jahren in der Speech Communications Group am MIT arbeiteten. „Es war irgendwie die ultimative Ironie. Hier ist ein Mann, der daran gearbeitet hat, den Sprechvorgang zu reproduzieren, und er kann es nicht selbst tun.“

Lange bevor er lernte, Sprache mit Computern aufzubauen, beobachtete Klatt als Kind Bauarbeiter beim Bau von Gebäuden in einem Vorort von Milwaukee, Wisconsin. Der Prozess faszinierte ihn.

„Er war am Anfang einfach ein wirklich neugieriger Mensch“, sagt Mary Klatt, die Dennis heiratete, nachdem sich die beiden Anfang der 1960er Jahre im Kommunikationswissenschaftslabor der University of Michigan kennengelernt hatten, wo sie nebeneinander Büros hatten.

Dennis kam nach Michigan, nachdem er an der Purdue University einen Master-Abschluss in Elektrotechnik erworben hatte. Er arbeitete hart im Labor. Angesichts seiner tiefen Bräune, seiner Angewohnheit, den ganzen Tag Tennis zu spielen, und seiner Neigung zum Multitasking ist es jedoch möglicherweise nicht jedem aufgefallen.

„Wenn ich in seine Wohnung ging, machte er drei Dinge gleichzeitig“, sagt Mary. „Er hatte seine Kopfhörer auf und hörte Oper. Er schaute sich ein Baseballspiel an. Und gleichzeitig schrieb er seine Dissertation.“

Als der Leiter des Labors für Kommunikationswissenschaften, Gordon Peterson, Dennis' Dissertation las, in der es um Theorien der Hörphysiologie ging, war er überrascht, wie gut sie war, erinnert sich Mary.

„Dennis war kein Problem. Er hat viele Stunden gearbeitet, aber es hat Spaß gemacht, und das ist ein wahrer, neugieriger Wissenschaftler.“

Nach dem Erwerb eines Ph.D. Dennis studierte Kommunikationswissenschaften an der University of Michigan und kam 1965 als Assistenzprofessor an die Fakultät des MIT. Es war zwei Jahrzehnte nach dem Zweiten Weltkrieg, einem Konflikt, der US-Militärbehörden dazu veranlasst hatte, die Forschung und Entwicklung modernster Technologien zu finanzieren Sprachsynthese- und Verschlüsselungstechnologien, ein Projekt, das bis in Friedenszeiten andauerte. Es war auch etwa ein Jahrzehnt, nachdem der Linguist Noam Chomsky mit seiner Theorie der universellen Grammatik – der Idee, dass alle menschlichen Sprachen eine gemeinsame Grundstruktur haben, die das Ergebnis fest im Gehirn verankerter kognitiver Mechanismen ist – eine Bombe gegen den Behaviorismus platzen ließ.

Am MIT schloss sich Klatt der interdisziplinären Speech Communication Group an, die Perkell als „Hochburg der Forschung zur menschlichen Kommunikation“ bezeichnet. Daran nahmen Doktoranden und Wissenschaftler teil, die unterschiedliche Hintergründe hatten, aber ein gemeinsames Interesse daran hatten, alles zu untersuchen, was mit Sprache zu tun hat: wie wir sie produzieren, wahrnehmen und synthetisieren.

Damals, sagt Perkell, gab es die Idee, dass man Sprache anhand spezifischer Regeln modellieren könnte, „und dass man Computer dazu bringen könnte, [diese Regeln] nachzuahmen, um Sprache zu erzeugen und Sprache wahrzunehmen, und das hatte mit der Existenz von Phonemen zu tun.“ "

Phoneme sind die Grundbausteine ​​der Sprache – ähnlich wie die Buchstaben des Alphabets die Grundeinheiten unserer geschriebenen Sprache. Ein Phonem ist die kleinste Lauteinheit einer Sprache, die die Bedeutung eines Wortes verändern kann. Beispielsweise sind „pen“ und „pin“ phonetisch sehr ähnlich und haben jeweils drei Phoneme, unterscheiden sich jedoch durch ihre mittleren Phoneme: /ɛ/ bzw. /ɪ/. Amerikanisches Englisch hat 44 Phoneme, die grob in zwei Gruppen eingeteilt sind: 24 Konsonantenlaute und 20 Vokallaute, obwohl Südstaatler aufgrund eines phonologischen Phänomens namens Pin-Pen-Fusion möglicherweise mit einem Vokal weniger sprechen: „Kann ich mir eine Stecknadel ausleihen, um etwas aufzuschreiben?“ ?"

Um seine Synthesizer zu bauen, musste Klatt herausfinden, wie man einen Computer dazu bringt, die Grundeinheiten der geschriebenen Sprache in die Grundbausteine ​​der Sprache umzuwandeln – und zwar auf möglichst verständliche Weise.

Wie bringt man einen Computer zum Sprechen? Ein unkomplizierter, aber umständlicher Ansatz wäre, jedes einzelne Wort im Wörterbuch aufzuzeichnen, das jemand spricht, diese Aufnahmen in einer digitalen Bibliothek zu speichern und den Computer so zu programmieren, dass er diese Aufnahmen in bestimmten Kombinationen abspielt, die dem eingegebenen Text entsprechen. Mit anderen Worten: Sie würden Schnipsel zusammensetzen, als würden Sie einen akustischen Lösegeldbrief verfassen. Doch in den 1970er Jahren gab es bei diesem sogenannten konkatenativen Ansatz ein grundsätzliches Problem: Ein gesprochener Satz klingt ganz anders als eine isoliert ausgesprochene Wortfolge.

„Sprache ist kontinuierlich variabel“, erklärt Story. „Und die alte Idee: ‚Wir lassen jemanden alle Laute einer Sprache produzieren und dann können wir sie zusammenfügen‘, funktioniert einfach nicht.“

Klatt wies in einer Arbeit aus dem Jahr 1987 auf mehrere Probleme mit dem verketteten Ansatz hin:

Also verfolgte Klatt einen anderen Ansatz – einen, der die Sprachsynthese nicht als einen Akt der Montage, sondern als einen Akt der Konstruktion betrachtete. Im Mittelpunkt dieses Ansatzes stand ein mathematisches Modell, das den menschlichen Stimmapparat und die Art und Weise darstellte, wie er Sprachlaute – insbesondere Formanten – erzeugt.

Wenn Sie Ende der 1970er Jahre in Dennis‘ MIT-Büro geschaut hätten, hätten Sie ihn vielleicht gesehen – einen dünnen, 1,80 Meter großen Mann in den Vierzigern mit grauem Bart –, der neben einem Tisch saß, auf dem enzyklopädiegroße Bände vollgestopft waren mit Spektrogrammen. Diese Zettel waren der Schlüssel zu seinem Syntheseansatz. Als visuelle Darstellungen der Frequenz und Amplitude einer Schallwelle im Laufe der Zeit waren sie der Polarstern, der seine Synthesizer zu einer immer natürlicheren und verständlicheren Stimme führte.

Perkell drückt es einfach aus: „Er sprach in das Mikrofon, analysierte dann die Sprache und veranlasste dann seine Maschine, dasselbe zu tun.“

Dass Dennis seine eigene Stimme als Vorbild benutzte, war eine Frage der Bequemlichkeit, nicht der Eitelkeit.

„Er musste versuchen, jemanden nachzuahmen“, sagt Perkell. „Er war der zugänglichste Redner.“

Bei diesen Spektrogrammen verbrachte Dennis viel Zeit damit, Formanten zu identifizieren und zu analysieren.

„Dennis hat viele Messungen an seiner eigenen Stimme durchgeführt, um herauszufinden, wo die Formanten sein sollten“, sagt Patti Price, Spracherkennungsspezialistin und Linguistin und ehemalige Kollegin von Dennis am MIT in den 1980er Jahren.

Formanten sind Konzentrationen akustischer Energie um bestimmte Frequenzen in einer Sprachwelle. Wenn Sie beispielsweise den Vokal „Katze“ aussprechen, erzeugen Sie einen Formanten, indem Sie Ihren Kiefer nach unten senken und Ihre Zunge nach vorne bewegen, um den Vokallaut „a“ auszusprechen, der phonetisch als /æ/ dargestellt wird. Auf einem Spektrogramm würde dieser Ton als mehrere dunkle Bänder erscheinen, die bei bestimmten Frequenzen innerhalb der Wellenform auftreten. (Mindestens ein Sprachwissenschaftler, Perkell sagt, er kenne ihn am MIT, könne sich ein Spektrogramm ansehen und sagen, welche Worte ein Sprecher gesagt habe, ohne sich eine Aufnahme anzuhören.)

„Was für einen bestimmten [Vokal- oder Konsonantenklang] passiert, ist, dass es eine Reihe von Frequenzen gibt, die aufgrund der Art und Weise, wie sich Wellen durch diese Verengungen und Erweiterungen ausbreiten, einen einfachen Durchgang durch diese bestimmte Konfiguration [des Stimmtrakts] ermöglichen “, sagt Story.

Warum lassen sich manche Frequenzen leicht passieren? Nehmen Sie das Beispiel eines Opernsängers, der ein Weinglas zerschmettert, indem er einen hohen Ton schmettert. Dieses seltene, aber reale Phänomen entsteht, weil die Schallwellen des Sängers das Weinglas anregen und es sehr schnell vibrieren lassen. Dies geschieht jedoch nur, wenn die Schallwelle, die mehrere Frequenzen trägt, eine bestimmte trägt: eine Resonanzfrequenz des Weinglases.

Jedes Objekt im Universum hat eine oder mehrere Resonanzfrequenzen, das sind die Frequenzen, bei denen ein Objekt am effizientesten schwingt, wenn es einer äußeren Kraft ausgesetzt wird. Wie jemand, der nur zu einem bestimmten Lied tanzt, vibrieren Objekte lieber in bestimmten Frequenzen. Der Stimmapparat ist keine Ausnahme. Es enthält zahlreiche Resonanzfrequenzen, sogenannte Formanten, und das sind die Frequenzen innerhalb einer Schallwelle, die der Stimmapparat „mag“.

Dennis‘ Computermodelle simulierten, wie der Stimmapparat Formanten und andere Sprachlaute erzeugt. Anstatt sich auf zuvor aufgezeichnete Klänge zu verlassen, berechnete sein Synthesizer die Formanten, die zur Erzeugung jedes Sprachklangs erforderlich waren, und fügte sie zu einer kontinuierlichen Wellenform zusammen. Anders ausgedrückt: Wenn die verkettende Synthese so ist, als würde man mit Legosteinen ein Objekt Stein für Stein bauen, ähnelte seine Methode der Verwendung eines 3D-Druckers, um etwas Schicht für Schicht aufzubauen, basierend auf präzisen Berechnungen und Benutzerspezifikationen.

Das bekannteste Produkt, das aus diesem Ansatz hervorging, war DECtalk, eine 4.000 US-Dollar teure Box in Aktentaschengröße, die man wie einen Drucker an einen Computer anschließen konnte. 1980 lizenzierte Dennis seine Synthesetechnologie an die Digital Equipment Corporation, die 1984 das erste DECtalk-Modell, den DTC01, herausbrachte.

DECtalk synthetisierte Sprache in einem dreistufigen Prozess:

DECtalk konnte per Computer und Telefon gesteuert werden. Durch den Anschluss an eine Telefonleitung war es möglich, Anrufe zu tätigen und entgegenzunehmen. Benutzer konnten Informationen von dem Computer abrufen, mit dem DECtalk verbunden war, indem sie bestimmte Tasten am Telefon drückten.

Was es letztendlich zu einer bahnbrechenden Technologie machte, war, dass DECtalk praktisch jeden englischen Text aussprechen konnte und seine Aussprache dank Computermodellen, die den gesamten Satz berücksichtigten, strategisch modifizieren konnte.

„Das ist wirklich sein größter Beitrag – den Text der Rede wörtlich zu nehmen“, sagte Story.

Perfect Paul war nicht die einzige Stimme, die Dennis entwickelte. Der DECtalk-Synthesizer bot neun: vier erwachsene Männerstimmen, vier erwachsene Frauenstimmen und eine weibliche Kinderstimme namens Kit the Kid. Alle Namen waren spielerische Alliterationen: Rough Rita, Huge Harry, Frail Frank. Einige basierten auf den Stimmen anderer Menschen. „Beautiful Betty“ basierte auf der Stimme von Mary Klatt, während „Kit the Kid“ auf der ihrer Tochter Laura basierte. (Einige davon sowie andere Clips von älteren Sprachsynthesizern können Sie in diesem Archiv der Acoustical Society of America hören.)

Aber „wenn es auf den Kern seiner Arbeit ankam“, sagt Perkell, „war es eine einsame Übung.“ Von den DECtalk-Stimmen verbrachte Dennis mit Abstand die meiste Zeit bei Perfect Paul. Er schien zu glauben, dass es möglich sei, „Perfect Paul“ zu perfektionieren – oder sich der Perfektion zumindest anzunähern.

„Den Spektralvergleichen zufolge komme ich dem ziemlich nahe“, sagte er 1986 gegenüber Popular Science. „Aber es gibt noch etwas, das schwer fassbar ist und das ich nicht einfangen konnte. […] Es geht einfach darum, das zu finden.“ richtiges Modell.“

Um das richtige Modell zu finden, mussten die Kontrollparameter gefunden werden, die den menschlichen Stimmapparat am besten simulieren. Dennis ging das Problem mit Computermodellen an, aber die Sprachsyntheseforscher, die lange vor ihm kamen, mussten mit primitiveren Werkzeugen arbeiten.

Die Sprachsynthese ist heute überall um uns herum. Sagen Sie „Hey Alexa“ oder „Siri“, und schon bald werden Sie hören, wie künstliche Intelligenz mithilfe von Deep-Learning-Techniken fast augenblicklich menschenähnliche Sprache synthetisiert. Sehen Sie sich einen modernen Blockbuster wie „Top Gun: Maverick“ an, und Sie bemerken vielleicht nicht einmal, dass die Stimme von Val Kilmer synthetisiert wurde – Kilmers echte Stimme wurde nach einer Tracheotomie beschädigt.

Im Jahr 1846 brauchte man jedoch einen Schilling und einen Ausflug in die Egyptian Hall in London, um die hochmoderne Sprachsynthese zu hören. In diesem Jahr wurde in der Halle „The Marvelous Talking Machine“ gezeigt, eine von PT Barnum produzierte Ausstellung, in der, wie der Teilnehmer John Hollingshead beschrieb, ein sprechendes „wissenschaftliches Frankenstein-Monster“ und sein „traurig dreinblickender“ deutscher Erfinder zu sehen waren.

Der mürrische Deutsche war Joseph Faber. Faber, ein Landvermesser, der zum Erfinder wurde, verbrachte zwei Jahrzehnte damit, die damals fortschrittlichste sprechende Maschine der Welt zu bauen. Er baute tatsächlich zwei, zerstörte aber das erste in einem „Anfall vorübergehender Geistesstörung“. Dies war nicht der erste Bericht der Geschichte über Gewalt gegen eine sprechende Maschine. Der deutsche Bischof Albertus Magnus aus dem 13. Jahrhundert soll nicht nur einen sprechenden Messingkopf gebaut haben – ein Gerät, das angeblich andere mittelalterliche Bastler konstruiert hatten –, sondern auch einen vollwertigen sprechenden Metallmann, „der auf Nachfrage Fragen sehr bereitwillig und wahrheitsgetreu beantwortete“. Der Theologe Thomas von Aquin, ein Schüler von Magnus, soll das Idol in Stücke gerissen haben, weil es nicht den Mund halten wollte.

Fabers Maschine wurde Euphonia genannt. Es sah aus wie eine Fusion zwischen einer Kammerorgel und einem Menschen und besaß ein „geheimnisvoll leeres“ Holzgesicht, eine Elfenbeinzunge, einen Blasebalg als Lunge und einen aufklappbaren Kiefer. Sein mechanisches Gehäuse war an einer Tastatur mit 16 Tasten befestigt. Durch das Drücken der Tasten in bestimmten Kombinationen in Verbindung mit einem Fußpedal, das Luft durch den Blasebalg drückte, konnte das System praktisch jeden Konsonanten- oder Vokalklang erzeugen und vollständige Sätze in Deutsch, Englisch und Französisch synthetisieren. (Seltsamerweise sprach die Maschine mit Andeutungen des deutschen Akzents ihres Erfinders, unabhängig von der Sprache.)

Unter Fabers Kontrolle begann der Automat der Euphonia Shows mit Zeilen wie: „Bitte entschuldigen Sie meine langsame Aussprache … Guten Morgen, meine Damen und Herren … Es ist ein warmer Tag … Es ist ein regnerischer Tag.“ Zuschauer würden ihm Fragen stellen. Faber drückte Tasten und Pedale, um eine Antwort zu veranlassen. Eine Londoner Show endete damit, dass Faber seinen Automaten „God Save the Queen“ rezitieren ließ, was er auf eine gespenstische Weise tat, die laut Hollingshead klang, als käme er aus den Tiefen eines Grabes.

Diese Maschine war einer der besten Sprachsynthesizer aus der sogenannten mechanischen Ära der Sprachsynthese, die das 18. und 19. Jahrhundert umfasste. Wissenschaftler und Erfinder dieser Zeit – insbesondere Faber, Christian Gottlieb Kratzenstein und Wolfgang von Kempelen – waren der Meinung, dass die beste Möglichkeit zur Synthese von Sprache darin bestehe, Maschinen zu bauen, die die an der Sprachproduktion beteiligten menschlichen Organe mechanisch nachbildeten. Das war keine leichte Aufgabe. Damals steckte die Akustiktheorie noch in den Kinderschuhen, und die Erzeugung menschlicher Sprache gab den Wissenschaftlern noch Rätsel auf.

„Ein großer Teil [der mechanischen Ära] versuchte wirklich zu verstehen, wie Menschen tatsächlich sprechen“, sagt Story. „Wenn man ein Gerät wie Faber oder die anderen baut, bekommt man schnell ein Verständnis dafür, wie komplex gesprochene Sprache ist, denn es ist schwierig, das zu tun, was Faber getan hat.“

Erinnern Sie sich an die Behauptung, dass Sprache die komplexeste motorische Aktion ist, die von allen Arten auf der Erde ausgeführt wird? Physiologisch könnte das durchaus stimmen. Der Prozess beginnt in Ihrem Gehirn. Ein Gedanke oder eine Absicht aktiviert Nervenbahnen, die eine Botschaft verschlüsseln und eine Kaskade muskulärer Aktivität auslösen. Die Lunge stößt Luft durch die Stimmbänder aus, deren schnelle Vibrationen die Luft in eine Reihe von Stößen zerteilen. Während diese Stöße durch den Stimmapparat wandern, formen Sie sie strategisch, um eine verständliche Sprache zu erzeugen.

„Wir bewegen unseren Kiefer, unsere Lippen, unseren Kehlkopf, unsere Lunge, alles in einer sehr exquisiten Koordination, um diese Geräusche hervorzubringen, und sie kommen mit einer Geschwindigkeit von 10 bis 15 [Phonemen] pro Sekunde heraus“, sagt Perkell.

Akustisch ist die Sprache jedoch einfacher. (Perkell weist auf den technischen Unterschied zwischen Sprache und Stimme hin, wobei sich Stimme auf den Klang bezieht, der von den Stimmbändern im Kehlkopf erzeugt wird, und Sprache sich auf die verständlichen Wörter, Phrasen und Sätze bezieht, die aus koordinierten Bewegungen des Stimmapparats und der Artikulatoren resultieren. „Stimme“ wird in diesem Artikel umgangssprachlich verwendet.) Als kurze Analogie: Stellen Sie sich vor, Sie blasen Luft in eine Trompete und hören einen Ton. Was passiert? Eine Interaktion zwischen zwei Dingen: einer Quelle und einem Filter.

Sie können das Source-Filter-Modell auf jeden Sound anwenden: Zupfen einer Gitarrensaite, Klatschen in einer Höhle, Bestellen eines Cheeseburgers an der Durchfahrt. Diese akustische Erkenntnis kam im 20. Jahrhundert und ermöglichte es Wissenschaftlern, die Sprachsynthese auf ihre notwendigen Komponenten zu reduzieren und die mühsame Aufgabe der mechanischen Nachbildung der an der Sprachproduktion beteiligten menschlichen Organe zu überspringen.

Faber hing jedoch immer noch an seinem Automaten fest.

Die Euphonia war größtenteils ein Flop. Nach seinem Aufenthalt in der Egyptian Hall verließ Faber stillschweigend London und verbrachte seine letzten Jahre damit, auf dem englischen Land aufzutreten, mit, wie Hollingshead es beschrieb, „seinem einzigen Schatz – seinem Kind unendlicher Arbeit und unermesslicher Trauer“.

Aber nicht jeder hielt Fabers Erfindung für eine seltsame Nebensache. Im Jahr 1845 erregte es die Fantasie des amerikanischen Physikers Joseph Henry, dessen Arbeiten zum elektromagnetischen Relais dazu beigetragen hatten, den Grundstein für den Telegraphen zu legen. Nachdem er die Euphonia bei einer privaten Vorführung gehört hatte, entstand in Henrys Kopf eine Vision.

„Die Idee, die er sah“, sagt Story, „war, dass man Sprache synthetisieren könnte, wenn man hier an [einer Euphonia-Maschine] sitzt, aber man würde die Tastenanschläge über Elektrizität an eine andere Maschine übertragen, die automatisch dieselben Tastenanschläge erzeugen würde, damit jemand.“ weit, weit weg würde ich diese Rede hören.

Mit anderen Worten: Henry stellte sich das Telefon vor.

Kein Wunder also, dass Henry einige Jahrzehnte später dazu beitrug, Alexander Graham Bell zur Erfindung des Telefons zu ermutigen. (Bells Vater war auch ein Fan von Fabers Euphonia gewesen. Er ermutigte Alexander sogar, seine eigene Sprechmaschine zu bauen, was Alexander auch tat – es könnte „Mama“ heißen.)

Henrys Vision ging über das Telefon hinaus. Schließlich wandelte Bells Telefon die Schallwellen der menschlichen Sprache in elektrische Signale um und auf der Empfängerseite dann wieder in Schallwellen. Was Henry voraussah, war eine Technologie, die Sprachsignale komprimieren und dann synthetisieren konnte.

Diese Technologie sollte fast ein Jahrhundert später auf den Markt kommen. Wie Dave Tompkins in seinem 2011 erschienenen Buch „How to Wreck a Nice Beach: The Vocoder from World War II to Hip-Hop, The Machine Speaks“ erklärte, geschah dies, nachdem ein Bell Labs-Ingenieur namens Homer Dudley eine Erleuchtung über das Sprechen hatte, als er in einem lag Krankenhausbett in Manhattan: Sein Mund war eigentlich ein Radiosender.

Dudleys Einsicht war nicht, dass sein Mund das Spiel der Yankees übertragen könnte, sondern vielmehr, dass die Sprachproduktion nach dem Quellen-Filter-Modell konzeptualisiert werden konnte – oder einem weitgehend ähnlichen Modell, das er als Trägernatur der Sprache bezeichnete. Warum ein Radio erwähnen?

In einem Funksystem wird eine kontinuierliche Trägerwelle (Quelle) erzeugt und dann durch ein Audiosignal (Filter) moduliert, um Radiowellen zu erzeugen. In ähnlicher Weise erzeugen die Stimmbänder im Kehlkopf (Quelle) bei der Sprachproduktion durch Vibration einen Rohton. Dieser Klang wird dann vom Stimmapparat (Filter) geformt und moduliert, um eine verständliche Sprache zu erzeugen.

Dudley interessierte sich jedoch nicht für Radiowellen. In den 1930er Jahren interessierte er sich für die Übertragung von Sprache über den Atlantischen Ozean, entlang des 2.000 Meilen langen transatlantischen Telegraphenkabels. Ein Problem: Diese Kupferkabel hatten Bandbreitenbeschränkungen und konnten nur Signale von etwa 100 Hz übertragen. Die Übertragung des Inhalts der menschlichen Sprache über das gesamte Spektrum erforderte eine Mindestbandbreite von etwa 3000 Hz.

Um dieses Problem zu lösen, musste die Sprache auf das Wesentliche reduziert werden. Zum Glück für Dudley und für die Kriegsanstrengungen der Alliierten bewegen sich die Artikulatoren, mit denen wir Schallwellen formen – unser Mund, unsere Lippen und unsere Zunge – langsam genug, um die Bandbreitengrenze von 100 Hz zu überschreiten.

„Dudleys große Erkenntnis war, dass viele der wichtigen phonetischen Informationen in einem Sprachsignal dem Stimmträger durch die sehr langsame Modulation des Stimmtrakts durch die Bewegung der Artikulatoren (bei Frequenzen von weniger als etwa 60 Hz) überlagert wurden“, so Story erklärt. „Wenn diese irgendwie aus dem Sprachsignal extrahiert werden könnten, könnten sie über das Telegrafenkabel gesendet und zur Wiederherstellung (dh Synthese) des Sprachsignals auf der anderen Seite des Atlantiks verwendet werden.“

Der elektrische Synthesizer, der dies tat, wurde Vocoder genannt, kurz für Voice Encoder. Es wurden Werkzeuge namens Bandpassfilter verwendet, um die Sprache in zehn separate Teile oder Bänder zu unterteilen. Das System würde dann Schlüsselparameter wie Amplitude und Frequenz aus jedem Band extrahieren, diese Informationen verschlüsseln und die verschlüsselte Nachricht über Telegrafenleitungen an einen anderen Vocoder übertragen, der die Nachricht dann entschlüsseln und schließlich „sprechen“ würde.

Ab 1943 nutzten die Alliierten den Vocoder zur Übertragung verschlüsselter Kriegsnachrichten zwischen Franklin D. Roosevelt und Winston Churchill als Teil eines Systems namens SIGSALY. Alan Turing, der englische Kryptoanalytiker, der die deutsche Enigma-Maschine knackte, half Dudley und seinen Ingenieurkollegen bei Bell Labs, den Synthesizer in ein Sprachverschlüsselungssystem umzuwandeln.

„Bis zum Ende des Krieges“, schrieb der Philosoph Christoph Cox in einem Essay aus dem Jahr 2019, „waren SIGSALY-Terminals an Orten auf der ganzen Welt installiert, auch auf dem Schiff, das Douglas MacArthur auf seinem Feldzug durch den Südpazifik beförderte.“

Obwohl das System die Sprache gut komprimieren konnte, waren die Maschinen riesig und nahmen ganze Räume ein, und die synthetische Sprache, die sie erzeugten, war weder besonders verständlich noch menschenähnlich.

„Der Vocoder“, schrieb Tompkins in „How to Wreck a Nice Beach“, „reduzierte die Stimme auf etwas Kaltes und Taktisches, Blechernes und Trockenes wie Suppendosen in einem Sandkasten und entmenschlichte sozusagen den Kehlkopf für einige der entmenschlichenderen Momente des Menschen.“ : Hiroshima, die Kubakrise, sowjetische Gulags, Vietnam. Churchill hatte es, FDR lehnte es ab, Hitler brauchte es. Kennedy war vom Vocoder frustriert. Mamie Eisenhower benutzte ihn, um ihrem Mann zu sagen, er solle nach Hause kommen. Nixon hatte einen in seiner Limousine . Reagan in seinem Flugzeug. Stalin in seinem zerfallenden Geist.

Das lebhafte und roboterhafte Timbre des Vocoders fand in der Musikwelt einen herzlicheren Empfang. Wendy Carlos verwendete eine Art Vocoder im Soundtrack zu Stanley Kubricks Film „Clockwork Orange“ aus dem Jahr 1971. Neil Young verwendete eines auf Trans, einem Album aus dem Jahr 1983, das von Youngs Versuchen inspiriert wurde, mit seinem Sohn Ben zu kommunizieren, der aufgrund einer Zerebralparese nicht sprechen konnte. In den folgenden Jahrzehnten hätte man einen Vocoder hören können, indem man einige der beliebtesten Namen der elektronischen Musik und des Hip-Hop hörte, darunter Kraftwerk, Daft Punk, 2Pac und J Dilla.

Der nächste große Meilenstein für die Sprachsynthesetechnologie würde im Computerzeitalter mit der Praktikabilität und Verständlichkeit des Text-to-Speech-Systems von Klatt erreicht werden.

„Die Einführung von Computern in der Sprachforschung schuf eine neue leistungsstarke Plattform zur Verallgemeinerung und Generierung neuer, bisher nicht aufgezeichneter Äußerungen“, sagt Rolf Carlsson, ein Freund und Kollege von Klatt und derzeit Professor am schwedischen KTH Royal Institute of Technologie.

Computer ermöglichten es Sprachsyntheseforschern, Kontrollmuster zu entwerfen, die synthetische Sprache auf bestimmte Weise manipulierten, um sie menschlicher klingen zu lassen, und diese Kontrollmuster auf clevere Weise zu schichten, um die Art und Weise, wie der Stimmtrakt Sprache erzeugt, genauer zu simulieren.

„Als diese wissensbasierten Ansätze vollständiger wurden und die Computer kleiner und schneller wurden, wurde es endlich möglich, Text-zu-Sprache-Systeme zu entwickeln, die außerhalb des Labors verwendet werden konnten“, sagte Carlsson.

Hawking sagte, er mochte Perfect Paul, weil er dadurch nicht wie ein Dalek klang – eine außerirdische Rasse in der Doctor Who-Serie, die mit computerisierten Stimmen sprach.

Ich bin mir nicht sicher, wie Daleks klingen, aber für mein Ohr klingt Perfect Paul ziemlich roboterhaft, besonders im Vergleich zu modernen Sprachsyntheseprogrammen, die schwer von einem menschlichen Sprecher zu unterscheiden sind. Aber der menschliche Klang ist bei einem Sprachsynthesizer nicht unbedingt das Wichtigste.

Da es sich bei vielen Nutzern von Sprachsynthesizern um Menschen mit Kommunikationsbehinderungen handelte, sagte Price, war Dennis „sehr auf die Verständlichkeit bedacht, insbesondere auf die Verständlichkeit unter Stress – wenn andere Leute sprechen oder sich in einem Raum mit anderen Geräuschen befinden oder wenn man die Geschwindigkeit erhöht.“ noch verständlich?

Der perfekte Paul mag wie ein Roboter klingen, aber er ist zumindest einer, der leicht zu verstehen ist und bei dem es relativ unwahrscheinlich ist, dass er ein Wort falsch ausspricht. Dies war eine große Erleichterung, nicht nur für Menschen mit Kommunikationsbehinderungen, sondern auch für diejenigen, die DECtalk auf andere Weise nutzten. Das Unternehmen Computers in Medicine bot beispielsweise einen Telefondienst an, bei dem Ärzte zu jeder Tages- und Nachtzeit eine Nummer anrufen und sich von einer DECtalk-Stimme die Krankenakten ihrer Patienten vorlesen lassen konnten, wobei Medikamente und Erkrankungen ausgesprochen wurden.

„DECtalk konnte diese [medizinischen Fachbegriffe] besser aussprechen als die meisten Laien“, zitierte Popular Mechanics in einem Artikel aus dem Jahr 1986 einen Geschäftsführer einer Computerfirma.

Um dieses Maß an Verständlichkeit zu erreichen, musste ein ausgefeiltes Regelwerk entwickelt werden, das die Feinheiten der Sprache erfasst. Versuchen Sie zum Beispiel zu sagen: „Joe hat seine Suppe gegessen.“ Machen Sie es jetzt noch einmal, aber achten Sie darauf, wie Sie das /z/ in „his“ ändern. Wenn Sie fließend Englisch sprechen, würden Sie wahrscheinlich das /z/ von „his“ mit dem benachbarten /s/ von „soup“ vermischen. Dadurch wird das /z/ in einen stimmlosen Ton umgewandelt, was bedeutet, dass die Stimmbänder nicht vibrieren, um den Ton zu erzeugen.

Dennis‘ Synthesizer konnte nicht nur Modifikationen vornehmen, wie z. B. das /z/ in „Joe aß seine Suppe“ in einen stimmlosen Klang umwandeln, sondern er konnte Wörter auch basierend auf dem Kontext korrekt aussprechen. Eine DECtalk-Werbung aus dem Jahr 1984 bot ein Beispiel:

„Bedenken Sie den Unterschied zwischen 1,75 und 1,75 Millionen US-Dollar. Primitive Systeme würden dies als „Dollar-eins-Periode-sieben-fünf“ und „Dollar-eins-Periode-sieben-fünf-Millionen“ lesen. Das DECtalk-System berücksichtigt den Kontext und interpretiert diese Zahlen korrekt als „ein Dollar und fünfundsiebzig Cent“ und „eins Komma sieben fünf Millionen Dollar“.

DECtalk verfügte außerdem über ein Wörterbuch mit benutzerdefinierten Aussprachen für Wörter, die den herkömmlichen phonetischen Regeln widersprechen. Ein Beispiel: „calliope“, das phonetisch als /kəˈlaɪəpi/ dargestellt und „kuh-LYE-uh-pee“ ausgesprochen wird.

Das Wörterbuch von DECtalk enthielt auch einige andere Ausnahmen.

„Er erzählte mir, dass er ein paar Easter Eggs in sein Sprachsynthesesystem einbaute, damit jemand, der es kopierte, erkennen konnte, dass es sein Code war“, sagt Price und fügt hinzu, dass sie, wenn sie sich richtig erinnert, „suanla chaoshou“ eingegeben hat, was einer war von Klatts liebsten chinesischen Gerichten würde den Synthesizer „Dennis Klatt“ sagen lassen.

Einige der wichtigsten Verständlichkeitsregeln von DECtalk konzentrierten sich auf Dauer und Intonation.

„Klatt hat ein Text-to-Speech-System entwickelt, bei dem die natürliche Dauer zwischen Wörtern vorprogrammiert und auch kontextabhängig war“, sagt Story. „Er musste einprogrammieren: Wenn man ein S braucht, es aber zwischen einem Ee und einem Ah liegt, wird es etwas anderes machen, als wenn es zwischen einem Ooo und einem Oh liegt. Man musste also all diese kontextuellen Regeln haben.“ dort auch eingebaut, und auch Pausen zwischen Wörtern einzubauen, und dann alle prosodischen Eigenschaften haben: Bei einer Frage geht die Tonhöhe nach oben, bei einer Aussage geht die Tonhöhe nach innen.

Die Fähigkeit, die Tonhöhe zu modulieren, bedeutete auch, dass DECtalk singen konnte. Nachdem TA Heppenheimer von Popular Science 1986 der Maschine zugehört hatte, wie sie „New York, New York“ sang, kam er zu dem Schluss, dass „es keine Bedrohung für Frank Sinatra darstellte“. Aber auch heute noch gibt es auf YouTube und in Foren wie /r/dectalk eine kleine, aber enthusiastische Gruppe von Menschen, die den Synthesizer – oder Software-Emulationen davon – verwenden, um ihn Lieder singen zu lassen, von „So sprach Zarathustra“ von Richard Strauss bis zum Internet -berühmtes „Trololo“-Lied zu „Happy Birthday to You“, das Dennis DECtalk zum Geburtstag seiner Tochter Laura singen ließ.

DECtalk war nie ein anmutiger Sänger, aber er war immer verständlich. Ein wichtiger Grund liegt darin, wie das Gehirn Sprache wahrnimmt, ein Forschungsgebiet, zu dem auch Klatt beigetragen hat. Das Gehirn benötigt viel kognitive Anstrengung, um Sprache von schlechter Qualität richtig zu verarbeiten. Langes Anhören kann sogar zu Müdigkeit führen. Aber DECtalk war „irgendwie hyperartikuliert“, sagt Price. Es war leicht zu verstehen, selbst in einem lauten Raum. Es verfügte auch über Funktionen, die besonders für Menschen mit Sehproblemen nützlich waren, wie z. B. die Möglichkeit, das Lesen von Texten zu beschleunigen.

1986 war der DECtalk-Synthesizer bereits zwei Jahre auf dem Markt und hatte einige kommerzielle Erfolge. Dennis‘ Gesundheitszustand verschlechterte sich inzwischen. Diese Wendung des Schicksals fühlte sich wie ein „Handel mit dem Teufel“ an, sagte er gegenüber Popular Science.

Der Teufel muss mit den günstigeren Ergebnissen des Handels einverstanden gewesen sein. In einer Werbung hieß es: „[DECtalk] kann einer sehbehinderten Person eine effektive und kostengünstige Möglichkeit bieten, mit Computern zu arbeiten. Und es kann einer sprachbehinderten Person die Möglichkeit geben, ihre Gedanken persönlich oder am Telefon auszudrücken.“ "

Dennis begann seine wissenschaftliche Karriere nicht mit der Mission, behinderten Menschen bei der Kommunikation zu helfen. Vielmehr war er von Natur aus neugierig auf die Geheimnisse der menschlichen Kommunikation.

„Und dann entwickelte sich daraus: ‚Oh, das könnte wirklich für andere Menschen nützlich sein‘“, sagt Mary. „Das war wirklich befriedigend.“

Im Jahr 1988 entwickelte sich Hawking schnell zu einem der berühmtesten Wissenschaftler der Welt, vor allem dank des überraschenden Erfolgs von „Eine kurze Geschichte der Zeit“. Dennis war sich inzwischen bewusst, dass Hawking begonnen hatte, die Perfect Paul-Stimme zu verwenden, sagt Mary, aber er war bei seiner Arbeit immer bescheiden und „ging nicht herum, um alle daran zu erinnern“.

Nicht, dass jeder eine Erinnerung brauchte. Als Perkell Hawkings Stimme zum ersten Mal hörte, war es „für mich unverkennbar, dass das KlattTalk war“, die Stimme, die er regelmäßig aus Dennis‘ MIT-Büro gehört hatte.

Mary möchte lieber nicht über die Ironie nachdenken, dass Dennis gegen Ende seines Lebens seine Stimme verliert. Er sei immer optimistisch gewesen, sagt sie. Er war ein richtungsweisender Wissenschaftler, der es liebte, Mozart zuzuhören, Abendessen für seine Familie zu kochen und daran zu arbeiten, das Innenleben der menschlichen Kommunikation zu erhellen. Genau das tat er bis eine Woche vor seinem Tod im Dezember 1988.

Perfect Paul spielte in den 1980er und 1990er Jahren die verschiedensten Sprechrollen. Es lieferte die Wettervorhersage im NOAA Weather Radio, lieferte Fluginformationen auf Flughäfen, sprach die Fernsehfigur Mookie in „Tales from the Darkside“ und die Roboterjacke in „Zurück in die Zukunft Teil II“. Es sprach in Episoden der Simpsons, war in dem treffend benannten Pink-Floyd-Song „Keep Talking“ zu hören, inspirierte Insider-Witze im Online-Videospiel „Moonbase Alpha“ und ließ Zeilen auf Rap-Tracks von MC Hawking wie „All My Shootings Be Drivebys“ fallen. (Der echte Hawking sagte, er fühle sich von den Parodien geschmeichelt.)

Hawking verwendete fast drei Jahrzehnte lang die Stimme von Perfect Paul. Im Jahr 2014 produzierte er noch Perfect Paul bis 1986 mit CallText-Synthesizer-Hardware, die Klatts Technologie und die Perfect Paul-Stimme nutzte, aber andere prosodische und phonologische Regeln als DECtalk aufwies. Die Retro-Hardware wurde zum Problem: Der Hersteller hatte sein Geschäft aufgegeben und es gab nur noch eine begrenzte Anzahl an Chips auf der Welt.

So begann eine konzertierte Anstrengung, Hawkings Stimme zu retten. Der Fang?

„Er wollte genau gleich klingen“, sagt Price. „Er wollte es nur in der Software haben, weil eine der ursprünglichen Platinen kaputt war. Und dann wurde er nervös, weil er keine Ersatzplatinen mehr hatte.“

Es gab frühere Versuche, den Klang von Hawkings Synthesizer durch Software zu reproduzieren, aber Hawking hatte sie alle abgelehnt, einschließlich eines Versuchs mit maschinellem Lernen und früher Versuche des Teams, mit dem Price zusammenarbeitete. Für Hawking klang keines ganz richtig.

„Er benutzte es so viele Jahre lang, dass es zu seiner Stimme wurde und er keine neue wollte“, sagt Price. „Vielleicht hätten sie seine alte Stimme aus alten Aufnahmen von ihm simulieren können, aber das wollte er nicht. Das war seine Stimme geworden. Tatsächlich wollte er ein Urheberrecht oder ein Patent oder irgendeinen Schutz erhalten, damit niemand anderes es konnte.“ Benutze diese Stimme.

Hawking hat die Stimme nie patentieren lassen, obwohl er sie als sein Markenzeichen bezeichnete.

„Ich würde sie nicht gegen eine natürlichere Stimme mit britischem Akzent eintauschen“, sagte er 2014 in einem Interview mit der BBC. „Mir wurde gesagt, dass Kinder, die eine Computerstimme brauchen, eine wie meine wollen.“

Nach Jahren harter Arbeit, Fehlstarts und Ablehnungen gelang es dem Team, mit dem Price zusammenarbeitete, schließlich, die alte Hardware zurückzuentwickeln und zu emulieren, um eine Stimme zu erzeugen, die für Hawkings Ohren fast identisch mit der Version von 1986 klang.

Der Durchbruch gelang nur wenige Monate vor Hawkings Tod im März 2018.

„Wir wollten die große Ankündigung machen, aber er hatte eine Erkältung“, sagt Price. „Es ging ihm nie besser.“

Die Sprachsynthese ist heute im Vergleich zu den 1980er Jahren praktisch nicht mehr wiederzuerkennen. Anstatt zu versuchen, den menschlichen Stimmapparat auf irgendeine Weise nachzubilden, verwenden die meisten modernen Text-zu-Sprache-Systeme Deep-Learning-Techniken, bei denen ein neuronales Netz auf einer großen Anzahl von Sprachproben trainiert wird und lernt, Sprachmuster auf der Grundlage der vorliegenden Daten zu generieren ausgesetzt.

Das ist weit entfernt von Fabers Euphonia.

„Die Art und Weise, wie [moderne Sprachsynthesizer] Sprache erzeugen“, sagt Story, „hat in keiner Weise etwas damit zu tun, wie ein Mensch Sprache produziert.“

Zu den beeindruckendsten Anwendungen von heute gehört die Sprachklonungs-KI wie Microsofts VALL-E Die KI kann sogar die Stimme des ursprünglichen Sprechers in einer anderen Sprache nachahmen und dabei auch die Emotionen und den Ton einfangen.

Nicht alle Sprachwissenschaftler lieben unbedingt die Wahrhaftigkeit der modernen Synthese.

„Dieser Trend, sich mit Maschinen zu unterhalten, beunruhigt mich tatsächlich sehr“, sagt Perkell und fügt hinzu, dass er es vorzieht, zu wissen, dass er mit einer echten Person spricht, wenn er telefoniert. „Es entmenschlicht den Kommunikationsprozess.“

In einer Arbeit aus dem Jahr 1986 schrieb Dennis, dass es schwierig sei abzuschätzen, welche Auswirkungen immer ausgefeiltere Computer, die zuhören und sprechen können, auf die Gesellschaft haben würden.

„Sprechende Maschinen mögen nur eine vorübergehende Modeerscheinung sein“, schrieb er, „aber das Potenzial für neue und leistungsstarke Dienste ist so groß, dass diese Technologie weitreichende Folgen haben könnte, nicht nur auf die Art der normalen Informationserfassung und -übertragung, sondern auch auf.“ unsere Einstellung zur Unterscheidung zwischen Mensch und Computer.“

Als er über die Zukunft sprechender Maschinen nachdachte, ging Dennis wahrscheinlich davon aus, dass neuere und ausgefeiltere Technologien die Stimme von Perfect Paul irgendwann überflüssig machen würden – ein Schicksal, das sich weitgehend abgespielt hat. Was Dennis jedoch kaum hätte vorhersagen können, war das Schicksal des perfekten Paulus um das 55. Jahrhundert. Dann wird ein Schwarzes Loch ein Signal von Perfect Paul verschlucken.

Als Hommage an Hawking nach seinem Tod strahlte die Europäische Weltraumorganisation im Juni 2018 ein Signal aus, in dem Hawking in Richtung eines Doppelsternsystems namens 1A 0620–00 sprach, in dem sich eines der der Erde am nächsten gelegenen bekannten Schwarzen Löcher befindet. Wenn das Signal dort ankommt, nachdem es etwa 3.400 Jahre lang mit Lichtgeschwindigkeit durch den interstellaren Raum gestrahlt hat, wird es den Ereignishorizont überqueren und auf die Singularität des Schwarzen Lochs zusteuern.

Die Übertragung dürfte die erste Interaktion der Menschheit mit einem Schwarzen Loch sein.

Eine sprechende Maschine bauen Perfect Paul perfektionieren Sprechende Köpfe Die Sprachkette John Henry und Zukunftsvisionen Der Vocoder und die Trägernatur der Sprache DECtalk erreicht den Mainstream Perfect Pauls Stimme in der Welt Das Schicksal von Perfect Paul