|
Nachrichten
von der Pixelfront (erschienen im plimp film magazin)
Jones
recites Webster's J.R. Searle sagt: "sagen oder meinen schließt ei n, daß man die Intention hat bestimmte (illokutionäre) Wirkungen auf Seiten des Hörers hervorzurufen." Die Wirkung, die er intendiert indem er dieses sagt (oder meint) besteht z.B. darin, daß sein Gegenüber antwortet: "In der Tat !" - was Searle wiederum (entsprechend der Intention seines Gegenübers) darin bestärkt, daß er von diesem wahrgenommen, gehört und verstanden wurde und daß dieser an einer Kommunikation interessiert ist (> Habermas). Die Entwicklung künstlicher, natürlich-sprachlicher Systeme muß demnach wohl von der gleichen Intention geprägt sein, einer Maschine die ‘Intention’ einzupflanzen, Wirkungen beim Benutzer des Systems auszulösen, wie sie für sprachliche Kommunikation typisch sind. Und zwar, wie Alan Turing forderte, in einer Weise, daß für diesen Benutzer nicht zu entscheiden ist, ob er es mit einem Menschen oder einer Maschine zu tun hat. Bemerkenswert ist dabei, daß das Kriterium nicht direkt an der kommunikativen Handlung ansetzt, sondern sich auf das Bild stützt, das der Benutzer im Verlauf der Kommunikation von seinem Gegenüber anfertigt. Eine Schwäche im Ansatz so mancher Artificial Intelligence (AI) Produkte zeigt sich darin, daß man offenbar geneigt war diese Turing-Formel als Handlungsanweisung zu lesen: konstruiere Maschinen die so tun als wären sie Menschen, oder: tu so, als wäre menschliche Kommunikation auf ein endliches Repertoire reduzierbar und auf ein formales System abbildbar (z.B. ‘Blockwelt’, Minsky’s ‘frames’). Als prominentes Beispiel kann das von Josef Weizenbaum konzipierte Programm Eliza gelten, das dem Benutzer mit intelligent eingesetzten, psychologischen Tricks den Eindruck einer natürlich-sprachlichen Kommunikation vermittelt. Da es zunächst als Durchbruch auf dem Gebiet natürlich-sprachlicher Systeme gefeiert wurde, wird es nun auch gerne als Beweis dafür genommen, wie leicht AI-Forscher ihren eigenen Tricks auf den Leim gehen. Der entscheidende Einwand gegen die Hypothese, daß digitale Computer (prinzipiell) denken können besteht darin, wie u.a. Searle ausführt, daß Computerprogramme per definitionem formal (syntaktisch) strukturierte Algorithmen sind, denen jedoch die Semantik fehlt: es werden Operationen mit Zahlen durchgeführt, die Maschine hat aber weder von der Operation noch von der Zahl einen Begriff - zumindest, würde ich meinen, nicht im Sinne von ‘Bedeutung’ wie sie für menschliches Denken signifikant ist. Searle nennt als Merkmale für Geist Bewußtsein, Intentionalität, Subjektivität und geistige Verursachung. Statt dieser Begriffe verwendet man in diesen Bereichen vorzugsweise den Begriff der Intelligenz, der ganz unterschiedlich und vielfach nicht explizit, sondern durch das jeweilige Problemverständnis und entsprechende Lösungsansätze definiert wird. Die Pseudointelligenz von Maschinen wird de-facto an ihrer Entschlüsselbarkeit durch den Benutzer gemessen. Eine andere Lesart des Turing Tests führt zur philosophischen Position, daß Intelligenz oder Intentionen des Gegenüber (als Indizien, daß es sich um einen Menschen handeln könnte) Phänomene im kognitiven Bereich des Beobachters sind. Obwohl es einleuchten dürfte, daß Intelligenz nicht die Eigenschaft einer Äußerung (eines Satzes oder eines Aufsatzes) ist, sondern vielleicht eher des Geistes der sie produzierte, tendieren wir dazu Äußerungen als Manifestation von Intelligenz zu nehmen und stützen damit die Vorstellung, daß Sprache denotativ sei, also das alte Schema von Sender, Botschaft und Empfänger. Der konstruktivistische Ansatz hält Sprache für konnotativ: das was man für übertragbar hält, muß durch den Hörer geschaffen werden. Im weniger radikalen
Ansatz der Psycholinguistik werden empirische Ergebnisse dahingehend interpretiert,
daß sprachliche Wahrnehmung als ein Prozeß der Bildung stabiler
Hypothesen über die situativ wahrgenommenen Reize (im Sprachsignal)
anzusehen ist. In dem Punkt, daß dieser Prozeß mit dem Ziel
der Optimierung einer besten Hypothese als kompositional verstanden wird
ähneln sich die beiden Ansätze. * 1985 habe ich zusammen mit David Wohlhart verschieden Arbeiten realisiert, die wohl in den Bereich der sogenannten Computerkunst fallen und doch wesentlich von einem Interesse an theoretischen Fragestellungen geprägt, und sicherlich von Ansätzen der AI-Forschung und Kognitionswissenschaften motiviert waren. Eine dieser Arbeiten, nämlich "Jones recites Webster’s" möchte ich hier beschreiben und in einigen konzeptionellen Überlegungen darstellen. Es handelt sich um ein Computerprogramm das verschiedene Aspekte von Sprache synthetisiert, also um ein Sprachstück, eine Rezitation. In der Annäherung an das Thema ist eine ganze Reihe verschiedener Versionen entstanden, mehrere Videoversionen ("Der Heimcomputer will sein Gedicht aufsagen"), einige stand-alone Computerstücke und schließlich das Konzept einer interaktiven Installation. Ich beziehe mich hier auf eine der Computerversionen, ein achtminütiges Hör- und Sehstück in der Tradition der time-based-arts. Wenngleich komplexe algorithmische Verfahren (wie z.B. Neural Networks, Fuzzy Logic oder Genetic Algorithms) dem Computer scheinbar Eigenschaften verleiht, die man kaum von einer Rechenmaschine erwarten würde (z.B. eine gewisse Art von Lernfähigkeit), so entspricht die Bauweise und damit seine Arbeitsweise grundsätzlich dem, worauf seine Bezeichnung verweist - er ist ein ‘Zusammenrechner’. Dieses funktionale Konzept ist schattenhaft in den avanciertesten Algorithmen als Erbgut erkennbar, wenn oft auch nur als das, was solche Algorithmen zu überwinden suchen - und was offenbar überwunden werden muß, wenn man Computern das Denken beibringen will, oder natürliche Sprache. Der Computer eignet sich aufgrund seiner Bau- und Arbeitsweise zunächst gut für die Manipulation von Zahlen oder Symbolen und somit für Aufgabenstellungen, die sich in Zahlen oder Symbolen darstellen lassen (> Turing) und deren Verarbeitung sich formalisieren läßt, für das Verwalten von Listen, das Wiederholen von Prozessen, etc. Beispielsweise kann aus Datensätzen (die verbuchten Ausgaben, Einnahmen, etc.) eines Unternehmens ein Bild des Geschäftsjahres erstellt werden. Der Computer ist also ein Darstellungssystem, das bestimmte Aspekte (z.B. die Gewinnkurve) explizit macht. Inwieweit diese Aspekte signifikante Beschreibungen der Geschäftssituation darstellen, liegt zunächst an der Wahl der Datensätze und den Verarbeitungsverfahren und nicht zuletzt an der Interpretation der Darstellung. Der Computer synthetisiert ein Bild aus Bestandteilen und deren Verknüpfungen, die in der analytischen Betrachtung eines Vorgangs mittels Abstraktion und Formalisierung gewonnen wurden. Was liegt also näher - für unsere Zwecke - als bestimmte Aspekte menschlicher Sprache mit diesen Grundeigenschaften des Computers darzustellen: wir wählen einfach geeignete Datensätze und verwenden den Computer als Koordinator, um wiederum ein Ganzes - also Sprache - zu sythetisieren (Leuten, für die der Spaß hier aufhört, vielleicht Linguisten, Mentalisten oder Anbietern von natürlich-sprachlichen Systemen wird empfohlen unsere kleine Expedition hier zu verlassen). Um gar nicht erst in das Gefahrenfeld widersprechender Theorien über die kortikale oder mentale Produktion von Sprache und deren algorithmische Simulation (> Computerparadigma) zu geraten suchen wir uns - wie ein Kleinkind, das sprachliche Laute in ein umfassenderes Weltverständnis zu integrieren versucht - den personalen Ort an dem sich Sprache materialisiert: den Mund. Wir suchen uns einen Mund für unseren Heimcomputer! Ein solcher Datensatz von Mündern findet sich im Standardwerk der englischen Phonetik von Daniel Jones aus dem Jahr 1914, in welchem er seinen eigenen Mund bei der Bildung der verschiedenen Phoneme fotografierte (Abb.1). Diese Photographien haben wir digitalisiert um sie im Computer speichern und auf dem Monitor darstellen zu können und wir haben ein Programm geschrieben, das sie in der Art des ‘page-flippings’ zum Film einer beliebigen Mundbewegung animiert. Wir haben also im Prinzip Daniel Jones’ Mund in Sprechbewegung und zwar von 1914 (oder davor) als Film synthetisiert. Das ist deshalb möglich, da uns Jones in seiner Eigenschaft als auf Vollständigkeit und Korrektheit bedachter Phonologe ein komplettes Set von signifikanten Lippenstellungen seines eigenen Mundes hinterlassen hat. Und da er unter jedes Bildchen eine Legende geschrieben hat, wie z.B. ‘The English vowel a: in normal speech’ wissen wir recht genau, welchen Laut Jones’ Mund gerade bildete als er auf den Auslöser drückte. Dieser glückliche Umstand erlaubte uns, jedem Bildchen, das wir von Jones’s Mund gespeichert hatten und somit graphisch darstellen konnten, ein akustisches Merkmal zuzuordnen, eben das Phonem, das der Lippenstellung (laut Jones’ Legenden zu den Bildchen) entspricht. Dazu verwendeten wir eine Phonem-Bibliothek, die es auch für den von uns damals verwendeten Computer gab, und mit welcher man geschriebene Sprache in das bekannte, monotone Gekrächze eines Computers transformieren kann. Diese Phonem-Bibliothek bildete somit den zweiten Datensatz. Die Reihenfolge, in der die Mundbilder hintereinander abgespielt werden um eine kontinuierliche Sprechbewegung zu erzeugen ist natürlich nicht wie bei einem Film festgelegt. Mittels des Computers kann jede beliebige Kombination und Reihenfolge unmittelbar abgerufen werden. Wir können also Daniel Jones alles in den Mund legen, was uns so einfällt... - Moment! Wir haben uns oben vorgenommen Datensätze zu verwenden, die hinsichtlich der Grundeigenschaften eines Computers ideal zu verarbeiten sind. Hier fiel meine Wahl auf die alphabetisch geordnete Liste von Wörtern in einem Wörterbuch und diese Wahl wird sicherlich auch dahingehend bestätigt, als Daniel Jones als Sprachanalytiker wohl mit Vorliebe einige Seiten aus Webster's Dictionary hätte rezitieren wollen - insbesondere aus der Ausgabe von 1977. Einige Seiten, genau genommen meine Lieblingsseiten aus Webster’s New Collegiate Dictionary dienten also als dritter Datensatz (Abb.3). Und schließlich
hat uns Jones in seiner Phonologie noch einen Satz von Querschnitten durch
seinen Kopf hinterlassen, der die Stellung der Sprechwerkzeuge bei der
Bildung der einzelnen Phoneme zeigt. Dieser Datensatz wird wie der Mund-Datensatzes
aufbereitet und kann alternativ dazu verwendet werden (Abb.2).
data sets: 1. DANIEL JONES
: AN OUTLINE OF ENGLISH PHONETICS, 1914 2. phonemeLibrary 3. WEBSTER'S
NEW COLLEGIATE DICTIONARY, 1977 Wir sehen einen sprechenden Mund und hören, daß er spricht: syllabic, syllabical, syllabically, syllabicate, syllabication,... Was unterscheidet diesen von anderen Mündern die wir täglich hundertfach sehn und hören? Offenbar die Beziehung die das Sprechen zum Sprecher, zum Angesprochenen, zum Gegenstand der Rede hat: Sprechen und Sprachwahrnehmung werden sinnvollerweise als Handeln verstanden, als Orientierungsinteraktionen eines Organismus in einem sprachlichen und sozialen Bereich. ‘Jones recites Webster’s’ hingegen ist eine streng formale Konstruktion, eine kleine Sprechmaschine, wobei sich Orientierungsinteraktionen wenn überhaupt auf theoretische Instanzen beziehen: Sprache hat eine lineare, sequentielle Struktur; sie ist zeitbasiert. Sowohl in Jones’ Phonologie als auch in Webster’s Dictionary sind Bestandteile der Sprache aus ihrem zeitlichen Zusammenhang genommen: Die Mundbilder sind Momentaufnahmen der Lippenstellung bei der Lautbildung in der Absicht die unendlich vielen Zustände der kontinuierlichen Bewegung sprechender Lippen auf ein begrenztes Repertoire charakteristischer Momente zu reduzieren. Das Wörterbuch isoliert Lexeme aus kontextuellen und zeitlichen Zusammenhängen und bringt sie in eine die Suche eines einzelnen Lexems unterstützende Ordnung. Das zeitliche Hintereinander wird in eine räumliche Systematik transformiert, da es für das Auffinden einzelner Wörter günstig ist, sie alle gleichzeitig vor sich zu haben. Diese aus der Zeit extrahierten Sprachelemente erfüllen unseren Vorsatz, adäquate Datensätze hinsichtlich der für Computer typischen, funktionalen Konzeption zu verwenden; in gewisser Weise spiegelt die interne Logik und Organisation der Datensätze und Verfahren das funktionale Prinzip des Computers. Das ablaufende Programm, das die einzelnen Sprachelemente sequentiell abruft, stellt wiederum einen zeitlichen Bezug zwischen ihnen her. Die im Programm gebundene zeitliche Struktur generiert die für Sprache typische Sequentialität. Die alphabetische Ordnung, die in ‘Jones recites Webster’s’ gewissermaßen syntaktische Funktion hat, ist ein Paradefall einer linearen, sequentiellen Struktur. Das Ökonomieprinzip der Minimalität und der Redundanzfreiheit ist darin optimiert. Das alphabetische Prinzip bewirkt, daß beim Übergang von einem Wort zum nächsten immer ein größtmöglicher Wortteil konserviert, bzw. die kleinstmögliche Veränderung zugelassen wird. Wenn die alphabetisch geordneten Wörter an der selben Stelle des Bildschirms sequentiell ablaufen, so verändert sich nur eine mehr oder minder lange Wortendung, wobei jeder Buchstabe potentiell 26mal so träge bezüglich seiner Veränderung ist als sein rechter Nachbar. Die Buchstaben SY bilden das statisches Zentrum (Abb.4). In gleicher Weise beruht die Bewegungsillusion im Film auf der minimalen Differenz der Kader; Unterschiede in dieser Differenz der Kader bestimmen die Geschwindigkeit der Bewegung. Es kann vermutet werden, daß die Abfolge kontextisolierter Wörter Erinnerungsbilder auslöst und zugleich rhythmisch-melodisch wahrgenommen wird und daß die Permutation eines Worts aus dem anderen einmal zu semantisch verwandten, dann wieder klanglich ähnlichen Wörtern führt und sich so verschiedene Wahrnehmungsformen überlagern. Die mehrdimensionale mediale Überbestimmung - Lippenbewegung plus Phonem plus Schrift plus Bedeutung, die assoziative Verknüpfung verschiedener Sinneseindrücke wirkt suggestiv. Ob die Rezitation etwas gedichtartiges an sich hat, entscheidet natürlich die Interpretation des Beobachters. Indizien dafür wären: Einwortsätze erinnern an Kindersprache; die strukturelle Wiederholung; das auswendig hersagen; die Klangbilder, hervorgerufen durch die alphabetische Reihung ähneln homophonischen Schüttelreimen; Singsang; Stocken als Rhythmuskonzept; Stammeln als Abstraktion und partielle Rekonstruktion von Teilen der im Laufe einer langen kulturellen Entwicklung entstandenen natürlich-sprachlichen Kommunikation. Maturana sagt:
a creative interaction always is a non-communicative one...
J.R.Searle, 1977: Sprechakte, ein sprachphilosophischer Essay, Suhrkamp nach Habermas erkennt der Hörer ferner die Gültigkeit der geäußerten symbolischen Gebilde an, nämlich, daß ein Satz grammatisch, eine Aussage wahr, ein intentionaler Ausdruck wahrhaftig und eine Äußerung korrekt ist. Turing Test: ein Spieler hat zu entscheiden, ob die Antworten auf seine Fragen von einem Menschen oder einer Maschine kommt. Wenn er es nicht entscheiden kann, und das ist zumindest möglich, sagt Turing, muß man fairerweise zugeben, daß eine Maschine denken und lernen kann wie ein menschliches Gehirn. Artificial Intelligence J.R.Searle, 1986: Geist, Hirn und Wissenschaft, Suhrkamp vgl. Wittgenstein: (für eine große Klasse von Fällen gilt) die Bedeutung eines Wortes ist sein Gebrauch in der Sprache Eine der Videoversionen liegt in der Medienwerkstatt Wien auf, eine andere wurde im Rahmen des Steirischen Kunstpreises 1986 angekauft (vermutlich Neuen Galerie Graz). Ferner gab eine Commodore64 Version, 5 min, geschrieben in Simon's Basic, unter Verwendung von Reciter und Musicalc, offensichtlich verschollen und eine Amiga Version, 8min, geschrieben in C. Für die Module (d, ftrans, fspeak, flined) zeichnet David Wohlhart. Diese existiert wohl noch ist aber in Ermangelung entsprechender Hardware nicht vorführbar. Turing's Definition einer universellen Maschine besagt, daß sie alles berechnen kann, was beschreibbar, also in Hinblick auf die Funktionsweise der Maschine formalisierbar ist. das sogenannte Computerparadigma; die These, daß kognitive Prozesse auf algorithmische Weise adäquat modelliert werden können
|