Dies ist der mittlere Informationsgehalt eines Zeichens in der oben charakterisierten Sprache. Die Shannonsche Formel ist der Ausgangspunkt für viele nützliche und interessante Berechnungen in unterschiedlichen Gegenstandsbereichen, sowohl in der Nachrichtentechnik wie anderswo. Erwähnt seien nur die Informationspsychologie (die untersucht, welche quantitativen Informationsverhältnisse das menschliche und tierische Nervensystem bestimmen) oder die heftig diskutierte Informationsästhetik (die versucht, diese Begriffe auf ästhetische Nachrichten - Gedichte, Bilder, Musikstücke - anzuwenden; siehe dazu vor allem: R. Gunzenhäuser, "Informationstheorie und Ästhetik" und W. Fuchs, "Gibt es mathematische Gesetze in Sprache und Musik?", beide in "Kybernetik - Brücke zwischen den Wissenschaften", 5. Auflage, Frankfurt 1965).
Der Leser mag bemerkt haben, dass der Informationsbegriff in diesem Sinne eine Spezialisierung des Strukturbegriffes ist, wie wir es schon ausgeführt haben. Diese Interpretation zeigt, dass Kommunikation eine spezielle Struktur ist. Ihre Strukturmuster sind die Nachrichten, und ihre Strukturelemente sind die Zeichen der Sprache. Varietät ist Information; die Formeln sind entsprechend übertragbar. Dies ist der Grunde warum in der Kybernetik der Strukturbegriff eigentlich über dem Informationsbegriff stehen müßte, wenngleich sich natürlich der Informationsbegriff einer größeren Anschaulichkeit erfreut. Jedenfalls muss man zurückweisen, dass sich die Kybernetik etwa nur damit befasse, den Informationsbegriff auf Systeme anzuwenden. Die Suche nach strukturellen und nicht nur informationellen Zusammenhängen ist allgemeiner und immer noch kybernetisch.
Eine gute Einführung in den Begriff und in die "Metrik" der Information findet sich in K. Steinbuch, "Automat und Mensch", 3. Auflage, Berlin, Heidelberg, New York 1965. Das Buch demonstriert diesen Begriff auch an sehr vielen technischen und biologischen Sachverhalten.
Information
Zu einem nicht unerheblichen Teil hat sich die Kybernetik aus dem Problem entwickelt, wie man eine Maßgröße für den Begriff der Information finden kann. Dabei hat man vieles der Arbeit zweier amerikanischer Mathematiker zu verdanken, die im Jahre 1949 für die amerikanische Firma Bell Laboratories eine Untersuchung über den Nachrichtenverkehr in Telephonie- und Telegraphieeinrichtungen vornahmen. (C. Shannon und W. Weaver, "The Mathematieal Theory of Communication", University of Illinois Press, Urbana 1949, sowie C. Shannon, "Communication Theory of Secrecy Systems", Bell System technical Journal, 28, 656 - 715, 1949.)
Ausgangsbasis für die Begriffe "Nachricht" und "Information" ist der Begriff "Kommunikation". Kommunikation kommt zustande, wenn ein Sender eine Nachricht über einen Kanal an einen Empfänger gibt.
Der Sender verfügt dazu über ein Repertoire an Zeichen, die auch dem Empfänger bekannt sein müßten. Aus diesen Zeichen bildet er nach festgelegten Regeln ("syntaktische Regeln") die Nachrichten.
Ein einfaches Beispiel dafür ist der Satz: "Es ist acht Uhr!", mit dem die Ehefrau ihren Mann ans Büro erinnert. Die Zeichen der Kommunikation sind die Worte (oder auch die Buchstaben, wie man es betrachten will), die nach grammatischen Regeln aneinandergefügt sind.
Aber auch die graphischen Zeichen eines Bildes, sogar Musiknoten, sind solche Zeichen. Eine Symphonie ist eine Nachricht, die der Komponist (als Sender) über einen sehr komplizierten Kanal dem Zuhörer (Empfänger) übermittelt. (Die Partitur ist nur eine besondere Darstellung der Nachricht "Symphonie".)
Ein Kanal im Sinne der Kommunikation hat stets den Nachteil, durch Störungen belastet zu sein. Die Nachrichtentechnik betreibt einen hohen Aufwand, um möglichst störungsfreie Kanäle aufzubauen; aber der wirklich störungsfreie Kanal ist ein bis heute nicht erreichter Idealfall. Unter keinen Umständen ist es einem Kanal möglich, eine Nachricht von sich aus zu verbessern, zu "entstören".
Was in einer Nachricht enthalten ist, heißt "Information". Information ist das, was erhalten bleibt (zumindest erhalten bleiben soll), wenn man einer Nachricht eine andere Gestalt gibt - wenn man sie in eine andere Sprache übersetzt oder technisch anders darstellt. Wenn ein Telegramm zum Zweck der Übertragung in elektrische Impulse umgewandelt wird, so darf die Information in der Nachricht dadurch nicht verändert werden.
Die Lehre von den Zeichen innerhalb des Kommunikationsbegriffs wird "Semiotik" genannt (grch. sema = Zeichen). In der Semiotik wird ein Zeichen unter dreierlei Aspekten betrachtet:
In die "Syntaktische Dimension" des Zeichens gehören die Regeln, durch die die Beziehungen der Zeichen untereinander geregelt werden. Sind die Zeichen Wörter der Umgangssprache, so nennt man die Syntax - wie schon erwähnt - auch Grammatik (grch. syntax = Zusammenordnung).
Die "Semantische Dimension" betrifft den Bezug, den Zeichen zu dem haben, was sie bezeichnen (wiederum abgeleitet aus dem grch. sema = Zeichen).
Die "Pragmatische Dimension" schließlich umfaßt die Beziehungen zwischen dem Zeichen und demjenigen, der bezeichnet, also sendet (grch. pragma = Tat).
Syntax, Semantik und Pragmatik zusammen legen fest, was ein Zeichen ist.
Jedes Zeichen bedarf auch einer äußeren Gestalt - sei es, dass man es mit dem Kugelschreiber auf Papier festhält, sei es, dass man es in Form elektrischer Impulse darstellt. Für die Darstellung von Zeichen gibt es prinzipiell zwei Wege.
Erstens kann das Zeichen ein Abbild dessen sein, was es bezeichnet. Dann ist es bildhaft; man spricht von "ikonischen Zeichen" (grch. eikon = Bild). Die Schriftzeichen der Chinesen und Japaner etwa sind ikonisch, auch wenn wir Europäer sie nicht deuten können; die äußere Gestalt dieser Zeichen ist eng verbunden mit dem, was das Zeichen bedeutet. Gleiches gilt für die Schriftzeichen der alten Ägypter.
Zweitens gibt es Zeichen, die reine Symbole sind; sie stehen "für etwas". Das Zeichen "A" steht für einen Laut, aber es beschreibt ihn nicht. Es handelt sich um eine "Codierung". Ein Code ist kein Minibild für ein Zeichen, sondern eine sogenannte Zuordnung. Das Zeichen ist dem Subjekt, das es bezeichnet, ohne bildhafte oder andere sofort ersichtliche Beziehung willkürlich zugeordnet.
Will man etwa die Laute, die sich hinter den 26 Buchstaben unseres Alphabets verbergen, durch Zeichen darstellen, so kann man dafür die Zeichen wählen, die zwischen A und Z liegen. Diese Zeichen sind uns zwar historisch überliefert, wurden einst aber willkürlich gewählt.
Man kann die 26 Laute aber auch durchnumerieren. Dann entspricht jedem Buchstaben eine Dezimalzahl zwischen 1 und 26. Ordnet man jedem Buchstaben nicht eine dezimale Nummer, sondern eine Binärzahl zu, die sich ausschließlich aus Nullen und Einsen aufbaut, so ist das nur eine andere Codierung, die vor allem den Vorzug hat, dass sie sich technisch gut darstellen läßt. Interpretiert man nämlich "Loch" an bestimmter Stelle einer Lochkarte als Eins und "Kein Loch" als Null (oder aber "Stromimpuls" als Eins und "kein Stromimpuls" als Null), so lassen sich die derart codierten Zeichen maschinell - also technisch - behandeln.
Dieser Schritt in das binäre System ist sehr wichtig, weil er den Schlüssel dazu liefert, wie man die Information einer Nachricht messen kann. Wer sich über weitere technische Einzelheiten der Codierung und der technischen Behandlung von Nachrichten informieren will, sei auf das mehrfach zitierte Buch "Was denkt sich ein Elektronengehirn?" (Franckh-Verlag, Stuttgart) verwiesen.
Wer aus Zeichen eine Nachricht aufbaut, muss die Zeichen auswählen. Hat man nur zwei Zeichen, so hat man einen alternativen Auswahlprozeß vor sich. Hieraus entwickelt man die Einheit der Information als diejenige Informationsmenge, die man braucht, um sich in einer alternativen Situation für genau einen Sachverhalt zu entscheiden. Man nennt diese Informationsmenge auch 1 bit. Wählt man aus zwei Zeichen eines aus, so hat man 1 bit Information ins Spiel gebracht. Hat man mehr Zeichen, benötigt man mehr bit. Bei vier Zeichen kann man so vorgehen, dass man zwei Gruppen zu zwei Zeichen bildet. Damit benötigt man 2 bit, um ein Zeichen aus den vieren zu bestimmen (Bestimmung der Gruppe = 1 bit und Bestimmung des Elementes in der Gruppe = 1 weiteres bit).
Die nächste Größenordnung sind 8 Zeichen mit 3 bit (zwei Gruppen zu vier, darin zwei Gruppen zu zwei und darin je zwei Elemente). Nun ist 8 = 23 oder besser 3 = lb (8) (lb = logarithmus binalis; Logarithmus zur Basis 2), so dass man, wenn man diesen Vorgang verallgemeinert, bei N Zeichen
n = lb(N) bit
an Information braucht. Dies bedeutet, dass die 26 Buchstaben des deutschen Alphabetes durchschnittlich etwas weniger als 5 Bit an Information übermitteln.
Nun liegen die Verhältnisse allerdings so, dass Zeichen, die selten auftreten, mehr Information tragen als solche, die in jeder Nachricht vorhanden sind. Man verwendet deshalb zweckmäßigerweise die Wahrscheinlichkeit oder relative Häufigkeit der Zeichen in einer Sprache oder einem Kommunikationsprozeß - ob das nun Buchstaben, Worte, Tonzeichen, graphische Zeichen oder andere sind. Hat man die n Zeichen
z1 . . . zn
und haben diese die Wahrscheinlichkeiten
p1 . . . pn
für ihr Auftreten, so kann man daraus - wie Shannon vorgeschlagen hat - in Anlehnung an die Formel für die Entropie in der Thermodynamik den Informationsgehalt berechnen: