Von ASCII bis UTF-8 im Detail

ASCII

Kodierung eines Zeichensatzes aus 128 Zeichen

Je mehr Zeichen in den Zeichensatz aufgenommen werden, desto größer werden die Zahlenwerte, die man zu ihrer Kodierung braucht. Gerade in den Anfangszeiten der Computer musste noch um jedes Bit gefeilscht werden. Daher beschloss man, nur Zahlenwerte zu verwenden, die mit 7 Bit dargestellt werden können. Mit 7 Bit lassen sich exakt 128 verschiedene Werte darstellen.
Für Mathe-Freunde: 27 = 128

Bereits in den 1960er Jahren etablierte sich unter dem Namen ASCII die bis heute populärste Zeichenkodierung für die ersten 128 Zeichen. Darin sind neben Zahlen, Buchstaben, Satz- und Sonderzeichen auch einige nicht darstellbare Steuerzeichen enthalten, die uns aber hier nicht interessieren.

Sind 128 Zeichen genug?

Technisch gesehen kann man mit einem 128 Zeichen langen Zeichensatz über die Runden kommen. Aber die Sprache ist ein zartes Pflänzlein und bestimmt unser Denken. Jede Abweichung führt unweigerlich zu Missverständnissen oder Kreativitätsverlust. Darüber kann man steiten, aber über eines nicht: Korrekt dargestellte Texte sehen netter aus (Stilfrage) und lesen sich besser (Effizienzfrage).

Denkt man darüber nach, welche Zeichen im ASCII nicht repräsentiert sind, fallen einem zunächst die Umlaute und das scharfe S ein. Das wurde früher grob und schlecht gelöst in dem man den Leuten ein Ae für ein Ä und ein ss für ein ß vormachte. Ae ist nicht Ä (Aerodynamik) und ein Doppel-S ist kein scharfes S (Maße haben keine Masse).

Selbst ein englischsprachiger Text kommt heute kaum mit dem Zeichensatz des ASCII aus: Währungssymbole sehen professioneller aus als Abkürzungen (£, ¥, €); ausländische Namen von Personen (Lech Wałęsa, Søren Kierkegaard), Städten (Haßfurt) und Firmen (Citroën) wollen richtig geschrieben werden; zu einem schönen Schriftbild gehören «diese» oder „jene” Anführungszeichen und man braucht vielleicht Zeichen wie das Copyright-Symbol (©).

Teil 1 ←→ Teil 3

© Hermann Faß, 2013