Von ASCII bis UTF-8 im Detail
ASCII
Kodierung eines Zeichensatzes aus 128 Zeichen
Je mehr Zeichen in den Zeichensatz aufgenommen werden, desto größer
werden die Zahlenwerte, die man zu ihrer Kodierung braucht. Gerade in
den Anfangszeiten der Computer musste noch um jedes Bit gefeilscht
werden. Daher beschloss man, nur Zahlenwerte zu verwenden, die mit
7 Bit dargestellt werden können. Derer gibt es 128. Wenn man jedem
von diesen Werten ein Zeichen zuweist, kann man also 128 Zeichen
durch je eine dieser Zahlen repräsentieren.
Für Mathe-Freunde:
27 = 128. Diese 128 möglichen Werte sind die
Binärzahlen 0000000 (also 0) bis 1111111 (dezimal 127).
Bereits in den 1960er Jahren etablierte sich unter dem Namen ASCII die bis heute populärste Zeichenkodierung für die ersten 128 Zeichen. Darin sind neben Zahlen, Buchstaben, Satz- und Sonderzeichen auch einige nicht darstellbare Steuerzeichen enthalten, die uns aber hier nicht interessieren.
Sind 128 Zeichen genug?
Technisch gesehen kann man mit einem 128 Zeichen langen Zeichensatz über die Runden kommen. Aber die Sprache ist ein zartes Pflänzlein und bestimmt unser Denken. Viele Sprachen verwenden Buchstaben jenseits von A bis Z und auch andere Sonderzeichen. Wenn diese nicht zur Verfügung stehen, gibt es schnell Missverständnisse oder sonstige Verstimmungen. Auf jeden Fall aber sehen korrekt dargestellte Texte sehen netter aus (Stilfrage) und lesen sich besser (Effizienz-Aspekt).
Denkt man darüber nach, welche Zeichen im ASCII nicht repräsentiert sind, fallen einem zunächst die Umlaute und das scharfe S ein. Das wurde früher grob und schlecht gelöst in dem man den Leuten ein Ae für ein Ä und ein ss für ein ß vormachte. Ae ist nicht Ä (Aerodynamik) und ein Doppel-S ist kein scharfes S (Maße haben keine Masse).
Selbst ein englischsprachiger Text kommt heute kaum mit dem Zeichensatz des ASCII aus: Währungssymbole sehen professioneller aus als Abkürzungen (£, ¥, €); ausländische Namen von Personen (Lech Wałęsa, Søren Kierkegaard), Städten (Haßfurt) und Firmen (Citroën) wollen richtig geschrieben werden; zu einem schönen Schriftbild gehören «diese» oder „jene” Anführungszeichen und man braucht vielleicht Zeichen wie das Copyright-Symbol (©).