Zeichenkodierung

Während wir Textdokumente als Textzeilen betrachten, sehen Computer sie tatsächlich als binäre Daten oder eine Reihe von Einsen und Nullen. Daher müssen die Zeichen innerhalb eines Textdokuments durch numerische Codes dargestellt werden. Um dies zu erreichen, wird der Text mit einer von mehreren Arten der Zeichenkodierung gespeichert.

Die gängigsten Arten der Zeichenkodierung sind ASCII und Unicode. Während ASCII noch von fast allen Texteditoren unterstützt wird, wird Unicode häufiger verwendet, da es einen größeren Zeichensatz unterstützt. Unicode wird oft als UTF-8, UTF-16 oder UTF-32 definiert, die sich auf unterschiedliche Unicode-Standards beziehen. UTF steht für "Unicode Transformation Format" und die Zahl gibt die Anzahl der Bits an, die zur Darstellung der einzelnen Zeichen verwendet werden. Seit den Anfängen der Computertechnik werden Zeichen durch mindestens ein Byte (8 Bit) dargestellt, weshalb die verschiedenen Unicode-Standards Zeichen in Vielfachen von 8 Bit speichern.

Während ASCII und Unicode die gängigsten Arten der Zeichenkodierung sind, können auch andere Kodierungsstandards zur Kodierung von Textdateien verwendet werden. So gibt es beispielsweise verschiedene sprachspezifische Zeichenkodierungsstandards, wie z. B. westliche, lateinamerikanische, japanische, koreanische und chinesische. Während westliche Sprachen ähnliche Zeichen verwenden, benötigen östliche Sprachen einen völlig anderen Zeichensatz. Daher würde eine lateinische Kodierung nicht die Symbole unterstützen, die zur Darstellung einer Textzeichenfolge in Chinesisch benötigt werden. Glücklicherweise unterstützen moderne Standards wie UTF-16 einen ausreichend großen Zeichensatz, um sowohl westliche als auch östliche Buchstaben und Symbole darzustellen.

Stand: 26.07.2021