UTF (Unicode Transformation Format)

UTF steht für "Unicode Transformation Format". UTF bezieht sich auf mehrere Arten von Unicode-Zeichenkodierungen, einschließlich UTF-7, UTF-8, UTF-16 und UTF-32.

  1. UTF-7 - verwendet 7 Bits für jedes Zeichen. Es wurde entwickelt, um ASCII-Zeichen in E-Mail-Nachrichten darzustellen, die eine Unicode-Kodierung erfordern.
  2. UTF-8 - die beliebteste Art der Unicode-Kodierung. Sie verwendet ein Byte für englische Standardbuchstaben und -symbole, zwei Bytes für zusätzliche lateinische und nahöstliche Zeichen und drei Bytes für asiatische Zeichen. Zusätzliche Zeichen können mit vier Bytes dargestellt werden. UTF-8 ist abwärtskompatibel mit ASCII, da die ersten 128 Zeichen auf die gleichen Werte abgebildet werden.
  3. UTF-16 - eine Erweiterung der Unicode-Kodierung "UCS-2", die zwei Bytes zur Darstellung von 65.536 Zeichen verwendet. UTF-16 unterstützt jedoch auch vier Bytes für zusätzliche Zeichen bis zu einer Million.
  4. UTF-32 - eine Multibyte-Kodierung, die jedes Zeichen mit 4 Byte darstellt.

Der meiste Text in Dokumenten und Webseiten wird mit einer der oben genannten UTF-Kodierungen kodiert. Viele Textverarbeitungsprogramme erlauben es nicht, die Zeichenkodierung von geöffneten Dokumenten anzuzeigen, obwohl einige die Kodierung am unteren Rand des Dokumentfensters oder in den Dateieigenschaften anzeigen. Wenn Sie die Art der Zeichenkodierung sehen möchten, die von einer Webseite verwendet wird, können Sie Ansicht → Quelle anzeigen wählen, um den HTML-Code der Seite anzuzeigen. Die Zeichenkodierung, falls definiert, befindet sich im Kopfbereich, nahe dem oberen Rand des HTML. Eine Seite, die die UTF-8-Kodierung verwendet, kann je nach Version des HTML einen der folgenden Textausschnitte enthalten.

XHTML:  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
HTML 5: <meta charset="UTF-8">

Stand: 25.07.2021