HTML-Entität

eindeutig abgrenzbare Zeichenfolge mit spezieller Bedeutung, die in HTML verwendet wird

Eine HTML-Entität ist eine Entität (also eine eindeutig abgrenzbare Zeichenfolge mit spezieller Bedeutung), die in HTML verwendet wird (also der textbasierten Auszeichnungssprache, in der beispielsweise Webseiten formuliert werden können). Häufig verwendet werden dort numerische Entitäten und benannte Entitäten, um Schriftzeichen zu bezeichnen (speziell wenn sie in der für die Webseite gewählten Codierung oder für die zur Erstellung verwendeten Eingabemethode nicht zur Verfügung stehen.) Auch bestimmte Steuerzeichen können so im Text sichtbar dargestellt werden.

Numerische Entitäten

Bearbeiten

Eine numerische Entität bezeichnet ein Zeichen durch seinen Unicode-Codepunkt. Hierfür sind zwei Formate definiert:

  • &#nnn;nnn repräsentiert hier den Codepunkt als Dezimalzahl (ohne führende Nullen).
  • &#xhhhh;hhhh repräsentiert hier den Codepunkt als Hexadezimalzahl, also so, wie der Unicode-Codepunkt üblicherweise angegeben wird (ohne das einleitende „U+“). Führende Nullen können angegeben werden und sind bei weniger als vierstelligen Werten üblich, um den Wert gleichlautend zur üblichen vierstelligen Unicode-Codepunkt-Angabe anzugeben.

Unabhängig davon, in welchem Code („charset“) das HTML-Dokument vorliegt, gilt immer nur der Codepunkt in Unicode. Damit sind numerische Entitäten im Bereich € bis Ÿ oder hexadezimal € bis Ÿ falsch, wenn damit Zeichen dargestellt werden sollen, die im Code Windows-1252 Codepunkte in diesem Bereich haben. Dazu gehören u. a. die Zeichen € und ‰, die Buchstaben Œ, œ, Š, š, Ÿ, Ž und ž sowie verschiedene Anführungszeichen und Gedankenstriche. Zeichen mit Unicode-Codepunkten von U+0080 bis U+009F kommen in Texten normalerweise nicht vor.

Benannte Entitäten

Bearbeiten

Eine benannte Entität hat das Format &aaa;aaa repräsentiert hier einen aus Groß- und Kleinbuchstaben des lateinischen Grundalphabets und Ziffern bestehenden Namen, der das zu bezeichnende Zeichen eindeutig identifiziert. Groß- und Kleinschreibung ist exakt zu verwenden und kann bedeutungsunterscheidend sein. Die Namen werden vom W3C (World Wide Web Consortium) festgelegt.[1][2]

Beispiele

Bearbeiten
Zeichen Unicode Bezeichnung Dezimal-
code
Numerische Entität Benannte
Entität
Position Name dezimal hexadez.
· U+00B7 middle dot Halbhoch­punkt 0183 · · ·
ſ U+017F latin small letter long s langes s 0383 ſ ſ (keine)
U+2030 per mille sign Promille­zeichen 8240 ‰ ‰ ‰
🖷 U+1F5B7 fax icon Faxsymbol 128439 🖷 🖷 (keine)

Einzelnachweise

Bearbeiten
  1. W3C (World Wide Web Consortium): Character entity references in HTML 4 – Liste der benannten Entitäten, die in HTML 4 (und somit beispielsweise für die Erstellung von Wikipedia-Artikeln) verfügbar sind
  2. W3C (World Wide Web Consortium): Character entity reference chart – Liste der benannten Zeichen-Entitäten, die in HTML 4 und in HTML5 verfügbar sind