(8-bit Unicode Transformation Format)
Unicode alapú 8 bites (1 byte) karakterkódolási formátum, mely változó hosszúságú egységeket használ. A leggyakoribb karakterek (ékezetnélküli btűk, és egyéb írásjelek) esetén 1, míg az ékezetes betűknél több (4 ig) byte-ot használ fel.
Használata az egy dokumentumon belüli több kódtábla karatereinek együttes használatát is lehetővé teszi.
Egy kis történelem:
A számítástechnika fejlődése során több karakterkódolási eljárás is elterjedt. A számos kódtábla egyike sem volt képes kielégíteni a különböző nemzetek által használt írásjelek összességét.
A globalizáció, és az internet elterjedésével szükségessé vált egy olyan univerzális kódtábla kifejlesztése, mely elérhetővé teszi a különböző nemzetek karaktereinek használatát egyazon dokumentumon belül, és amelyet minden elektronikai berendezés egyaránt képes kezelni.
Ezekre a kihívásokra jelenleg egyedül az 1993-ban [Rob Pike]? és [Ken Thompson]? által Unicode alapra kifejlesztett UTF-8 rendszer képes megfelelni.
Először az úgynevezett ASCII (American Standard Code for Information Interchange) kódrendszer alakult ki mely 128 darab 7 bites kódot tartalmaz, az latin abc betűinek, számoknak, és írásjeleknek megfelelően, így az egyéb nyelvterületeken használt karakterek megjelenítésére alkalmatlan.
1987-ben a ezen probléma megoldására született meg az [ISO-8859]? készletcsalád első tagja [ISO-8859-1]? ([Latin-1]?) néven, amely több nyelv ábécéjét támogatja, úgy mint: francia, német, spanyol, olasz és skandináv. Az első 127 karakter az ASCII készletet tartalmazza, 161-től 190-ig különböző szimbólumokat és 191-től 255-ig ékezetes karaktereket.
Az [ISO-8859-1]? karaktertábla azonban nem volt elegendő az összes latin ABC-t használó nyelv betűinek kódolására sem, és még mindig megoldaltal volt a nem latin-t használó népek (pl.: görög, héber, cirill, ázsiai országok) igényeinek kielégítése.
Ezért hozták létre az [ISO-8859]?-n családot, mely külön "n" számmal jelöli a különböző karakterkészleteket (például: ISO-8859-2 (Latin-2): közép-európai bosnyák, lengyel, horvát, cseh, szlovák, szlovén, és magyar, vagy [ISO-8859-5]? Cirill karakterek).
Mivel azonban a különböző karakterkészletek különböző kódtáblákban vannak, nincs lehetőség egy dokumentumon belül (például: elektronikus levelezés, internetes oldalak) több nyelven írt szöveg helyes megjelenítésére.
Ezen kihívásokra az UTF-8 kódtábla ad egyedül választ.
UTF-8 az interneten:
A létrehozni kíván internetes dokumentumokat (HTML, XML, PHP) UTF-8 kódolással kell elmenteni. Egyes szerkesztő programoknál alapértelmezettként is beállítható, egyszerűbb szöveges szerkesztőknél mentéskor kell kiválasztani az UTF-8 karakterkódolást.
Ha a karakterkódolásáról nem informáljuk a látogató böngészőjét, az általában alapértelmezett [ISO-8859-1]? kódolással jeleníti meg azt.
Karakterkódolás beállítása különböző internetes dokumentumokban:
- HTML:
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
- XML:
<?xml version="1.0" encoding="UTF-8" ?>
- PHP:
<?php
header("Content-Type: text/html; charset=UTF-8");
?>