UTF-8

(8-bit Unicode Transformation Format)

Unicode alapú 8 bites (1 byte) karakterkódolási formátum, mely változó hosszúságú egységeket használ. A leggyakoribb karakterek (ékezetnélküli btűk, és egyéb írásjelek) esetén 1, míg az ékezetes betűknél több (4 ig) byte-ot használ fel.

Használata az egy dokumentumon belüli több kódtábla karatereinek együttes használatát is lehetővé teszi.

Egy kis történelem:

A számítástechnika fejlődése során több karakterkódolási eljárás is elterjedt. A számos kódtábla egyike sem volt képes kielégíteni a különböző nemzetek által használt írásjelek összességét.

A globalizáció, és az internet elterjedésével szükségessé vált egy olyan univerzális kódtábla kifejlesztése, mely elérhetővé teszi a különböző nemzetek karaktereinek használatát egyazon dokumentumon belül, és amelyet minden elektronikai berendezés egyaránt képes kezelni.

Ezekre a kihívásokra jelenleg egyedül az 1993-ban [Rob Pike]? és [Ken Thompson]? által Unicode alapra kifejlesztett UTF-8 rendszer képes megfelelni.

Először az úgynevezett ASCII (American Standard Code for Information Interchange) kódrendszer alakult ki mely 128 darab 7 bites kódot tartalmaz, az latin abc betűinek, számoknak, és írásjeleknek megfelelően, így az egyéb nyelvterületeken használt karakterek megjelenítésére alkalmatlan.

1987-ben a ezen probléma megoldására született meg az [ISO-8859]? készletcsalád első tagja [ISO-8859-1]? ([Latin-1]?) néven, amely több nyelv ábécéjét támogatja, úgy mint: francia, német, spanyol, olasz és skandináv. Az első 127 karakter az ASCII készletet tartalmazza, 161-től 190-ig különböző szimbólumokat és 191-től 255-ig ékezetes karaktereket.

Az [ISO-8859-1]? karaktertábla azonban nem volt elegendő az összes latin ABC-t használó nyelv betűinek kódolására sem, és még mindig megoldaltal volt a nem latin-t használó népek (pl.: görög, héber, cirill, ázsiai országok) igényeinek kielégítése.

Ezért hozták létre az [ISO-8859]?-n családot, mely külön "n" számmal jelöli a különböző karakterkészleteket (például: ISO-8859-2 (Latin-2): közép-európai bosnyák, lengyel, horvát, cseh, szlovák, szlovén, és magyar, vagy [ISO-8859-5]? Cirill karakterek).

Mivel azonban a különböző karakterkészletek különböző kódtáblákban vannak, nincs lehetőség egy dokumentumon belül (például: elektronikus levelezés, internetes oldalak) több nyelven írt szöveg helyes megjelenítésére.

Ezen kihívásokra az UTF-8 kódtábla ad egyedül választ.

UTF-8 az interneten:

A létrehozni kíván internetes dokumentumokat (HTML, XML, PHP) UTF-8 kódolással kell elmenteni. Egyes szerkesztő programoknál alapértelmezettként is beállítható, egyszerűbb szöveges szerkesztőknél mentéskor kell kiválasztani az UTF-8 karakterkódolást.

Ha a karakterkódolásáról nem informáljuk a látogató böngészőjét, az általában alapértelmezett [ISO-8859-1]? kódolással jeleníti meg azt.

Karakterkódolás beállítása különböző internetes dokumentumokban:

HTML:

<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

</head>

XML:

<?xml version="1.0" encoding="UTF-8" ?>

PHP:

<?php

header("Content-Type: text/html; charset=UTF-8");

Médiapédia	Patikapédia	Ecopédia	Jógapédia	Vinopédia	Webfazék	Mammutmail
marketing és média tudástár	egyészségügyi enciklopédia	gazdasági, pénzügyi tudástár	jóga tudástár	borászati tudástár	receptek online	nagy fájlok küldése

navigáció

változások

szabályok

közösség

Netpédia

személyek

alkalmazás

felhasználó

szolgáltató

tartalom

hardver

gazdaság

kód

társadalom

hozzáférés

leírás

egyéb

Kód

Kapcsolódó szócikkek