unicode
Unicode je univerzalan kodiranja znakova standard. Definira način na koji je individualan znakova su predstavljeni u tekstualnim datotekama, Internet stranicei druge vrste dokumenti.
Za razliku od ASCII, koji je dizajniran da predstavlja samo osnovne engleske znakove, Unicode je dizajniran da podrži likove iz svih jezika širom svijeta. Standardni ASCII skup znakova podržava samo 128 znakova, dok Unicode može podržati otprilike 1,000,000 znakova. Dok ASCII koristi samo jedan bajt za predstavljanje svakog znaka, Unicode podržava do 4 bajta za svaki znak.
Ipak, postoji nekoliko različitih vrsta Unicode kodiranja UTF-8 i UTF-16 su najčešći. UTF-8 je postao standardno kodiranje znakova koji se koristi na web stranica a također je i zadano kodiranje koje mnogi koriste softver programa. Iako UTF-8 podržava do četiri bajta po znaku, ne bi bilo učinkovito koristiti četiri bajta za predstavljanje često korištenih znakova. Stoga UTF-8 koristi samo jedan bajt za predstavljanje uobičajenih engleskih znakova. Europski (latinski), hebrejski i arapski znakovi predstavljeni su s dva bajta, dok se tri bajta koriste za kineske, japanske, korejske i druge azijske znakove. Dodatni Unicode znakovi mogu se predstaviti s četiri bajta.