Kodiranje znakova
Dok tekstne dokumente promatramo kao retke teksta, računala ih zapravo vide binarni podaci ili niz jedinica i nula. Stoga je znakova unutar tekstualnog dokumenta mora biti predstavljen numeričkim kodovima. Da bi se to postiglo, tekst se sprema pomoću jedne od nekoliko vrsta kodiranja znakova.
Najpopularnije vrste kodiranja znakova su ASCII i Unicode. Iako ASCII i dalje podržavaju gotovo svi uređivači teksta, Unicode se češće koristi jer podržava veći skup znakova. Unicode se često definira kao UTF-8, UTF-16 ili UTF-32, koji se odnose na različite Unicode standarde. UTF je kratica za "Unicode Transformation Format", a broj označava broj bitovi koristi se za predstavljanje svakog lika. Od ranih dana računarstva, likove je predstavljao barem jedan bajt (8 bitova), zbog čega različiti Unicode standardi spremaju znakove u višekratnicima od 8 bitova.
Iako su ASCII i Unicode najčešće vrste kodiranja znakova, za to se mogu koristiti i drugi standardi kodiranja šifrirati tekstualne datoteke. Na primjer, postoji nekoliko vrsta standarda za kodiranje znakova specifičnih za jezik, poput zapadnog, latinsko-američkog, japanskog, korejskog i kineskog. Dok zapadni jezici koriste slične znakove, istočni jezici zahtijevaju potpuno drugačiji skup znakova. Stoga latinsko kodiranje ne bi podržavalo simbole potrebne za predstavljanje teksta niz na kineskom. Srećom, moderni standardi poput UTF-16 podržavaju dovoljno velik skup znakova da predstavljaju zapadnjačka i istočnjačka slova i simbole.