Obyčajné textové súbory obsahujú iba textové informácie. Obyčajné textové súbory nemajú žiadny jasný spôsob ako informovať počítač o tom, ktorý jazyk obsahujú. Veľmi všeobecne, to znamená, že počítač predvolene predpokladá, že obsah súboru je v rovnakom jazyku ako samotný počítač.
Obyčajný textový súbor je vo väčšine prípadov súbor s názvom končiacim na .txt.
Ak ste rus, je veľmi pravdepodobné, že váš počítač pracuje tiež v ruštine: menu sú v ruštine, súbory, ktoré otvárate budú v ruštine atď. Vo väčšine prípadov, počítač robí správny predpoklad ohľadom obsahu súborov vo všeobecnosti: všetky obsahujú ruštinu a nič čo by ruské znaky nemohli zobraziť.
Teraz, ak ste ruský prekladateľ, ktorý prekladá z japončiny, dostanete japonské súbory, ak sú to obyčajné textové súbory tak budú napravdepodobnejšie počítačom považované za súbory obsahujúce ruštinu. Pretože neexistuje informácia v samotnom súbore, ktorá by počítači označovala v ktorom jazyku sú napísané.
Obsah japonského súboru by mohol byť:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Ale váš textový editor by to mohol pokojne zobraziť takto:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Pretože očakáva, že obsah je ruština... Ale toto nie je ruština. Toto sú japonské znaky nesprávne zobrazené ako ruské znaky.
Program OmegaT nie je iný. OmegaT predpokladá, že obyčajné textové súbory obsahujú text, ktorý môže byť automaticky zobrazený pomocou predvolených nastavení počítača. Toto funguje dobre, keď počítač funguje vo francuzstine a keď dostanete anglické súbory, alebo keď počítač je nemecký a ak dostanete talianske súbory.
Prečo by to fungovalo s angličtinou a francúzštinou ale nie s ruštinou a japončinou? Pretože angličtina a francúzština používajú spoločnú znakovú sadu. Menovite Latin-1, alebo obmenu.
Donedávna, ruština a japončina nepoužívali žiadne spoločné znakové sady. Väčšina súčasných ruských znakových sád nepokrýva japončinu a opačne. Výsledok je ako je ukázané vyššie.
Japonský klient pracuje s japonským počítačom a vytvára textové súbory, ktoré obsahujú japončinu. Znaková sada vybraná klientovým počítačom bude záležať na operačnom systéme a na iných nastaveniach, ale je veľmi nepravdepodobné, že vybraná (japonská) znaková sada bude správne interpretovaná ruským počítačom.
Teraz, ako sú textové informácie v zadanej znakovej sade sú fyzicky prenesené (tj. ako je to zapísané v súbore pre počítač na interpertáciu a zobrazenie) záleží na kódovaní. Keď počítač číta súbor, "dekóduje" informácie podľa kódovania a zobrazí ich podľa znakovej sady. Zhruba, jedno kódovanie zodpovedá jednej znakovej sade...
Sú v podstate 3 spôsoby ako to opraviť v OmegaT.
V súčasnosti, je program OmegaT nastavený aby rozumel obyčajné textové súbory nasledovne: (môžete to sami skontrolovať vybratím položky Filtre súborov v menu Voľby. Kliknite na riadok Textové súbory a potom na tlačidlo Upraviť.)
Samozrejme, prípony súborov .txt1, .txt2, a .utf8 v skutočnom živote neexistujú. Program OmegaT práve pre vás pripravil krátky zoznam, ktorý vám uľahčí to ako si poradiť s niektorými cudzími súbormi.
Takže teraz, keď máte francúzsky súbor (vo_francuzstine.txt napríklad) pre preklad na japonskom počítači, keďže je veľmi pravdepodobné že bol vytvorený ako súbor v kódovaní ISO-8859-1, viete, že jednoduchým pridaním 1 na koniec jeno názvu (vo_francuzstine.txt1) bude OmegaT správne interpretovať jeho obsah ako ISO-8859-1... Et voilà!