CJK
CJK je zkratka používaná při internacionalizaci a lokalizaci pro východoasijské jazyky čínštinu, japonštinu a korejštinu, které pro svůj zápis používají písmo obsahující čínské znaky nebo písmo z čínských znaků vycházející. Výjimečně se tato skupina rozšiřuje i o vietnamštinu a označuje se CJKV, protože v minulosti vietnamština také používala čínské znaky.
Čínské znaky se v čínštině nazývají Chan-c' (漢字, 汉字 , v Pchin-jin Hànzì), v japonštině Kandži (漢字), v korejštině Hanča (한자) a ve vietnamštině chữ Hán.
Repertoár znaků
editovatČínština používá téměř výhradně čínské znaky a vyžaduje přibližně 4000 znaků pro obecnou gramotnost a přibližně 40000 znaků pro dobré pokrytí jazyka. Pro japonštinu stačí méně znaků; pro základní dorozumění jich postačuje asi 2000. V korejštině je použití čínských znaků stále řidší, i když používání čínských znaků ve vlastních jménech vyžaduje znalost (a tedy i dostupnost) mnoha znaků.
Další písma používaná pro tyto jazyky, jako například Ču-jin fu-chao (bopomofo) a pchin-jin pro čínštinu používající zápis latinkou, hiragana a katakana pro japonštinu a hangul pro korejštinu, nejsou striktně "CJK znaky", ačkoli CJK znakové sady je téměř vždy zahrnují jako nezbytné pro plné pokrytí cílových jazyků.
Do začátku 20. století byla klasická čínština psaný jazyk vládních úřadů a učenců ve Vietnamu. Oblíbená literatura ve vietnamštině byla psána v písmu chữ Nôm, které přizpůsobilo slovosled místnímu jazyku a rozšířilo čínské znaky tak, aby pro nepřebraná slova naznačovali vietnamskou, nikoli čínskou výslovnost. Na rozdíl od kandži či současných čínských znaků, které byly po 2. Sv. Válce zjednodušeny, si hanča i chữ Hán zachovaly svůj původní vzhled. Na konci 20. let 20. století byla obě písma nahrazena vietnamskou abecedou vycházející z latinky.
Pravděpodobně první průzkum kódovacích systémů CJK provedl sinolog Carl Leban (1971).
Kódování
editovatPočet znaků požadovaných pro úplné pokrytí libovolného z těchto jazyků je zcela mimo možnosti osmibitového (jednobytového) kódování, které poskytuje 256 znaků, proto je nutné používat alespoň 16bitové kódování s pevnou šířkou nebo vícebytové kódování s proměnnou délkou. Ani 16bitová kódování s pevnou šířkou, jako například Unicode do verze 2.0, však nejsou doporučovaná, protože je třeba kódovat více znaků, než kolik umožňuje 16bitové kódování a požadavku čínských vládních úřadů, aby software v Číně podporoval znakovou sadu GB18030. Unicode 5.0 obsahuje přibližně 70000 Han znaků.
Přestože CJK kódování sdílejí znakové sady, kódování pro ně vyvinutá jednotlivými vládami a softwarovými společnostmi byla často vzájemně nekompatibilní. Unicode se pokouší, přes určité kontroverze, unifikovat znakové sady pomocí procesu nazývaného Han unifikace.
Znakové kódy CJK musí obsahovat minimálně Han znaky plus znaky pro konkrétní jazyk fonetická písma, Pchin-jin, Ču-jin fu-chao (bopomofo), hiragana, katakana a hangul.
Ke znakovým kódům CJK patří:
- Big5
- EUC-JP
- EUC-KR
- GB18030 (povinný standard v Čínské lidové republice)
- GB2312 (podmnožina a předchůdce GB18030)
- ISO 2022-JP
- KS C 5861
- Shift-JIS
- Unicode
Znakové sady CJK zabírají velkou část přiřazeného kódového prostoru Unicode. Panují mnohé kontroverze mezi japonskými odborníky na čínské znaky o potřebě a technickém přínosu procesu Han unifikace používané pro namapování více čínských a japonských znakových sad do jediné množiny jednotných znaků.
Všechny tyto jazyky lze zapisovat vodorovně i svisle, ale při diskusích problému jejich kódování se obvykle považují za písma psaná zleva doprava.
Právní status
editovatKen Lunde uvádí, že v roce 1996 byla zkratka „CJK“ registrovaná ochranná známka knihovnického konsorcia Research Libraries Group[1] (které se sloučilo s OCLC v roce 2006). Server Justia uvádí, že ochrannou známku vlastnila OCLC v letech 1987 až 2009, a že nyní je prošlá.[2]
Odkazy
editovatReference
editovatV tomto článku byl použit překlad textu z článku CJK characters na anglické Wikipedii.
Literatura
editovat- John DeFrancis. The Chinese Language: Fact and Fantasy. Honolulu: University of Hawaii Press, 1990. ISBN 0-8248-1068-6.
- Hannas, William C. Asia's Orthographic Dilemma. Honolulu: University of Hawaii Press, 1997. ISBN 0-8248-1892-X (paperback); ISBN 0-8248-1842-3 (hardcover).
- Lemberg, Werner: The CJK package for LATEX2ε—Multilingual support beyond babel. TUGboat, Volume 18 (1997), No. 3—Proceedings of the 1997 Annual Meeting.
- Leban, Carl. Automated Orthographic Systems for East Asian Languages (Chinese, Japanese, Korean), State-of-the-art Report, Prepared for the Board of Directors, Association for Asian Studies. 1971.
- Ken Lunde. CJKV Information Processing. Sebastopol, Calif.: O'Reilly & Associates, 1998. ISBN 1-56592-224-7.
Externí odkazy
editovat- Obrázky, zvuky či videa k tématu CJK na Wikimedia Commons
- CJKV: A Brief Introduction
- Lembergův článek o CJK z výše uvedeného, TUGboat18-3
- On “CJK Unified Ideograph”, ze serveru Wenlin.com
- FGA: Unicode CJKV character set rationalization