2바이트로 지구상의 모든 언어를 다 표시할 수 있는 방법(?)
글쓴이: neverendingcurse / 작성시간: 수, 2005/01/12 - 10:36오후
좀 이상한 생각이지만
[charset 정보] 그 charset로 작성된 내용 ..... [charset정보]내용....
ex)
00000000h: [1F 4C 4B 72] B0 A1 B3 AA B4 D9 B6 F3 B8 B6 B9 D9 ; .LKr가나다라마바
00000010h: BB E7 [1F 4C 65 6E] 61 62 63 64 65 66 ; 사.Lenabcdef
이런 식으로 저장하면 거의 모든 언어를 표시할 수도 있을 것 같은데, 문제는
charset이 자주 변경된다면 비효율적이고
기존의 에디터로 보기 힘들다는 단점이........
어떻게 생각하시는지...
Forums:
ucs_2 를 쓰시면 되지 않을까요 :)
ucs_2 를 쓰시면 되지 않을까요 :)
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
CJKV Information Processing 책에서 인용하자면..
CJKV Information Processing 책에서 인용하자면..
:)
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
아마 일본어의 JIS인코딩이 그런형식일껍니다.
0x1B2842 아스키 영역
0x1B284A JIS_X_0201_1976_RomanSet
0x1B2849 JIS_X_0201_1976_Kana
뭐 이런식으로 영역코드 나오고 문자코드들 쭉 나오고 또 영역코드 나오고 문자코드들 나오고 그랬었습니다.
Re: 아마 일본어의 JIS인코딩이 그런형식일껍니다.
iso-2022일 겁니다. RFC 1554에 따르면,
1A 28 42: ASCII
1A 24 40: JIS X 0208-1978
1A 24 42: JIS X 0208-1983
1A 28 4A: JIS X 0201-Roman
1A 24 41: GB2312-1980
1A 24 28 43: KS X 1001-1987
1A 24 28 44: JIS X 0212-1990
1A 2E 41: ISO8859-1
1A 2E 46: ISO8859-7
라고 escape sequence가 정의되어 있습니다.
- 토끼군
덧. iso-2022-jp-2를 iso-2022로 고쳤습니다. 으음...
Re: 2바이트로 지구상의 모든 언어를 다 표시할 수 있는 방법(?)
ISO-2022 가 그런 방식으로 인코딩을 교체해 가며 텍스트를 표시할 수 있습니다. 유니코드가 한 공간에 전 글자를 넣는 방식이라면 ISO-2022는 에스케이프 시퀀스에 의한 언어 전환을 허용하는 것이죠.
아래 사이트를 읽어 보세요.
http://trade.chonbuk.ac.kr/~leesl/code/
--
익스펙토 페트로눔