2바이트로 지구상의 모든 언어를 다 표시할 수 있는 방법(?)

neverendingcurse의 이미지

좀 이상한 생각이지만
[charset 정보] 그 charset로 작성된 내용 ..... [charset정보]내용....
ex)
00000000h: [1F 4C 4B 72] B0 A1 B3 AA B4 D9 B6 F3 B8 B6 B9 D9 ; .LKr가나다라마바
00000010h: BB E7 [1F 4C 65 6E] 61 62 63 64 65 66 ; 사.Lenabcdef

이런 식으로 저장하면 거의 모든 언어를 표시할 수도 있을 것 같은데, 문제는
charset이 자주 변경된다면 비효율적이고
기존의 에디터로 보기 힘들다는 단점이........
어떻게 생각하시는지...

정태영의 이미지

ucs_2 를 쓰시면 되지 않을까요 :)

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

정태영의 이미지

CJKV Information Processing 책에서 인용하자면..

Quote:
UCS-2 and UCS-4 Encodings

ISO 10646-1:1993 defines two basic encoding methods. The first method is the 32-bit form (actually, a 31-bit form), referred to as UCS-4 (Universal Character Set containing four bytes). The second is the 16-bit form, referred to as UCS-2 (Universal Character Set containing two bytes). Note that second method is identical to the encoding used for Unicode. A 16-bit representation can encode up to 65,536 unique code points. A 32-bit representation on the other hand encode up to 4,294,967,296 unique characters.

:)

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

hardline의 이미지

0x1B2842 아스키 영역
0x1B284A JIS_X_0201_1976_RomanSet
0x1B2849 JIS_X_0201_1976_Kana

뭐 이런식으로 영역코드 나오고 문자코드들 쭉 나오고 또 영역코드 나오고 문자코드들 나오고 그랬었습니다.

lifthrasiir의 이미지

hardline wrote:
0x1B2842 아스키 영역
0x1B284A JIS_X_0201_1976_RomanSet
0x1B2849 JIS_X_0201_1976_Kana

뭐 이런식으로 영역코드 나오고 문자코드들 쭉 나오고 또 영역코드 나오고 문자코드들 나오고 그랬었습니다.

iso-2022일 겁니다. RFC 1554에 따르면,

1A 28 42: ASCII
1A 24 40: JIS X 0208-1978
1A 24 42: JIS X 0208-1983
1A 28 4A: JIS X 0201-Roman
1A 24 41: GB2312-1980
1A 24 28 43: KS X 1001-1987
1A 24 28 44: JIS X 0212-1990
1A 2E 41: ISO8859-1
1A 2E 46: ISO8859-7

라고 escape sequence가 정의되어 있습니다.

- 토끼군

덧. iso-2022-jp-2를 iso-2022로 고쳤습니다. 으음...

cjh의 이미지

neverendingcurse wrote:
좀 이상한 생각이지만
[charset 정보] 그 charset로 작성된 내용 ..... [charset정보]내용....
ex)
00000000h: [1F 4C 4B 72] B0 A1 B3 AA B4 D9 B6 F3 B8 B6 B9 D9 ; .LKr가나다라마바
00000010h: BB E7 [1F 4C 65 6E] 61 62 63 64 65 66 ; 사.Lenabcdef

이런 식으로 저장하면 거의 모든 언어를 표시할 수도 있을 것 같은데, 문제는
charset이 자주 변경된다면 비효율적이고
기존의 에디터로 보기 힘들다는 단점이........
어떻게 생각하시는지...

ISO-2022 가 그런 방식으로 인코딩을 교체해 가며 텍스트를 표시할 수 있습니다. 유니코드가 한 공간에 전 글자를 넣는 방식이라면 ISO-2022는 에스케이프 시퀀스에 의한 언어 전환을 허용하는 것이죠.

아래 사이트를 읽어 보세요.

http://trade.chonbuk.ac.kr/~leesl/code/

--
익스펙토 페트로눔