Codepage 와 CharacterSet 의 차이는 무엇인가요?
글쓴이: skysign / 작성시간: 월, 2003/08/11 - 4:35오후
Codepage 와 CharacterSet 이라는 말은 심심치 않게 듣는 말입니다.
대강 무엇인지는 알겠지만... 명확하지가 않내요...
더블어서 각 OS 별로 사용가능한 코드페이지와 ISO-???? 이런식으로
알려저 있는 코드페이지 KS5601과 같은 KS???? 등과의 호환성이 궁금합니다.
더불어서... (질문이 너무 많나..^^;;;)
하나의 폰트가 있을 때, 폰트속의 한 글자가, 각 코드페이지나 캐릭터셋과 대응되는 과정도 궁금해염... :D
Forums:
http://trade.chonbuk.ac.kr/~leesl/code/
http://trade.chonbuk.ac.kr/~leesl/code/
--
익스펙토 페트로눔
제가 나름대로 정리하자면
하나 하나의 Character 들이 모여서
Character set이 됩니다.
Charecter set은 단순히 어떤 표현해야하는 문자들을 나열해 놓은거라
생각하시면 됩니다.
Code(Codepage?)는 이런 문자들을 일정 행렬형태의 page공간에
위치시킨것을 말합니다. 가로 세로에 어떤 값을 매겨서 이것이 합쳐서
page내에 있는 문자들 각각을 가르키는 유일한 식별자(문자의 code값)
가 되지요.
같은 코드값이라도 한국어나 일본어같은 code에서
다른 문자가 나타나는건 Code table의 같은 위치라도 나라마다 다른
문자를 배열시키기 때문이죠. 지금 브라우저의 Character 코드를
SJIS등의 일본어로 바꿔보세요 그럼 지금 한글문자의 코드와 일치하는
위치의 일본어문자들로 바뀔겁니다.
예)ASCII,KSC5601
덫붙여서 encoding 이란 이런 표준적인 코드를 컴퓨터는 다양한 방식으로
인식하게 되는데 이런 또 다른 방식의 bit열로 바꾸는것을 말합니다.
예)EUC-KR,UTF-8
EUC-KR은 ASCII코드와 KSC5601코드를 한번에 나타내기 위한 인코딩
방식이라고 보면되고 UTF-8은 Unicode를 여러개의 8bit로 나타내는
인코딩이라고 생각하시면 됩니다.
하지만 이런 개념들이 명확하게 정의되지 않고 모호하게 쓰이는 경우가
많기 때문에 좀 햇갈리더군요.
Unicode는 전세계 문자를 하나의 코드영역내에 다 포함시키고자 하는 거지요.
Unicode는 통일된 코드로서의 의미도 있지만 각각의 Native code들을
다른 code로 변환시킬때 중간기착지로의 의미가 큽니다.
Unicode가 없다면 N개의 Native code들이 존재하면 변환태이블 갯수가
N*(N-1)개가 필요하지만 유니코드를 거치면 N개만 있으면 되니까요.
더 자세한 내용은 윗분이 적어주신 URL을 찬찬히 들여다 보시면 많은것을
알 수 있습니다.
댓글 달기