utf8은 한글자 표현이 가변입니다. 영문일 때는 1바이트, 한글은 3바이트 입니다.
unix쪽이나 web에서 일반적으로 지원됩니다.
utf16은 2바이트 기준입니다. 특수하게 4바이트가 한글자를 표현하는 경우가 있기는 하나 일반적인 처리 기준은 2바이트 입니다. 바이트 순서(endian)에 따라 UTF16LE, UTF16BE로 구분됩니다. 자바에서 기본으로 제공하는 문자 단위입니다.
한글이나 영문 구별없이 2바이트가 한문자를 나타냅니다.
utf32는 4바이트가 한문자를 나타냅니다. 역시 UTF32LE, UTF32BE로 구분됩니다.
인코딩방식의 차이죠.
처음 유니코드는 2바이트 체제로 출발했었는데, 나중에 각국 언어들이 추가되다 보니
2바이트로는 모자라게 되어서 4바이트로 확장되었습니다.
UTF32가 4바이트=1문자가 되는 인코딩이고, (UCS4라고도 부릅니다.)
UTF16은 2바이트=1문자이긴 한데 꼭 그렇지는 않습니다.
상위대행코드와 하위대행코드 조합으로 올 경우 2바이트 2개가 1문자를 나타냅니다.
그리고 UTF8은 기존 문자열처리 소프트웨어나 라이브러리를 아무 수정없이 쓰기 위해서
유니코드를 인코딩하는 방법을 개발하면서 나온 것입니다.
UTF8은 길이가 가변입니다. 그리고 인코딩 방법도 공개되어 있고요. 궁금하시면 구글링 하시길.
코드값이 0~7F까지는 1바이트(ascii코드와 같음), 80~3FF까지는 2바이트, 그 위는 3바이트로 인코딩되고,
4바이트까지 있습니다. 한글이 위치하는 코드번호는 UTF8에서는 3바이트단위로 인코딩되는 영역이죠.
바이트 단위입니다..
utf8은 한글자 표현이 가변입니다. 영문일 때는 1바이트, 한글은 3바이트 입니다.
unix쪽이나 web에서 일반적으로 지원됩니다.
utf16은 2바이트 기준입니다. 특수하게 4바이트가 한글자를 표현하는 경우가 있기는 하나 일반적인 처리 기준은 2바이트 입니다. 바이트 순서(endian)에 따라 UTF16LE, UTF16BE로 구분됩니다. 자바에서 기본으로 제공하는 문자 단위입니다.
한글이나 영문 구별없이 2바이트가 한문자를 나타냅니다.
utf32는 4바이트가 한문자를 나타냅니다. 역시 UTF32LE, UTF32BE로 구분됩니다.
ps)쓰고나서 보니 숫자는 bit단위군요.. ^^;
인코딩방식의
인코딩방식의 차이죠.
처음 유니코드는 2바이트 체제로 출발했었는데, 나중에 각국 언어들이 추가되다 보니
2바이트로는 모자라게 되어서 4바이트로 확장되었습니다.
UTF32가 4바이트=1문자가 되는 인코딩이고, (UCS4라고도 부릅니다.)
UTF16은 2바이트=1문자이긴 한데 꼭 그렇지는 않습니다.
상위대행코드와 하위대행코드 조합으로 올 경우 2바이트 2개가 1문자를 나타냅니다.
그리고 UTF8은 기존 문자열처리 소프트웨어나 라이브러리를 아무 수정없이 쓰기 위해서
유니코드를 인코딩하는 방법을 개발하면서 나온 것입니다.
UTF8은 길이가 가변입니다. 그리고 인코딩 방법도 공개되어 있고요. 궁금하시면 구글링 하시길.
코드값이 0~7F까지는 1바이트(ascii코드와 같음), 80~3FF까지는 2바이트, 그 위는 3바이트로 인코딩되고,
4바이트까지 있습니다. 한글이 위치하는 코드번호는 UTF8에서는 3바이트단위로 인코딩되는 영역이죠.
Written By the Black Knight of Destruction
Written By the Black Knight of Destruction
댓글 달기