unicode 라는.. character set 을.. 표현하는 방법(인코딩)들이..
ucs_2, ucs_4, utf-7, utf-8, utf-16, utf-32 등입니다..
ucs_2, ucs_4, utf-16, utf-32 등은 글자 하나당 2바이트, 4바이트, 2-4바이트 (utf-32는 잘몰라서 모르겟군요) 를 사용하는데..
그 바이트 오더를 어떻게 하느냐에 따라.. Little Endian, Big Endian 의 두가지 방법으로 표현이 가능합니다..
utf-7 은.. base64 인코딩과 비슷한 방식으로.. 유니코드를 인코딩하고 있구요..
utf-8 은.. 앞에.. 이 글자의 길이를 나타내는.. 비트를 일정개수 넣음으로.. 가변형이면서도.. validation 이 가능하도록 표현할 수 있는 인코딩이구요..
유니코드는 문자들에 대한 추상적인 집합으로, 모든 문자는 1번부터 시작해서 연속되는 번호를 각각 가집니다. 이러한 숫자를 유니코드 용어로 code point라고 하며, 'U+[:hexdigit:]' 형태로 쓰고, unicode code point로 표현한다고 말합니다. 이것은 어디까지나 추상적인 표현입니다. 예외가 있다면, surrogate라고 불리는 특별한 영역이 있어 이 범위의 숫자에 대해서는 2개를 합쳐 하나의 문자를 표현하도록 합니다. 그외에 supplement 영역처럼 이후에 추가될 문자를 위한 예비 영역들이 있습니다.
유닉스를 만든 Ken Tompson과 Rob Pike가 Plan 9 운영체제를 위해 만든 유니코드를 인코딩하는 방법이 UTF-8입니다. 인코딩했다는 말은 유니코드의 code point를 컴퓨터가 인식할 수 있는 형태로 변환했다는 말이죠. 유니코드 전체를 표현하기 위해서는 각각의 글자에 대해 최소 32비트 이상이 필요한데, ascii 영역을 특별히 많이 사용하는 어플리케이션의 경우에 모든 문자를 32비트로 표현한다는 것은 상당한 낭비입니다. 그래서 ascii 영역은 1바이트로 표현하고, 전체 유니코드 영역에 대해 2, 3, 4바이트별로 각각 표현할 수 있는 범위를 정해서 가변적으로 변환하는 것이 utf-8이라고 하는 encoding scheme의 가장 큰 특징이라고 할 수 있습니다. 예를 들면, 한글의 경우는 전부 3바이트대의 표현 영역에 들어 있습니다.
unicode 라는.. character set 을.. 표현하는 방법(인
unicode 라는.. character set 을.. 표현하는 방법(인코딩)들이..
ucs_2, ucs_4, utf-7, utf-8, utf-16, utf-32 등입니다..
ucs_2, ucs_4, utf-16, utf-32 등은 글자 하나당 2바이트, 4바이트, 2-4바이트 (utf-32는 잘몰라서 모르겟군요) 를 사용하는데..
그 바이트 오더를 어떻게 하느냐에 따라.. Little Endian, Big Endian 의 두가지 방법으로 표현이 가능합니다..
utf-7 은.. base64 인코딩과 비슷한 방식으로.. 유니코드를 인코딩하고 있구요..
utf-8 은.. 앞에.. 이 글자의 길이를 나타내는.. 비트를 일정개수 넣음으로.. 가변형이면서도.. validation 이 가능하도록 표현할 수 있는 인코딩이구요..
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
asc 영역이.. 호환된다는 장점 때문에.. utf-8 을 많이들 사용하
asc 영역이.. 호환된다는 장점 때문에.. utf-8 을 많이들 사용하고 있지요..
(저 위에 있는 인코딩들 중 유일하게 utf8 만이 asc 영역이 호환됩니다..)
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
Unicode를 네트워크를 통해서 전송하기 쉽게(?) encoding
Unicode를 네트워크를 통해서 전송하기 쉽게(?) encoding
한 것이 UTF 입니다.
(Unicode tranfer format) 이었던걸로:oops:
뒤에 붙는 숫자에 따라서 각각의 인코딩 방식이 조금씩 달라지구요.
그냥 간단히 unicode로 구글링만 하셔도
될텐데 ^^
http://www.cl.cam.ac.uk/~mgk25/unicode.html
##########################################################
넘어지는건 아직 괜찮다.
하지만 넘어질때마다 무언가를 주워서 일어나자.
Unicode Transformation Format입니다.UTF
Unicode Transformation Format입니다.
UTF-8은 ASCII와의 호환성등을 위해 만들어졌다고 합니다.
http://en.wikipedia.org/wiki/Unicodeht
http://en.wikipedia.org/wiki/Unicode
http://en.wikipedia.org/wiki/UTF-8
유니코드는 문자들에 대한 추상적인 집합으로, 모든 문자는 1번부터 시작해서 연속되는 번호를 각각 가집니다. 이러한 숫자를 유니코드 용어로 code point라고 하며, 'U+[:hexdigit:]' 형태로 쓰고, unicode code point로 표현한다고 말합니다. 이것은 어디까지나 추상적인 표현입니다. 예외가 있다면, surrogate라고 불리는 특별한 영역이 있어 이 범위의 숫자에 대해서는 2개를 합쳐 하나의 문자를 표현하도록 합니다. 그외에 supplement 영역처럼 이후에 추가될 문자를 위한 예비 영역들이 있습니다.
유닉스를 만든 Ken Tompson과 Rob Pike가 Plan 9 운영체제를 위해 만든 유니코드를 인코딩하는 방법이 UTF-8입니다. 인코딩했다는 말은 유니코드의 code point를 컴퓨터가 인식할 수 있는 형태로 변환했다는 말이죠. 유니코드 전체를 표현하기 위해서는 각각의 글자에 대해 최소 32비트 이상이 필요한데, ascii 영역을 특별히 많이 사용하는 어플리케이션의 경우에 모든 문자를 32비트로 표현한다는 것은 상당한 낭비입니다. 그래서 ascii 영역은 1바이트로 표현하고, 전체 유니코드 영역에 대해 2, 3, 4바이트별로 각각 표현할 수 있는 범위를 정해서 가변적으로 변환하는 것이 utf-8이라고 하는 encoding scheme의 가장 큰 특징이라고 할 수 있습니다. 예를 들면, 한글의 경우는 전부 3바이트대의 표현 영역에 들어 있습니다.
----
http://nohmad.tumblr.com/
유니코드 관련 한글 사이트
http://www.jinsuk.pe.kr/Unicode/Unicode_intro-kr.html
"진숙의 유니코드 입문서" 라는 페이지입니다. 자세한 것 같군요~
댓글 달기