유니코드(Unicode)라는 것과 UTF-8의 차이를 설명 부탁드립니다.

vudghkzm의 이미지

저의 짧은 지식으로는 UTF-8이 유니코드라고 알고 있었는데, 그게 아닌거 같더군요

유니코드(Unicode)라는게 정확히 무엇이며, UTF-8, UTF-7, littel endian, big endian 등등(너무 많아요 ㅠ.ㅠ)이 또 유니코드와 무슨 관련이 있는 것인지 자세한 설명 부탁드립니다.

정태영의 이미지

unicode 라는.. character set 을.. 표현하는 방법(인코딩)들이..
ucs_2, ucs_4, utf-7, utf-8, utf-16, utf-32 등입니다..

ucs_2, ucs_4, utf-16, utf-32 등은 글자 하나당 2바이트, 4바이트, 2-4바이트 (utf-32는 잘몰라서 모르겟군요) 를 사용하는데..
그 바이트 오더를 어떻게 하느냐에 따라.. Little Endian, Big Endian 의 두가지 방법으로 표현이 가능합니다..

utf-7 은.. base64 인코딩과 비슷한 방식으로.. 유니코드를 인코딩하고 있구요..
utf-8 은.. 앞에.. 이 글자의 길이를 나타내는.. 비트를 일정개수 넣음으로.. 가변형이면서도.. validation 이 가능하도록 표현할 수 있는 인코딩이구요..

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

정태영의 이미지

asc 영역이.. 호환된다는 장점 때문에.. utf-8 을 많이들 사용하고 있지요..

(저 위에 있는 인코딩들 중 유일하게 utf8 만이 asc 영역이 호환됩니다..)

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

zienie의 이미지

Unicode를 네트워크를 통해서 전송하기 쉽게(?) encoding
한 것이 UTF 입니다.
(Unicode tranfer format) 이었던걸로:oops:

뒤에 붙는 숫자에 따라서 각각의 인코딩 방식이 조금씩 달라지구요.

그냥 간단히 unicode로 구글링만 하셔도
될텐데 ^^

http://www.cl.cam.ac.uk/~mgk25/unicode.html

##########################################################
넘어지는건 아직 괜찮다.
하지만 넘어질때마다 무언가를 주워서 일어나자.

Prentice의 이미지

Unicode Transformation Format입니다.

UTF-8은 ASCII와의 호환성등을 위해 만들어졌다고 합니다.

nohmad의 이미지

http://en.wikipedia.org/wiki/Unicode
http://en.wikipedia.org/wiki/UTF-8

유니코드는 문자들에 대한 추상적인 집합으로, 모든 문자는 1번부터 시작해서 연속되는 번호를 각각 가집니다. 이러한 숫자를 유니코드 용어로 code point라고 하며, 'U+[:hexdigit:]' 형태로 쓰고, unicode code point로 표현한다고 말합니다. 이것은 어디까지나 추상적인 표현입니다. 예외가 있다면, surrogate라고 불리는 특별한 영역이 있어 이 범위의 숫자에 대해서는 2개를 합쳐 하나의 문자를 표현하도록 합니다. 그외에 supplement 영역처럼 이후에 추가될 문자를 위한 예비 영역들이 있습니다.

유닉스를 만든 Ken Tompson과 Rob Pike가 Plan 9 운영체제를 위해 만든 유니코드를 인코딩하는 방법이 UTF-8입니다. 인코딩했다는 말은 유니코드의 code point를 컴퓨터가 인식할 수 있는 형태로 변환했다는 말이죠. 유니코드 전체를 표현하기 위해서는 각각의 글자에 대해 최소 32비트 이상이 필요한데, ascii 영역을 특별히 많이 사용하는 어플리케이션의 경우에 모든 문자를 32비트로 표현한다는 것은 상당한 낭비입니다. 그래서 ascii 영역은 1바이트로 표현하고, 전체 유니코드 영역에 대해 2, 3, 4바이트별로 각각 표현할 수 있는 범위를 정해서 가변적으로 변환하는 것이 utf-8이라고 하는 encoding scheme의 가장 큰 특징이라고 할 수 있습니다. 예를 들면, 한글의 경우는 전부 3바이트대의 표현 영역에 들어 있습니다.

lacovnk의 이미지

http://www.jinsuk.pe.kr/Unicode/Unicode_intro-kr.html

"진숙의 유니코드 입문서" 라는 페이지입니다. 자세한 것 같군요~

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.