유니코드에 대한 질문

rockme의 이미지

한글 표현에 대한 관심이 있어 여러가지 테스트를 해보고 있습니다. 그런데
'▨' 이런 문자를 2바이트 데이터형에 넣어서 16진수를 출력해보니 a2c9라 나오더군요 그래서 유니코드 테이블에 찾아보니 위의 문자가 아니라 6이란 숫자(아스키코드 6이 아니라)이더군요. 그럼 위의 문자는 유니코드가 아니란 말인데 그럼 위의 문자를 쓸때는 어떤 인코딩방법을 쓰는지 궁금합니다.

그리고 유닉스에서는 보통 한글을 표시해 줄때 어떤방식을 쓰는지도 좀 가르쳐 주세요

logout의 이미지

글쎄요. 유니코드에서 사각형 문자를 어떻게 표현하는지는 잘... :)

어쟀든 현재까지 리눅스에서는 완성형 코드를 이용해서 한글을 표현하고 있습니다. 하지만 리눅스에서도 이제 유니코드를 지원하고 있습니다만 아직까지 한글 사용자의 입장에서 유니코드로 한글을 표현하는 경우는 거의 드뭅니다.

유닉스에서 유니코드의 이용에 관심이 많으시다면 맥 오에스 텐을 보시길 추천합니다. 오에스텐은 아예 디폴트로 캐릭터 셋을 유니코드로 못박아 놓았습니다. 실제, ftp 클라이언트들을 이용해서 한글로 이름이 붙어있는 파일을 다운받으면 파일명이 깨집니다. (이때문에 euc-kr에서 유니코드로 파일명 변환이 가능한 ftp 클라이언트를 사용해야 합니다.)

영문 사용자의 입장에서는 유니코드로의 전환이 그다지 불편하지 않습니다. 영문 문서는 유니코드로 보나 아스키로 보나 똑같은 코드 체계를 갖고 있기 때문입니다.

"I conduct to live,
I live to compose."
--- Gustav Mahler

blackmir의 이미지

UTF8에 한해서 영문 ASCII와 Unicode의 영문이 같습니다.

UTF16(이렇게 부르는지 잘 모르겠군요. :D ) 같은 경우 영문도 16bit로

표현한다고 합니다.

UTF8은 ASCII의 경우 8bit를 사용하고 ASCII가 아닌 다른 문자셋이나 심볼등에 대해서는 16bit를 사용한다고 들었습니다.

'▨' 같은 경우는 한글을 사용할 때 남은 영역에 할당된 것이 아닐까요?

Unicode의 경우 심볼에 대해서는 따로 영역을 지정하고 있습니다. 더 자세한 사항은

www.unicode.org에 나와있습니다.

꼬랑지. Unicode관련 문서가 www.unicode.org에 있는데 양이 장난이 아니군요.
꼬랑지2. 틀린것이 있으면 말해주십시오:P

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.