유니코드의 코드를 보는 방법?

seoleda의 이미지

어떤 사람이 짜 놓은 XML을 보니 다음과 같은 구문이 보이더라고요..

서울특별시

그래서 저게 무슨 뜻일까? 하고 고민하던중에, c11c가 유니코드로 '서'라는 글자더군요. 그런데 저도 역시 저러한 문자열을 만들어야 합니다. 하지만 제가 생각나는 방법은 일일이 유니코드 테이블에서 찾아서 만드는 방법밖에 모르겠네요. TT

한글코드간의 변환하는 프로그램은 보이는데, 한글을 메모리에 저장된 실제값(?)으로 표시하는 방법은 잘 모르겠습니다.

변환할게 좀 많은데.. 좋은 방법알고 계시면 알려주세요.. ^^

감사합니다.

bear의 이미지

아래아 한글이나 MS 워드를 이용해 보세요..

예전에 위에 2개를 이용해서 유니코드 작성하고 읽고 했던 기억이 있습니다.

익명 사용자의 이미지

내용을 저장하시고, 웹브라우저에서 열어보세요.

*브라우저의 /보기/인코딩/.... 해보면....

seoleda의 이미지

조금더 자세히 알려 주시면 안될까요? ^^

익명 사용자의 이미지

*.xml 파일을 웹브라우저로 열어보세요.

정태영의 이미지

seoleda wrote:
서울특별시

이건 정확하게는.. 유니코드가 아니라.. 유니코드 데이타를 url_encode 한 결과입니다..
url_decode 하신 후.. ucs_2 를 지원하는 편집기를 사용해서 보시면 됩니다..

아니면 url_decode 하시고.. iconv 등을 이용해서.. utf-8 등으로 변환한 다음에 보셔도 되구요..

url_encode,decode 등은... libwww 등에 이미 구현되어 있구요 :)

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

정태영의 이미지

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

ganadist의 이미지


$ python
Python 2.3.4 (#1, Oct 15 2004, 18:19:48)
[GCC 3.4.2  (Gentoo Linux 3.4.2-r2, ssp-3.4.1-1, pie-8.7.6.5)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> unicode('서')
u'\uc11c'

----
데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러

nohmad의 이미지

정태영 wrote:
seoleda wrote:
서울특별시

이건 정확하게는.. 유니코드가 아니라.. 유니코드 데이타를 url_encode 한 결과입니다..
url_decode 하신 후.. ucs_2 를 지원하는 편집기를 사용해서 보시면 됩니다..

아니면 url_decode 하시고.. iconv 등을 이용해서.. utf-8 등으로 변환한 다음에 보셔도 되구요..

url_encode,decode 등은... libwww 등에 이미 구현되어 있구요 :)

정확하게는 html이나 xml에서 정의하는 character entity라고 합니다. 브라우저로 열어서 보는 게 제일 간편하지 않나요?

정태영의 이미지

nohmad wrote:
정확하게는 html이나 xml에서 정의하는 character entity라고 합니다. 브라우저로 열어서 보는 게 제일 간편하지 않나요?

http://www.w3.org/TR/html4/charset.html#h-5.3.1
정확하게는 이 녀석인데.. 정식 명칭이 정확하게 뭔지는 모르겠군요 :)

뭐 하튼 browser 를 통해서 보면.. xml 이.. 소소 그대로 보여지는게 아니라..
나름대로 다 파싱되서 트리형태로 보여질텐데요..

=3=33

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

Prentice의 이미지

참고로, 일괄변환을 하시는 것이 아니라면, gucharmap이라는 프로그램을 사용하시면 문자표에서 쉽게 검색을 해보실 수 있습니다.

변환할 양이 많다면 못 써먹으시겠지만 가끔 사용하시기엔 이쪽이 편하지 않을까 생각합니다. ^^;;

덧. 그런데 현재 윈도용 0.4.0 바이너리는 한글 검색이 안되네요. 이런.. X용은 제가 해본 바로는 잘 됩니다.

송효진의 이미지

http://phpschool.com/bbs2/inc_view.html?id=10882&code=tnt2

&#10진수; 로 변환되는겁니다.
&#x16진수; 로 고쳐서 쓰면 될것 같네요.

seoleda의 이미지

관심을 가지고 답변 달아주신 분들 모두 감사합니다.^^

문제는 ganadist님의 답글로 해결했습니다.

^^

nohmad의 이미지

루비 언어로 간단하게 구현해보았습니다. 로케일에 따라 잘 출력해줄 것입니다.

#!/usr/bin/ruby -Ku

require 'iconv'
require 'strscan'

def get_iconv
  lcall = ENV['LC_ALL'].split('.')[1].gsub(/[^\w]/, '').downcase
  return Iconv.new(lcall, 'utf-8')
end

def convert_utf8(text)
  ss = StringScanner.new(text)
  $_ = ''
  begin
    until ss.eos?
      if ss.scan(/&#/)
        entity = ss.scan_until(/(x?[0-9a-f]+);/i)
        base = entity[0].chr.downcase == 'x' ? 16 : 10
        $_ << [entity[1...-1].to_i(base)].pack('U*')
      else
        $_ << ss.getch
      end
    end
  rescue
    puts "Error:" + $!
  end
  return $_
end

if $0 == __FILE__
  if ARGV.size == 0
    input = $<.read rescue DATA.read
  elsif ARGV[0] =~ /(-h|--help)/
    puts "Usage: \"#$0 < filename\" or \"#$0 filename\""
    exit 1
  else
    input = open(ARGV[0]).read rescue "Cannot find #{ARGV[0]}"
  end
  utf = convert_utf8(input)
  out = get_iconv
  puts out.iconv(utf)
end

# vim: fenc=utf-8 sts=2 sw=2 et

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.