URI/IRI에 따른 웹 주소의 % 인코딩 문제

noname_nobody의 이미지

rfc3986에서 URI는 아래와 같이 정의 되어 있습니다.
http//www.ietf.org/rfc/rfc3986.txt

그런데 지금 시대가 시대이니만큼, IRI도 검토되고 있고 인터넷 도메인 주소도 영문 체계 뿐 아니라 다국어 체계가 도입될 것이라고 들었습니다. 올해 1월에 IRI가 RFC 문서로,
http//www.ietf.org/rfc/rfc3987.txt

그리고 W3C에서도 IRI에 대해 언급하고 있습니다.
http//www.w3.org/International/O-URL-and-ident.html

문제는 % 인코딩입니다. 일반적으로 URI에는 RFC 문서에 정의 되어 있는대로 그냥 통과 되어도 되는 문자열 이외에는 반드시 % 인코딩을 하도록 되어 있습니다.

그런데 IRI를 따르면 한글 문자와 같이 ALPHA 문자가 아닌 것도 그대로 써도 되는지요? del.icio.us 북마크 서비스를 써보신 분은 알겠지만, 사이트 전체가 UTF-8 인코딩을 쓰면서 % 인코딩을 하지 않고 주소 그대로 기록하고 보냅니다. 이게 현재 마련된 표준안에서 맞는 형태인지 궁금합니다.

lifthrasiir의 이미지

yser wrote:
rfc3986에서 URI는 아래와 같이 정의 되어 있습니다.
http://www.ietf.org/rfc/rfc3986.txt

그런데 지금 시대가 시대이니만큼, IRI도 검토되고 있고 인터넷 도메인 주소도 영문 체계 뿐 아니라 다국어 체계가 도입될 것이라고 들었습니다. 올해 1월에 IRI가 RFC 문서로,
http://www.ietf.org/rfc/rfc3987.txt

그리고 W3C에서도 IRI에 대해 언급하고 있습니다.
http://www.w3.org/International/O-URL-and-ident.html

문제는 % 인코딩입니다. 일반적으로 URI에는 RFC 문서에 정의 되어 있는대로 그냥 통과 되어도 되는 문자열 이외에는 반드시 % 인코딩을 하도록 되어 있습니다.

그런데 IRI를 따르면 한글 문자와 같이 ALPHA 문자가 아닌 것도 그대로 써도 되는지요? del.icio.us 북마크 서비스를 써보신 분은 알겠지만, 사이트 전체가 UTF-8 인코딩을 쓰면서 % 인코딩을 하지 않고 주소 그대로 기록하고 보냅니다. 이게 현재 마련된 표준안에서 맞는 형태인지 궁금합니다.

IRI는 아직 별로 볼 필요가 없는 표준이며, 쓰게 된다 하여도 사실상 URI에서 유니코드 문자를 다룰 때 사용하는 인코딩을 utf-8로 정한 거나 마찬가지입니다. (즉 "가"는 URI에서 utf-8 인코딩 쓸 때와 마찬가지로 path 부분에서는 "%EA%B0%80"로 써야 합니다.) 게다가 현재 URI를 쓴다고 되어 있는 표준에서는 IRI를 그대로 쓸 수 없으며 URI로 변환 과정을 거쳐야 합니다. -_-;;

그리고 del.icio.us의 경우 (만약 IRI라면) 그렇게 하는 것이 맞습니다. 문서에서는 처음에 기술된 IRI로부터 UCS sequence를 얻어 내는 과정이 적혀 있는데, 인코딩이 utf-8이거나 utf-16이면 normalization을 하지 않고 그대로 UCS로 변환하도록 되어 있습니다. (즉 쓰여진 그대로 utf-8로 인코딩된 것으로 인식됩니다.) IRI가 아니라 URI의 경우 어떻게 되는지는 모르겠네요.

== 조금 있다가 추가 ==

URI의 경우 ASCII 안에 존재하는 문자만 가능합니다. HTML에서 따로 URI의 extension 등을 만든 게 아니므로 HTML에서 저런 식으로 URI를 쓰는 건 맞지 않습니다. 단, HTML 스펙에서는 저런 경우의 처리 방법으로 utf-8로 가정하고 인코드할 것을 권장하고 있긴 합니다.

- 토끼군

noname_nobody의 이미지

답변 감사합니다.
딜리셔스가 야후에 인수되고 난 이후에 바뀐건지, 언젠가부터 URI에도 인코딩을 하더군요. 이전에는 태그명이 한글로 쓰여져 있을 때 그 링크의 주소도 인코딩 없이 그대로 링크 되어 있었습니다. 그런데 지금은 UTF-8 인코딩된 문자로 링크 되어 있군요. 이게 맞는 방식인가 보네요.

개인적으로 주소창에 한글이 그대로 나온다는 점이 매력적이었는데.. 아직까진 이 방식이 맞지 않다면 어쩔 수 없군요. 허나 %aa.... 된 주소창은 역시 보기 괴로운 건 사실입니다. 어서 빨리 주소창에도 한글 링크 그대로 쓸 수 있는 날이 오기를..

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.